CN108604313B - 自动化的预测性建模与框架 - Google Patents

自动化的预测性建模与框架 Download PDF

Info

Publication number
CN108604313B
CN108604313B CN201780010748.1A CN201780010748A CN108604313B CN 108604313 B CN108604313 B CN 108604313B CN 201780010748 A CN201780010748 A CN 201780010748A CN 108604313 B CN108604313 B CN 108604313B
Authority
CN
China
Prior art keywords
layer
residual
framework
input signal
neurons
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780010748.1A
Other languages
English (en)
Other versions
CN108604313A (zh
Inventor
单瀛
T·R·霍恩斯
焦健
王海晶
俞栋
J·毛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108604313A publication Critical patent/CN108604313A/zh
Application granted granted Critical
Publication of CN108604313B publication Critical patent/CN108604313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了预测性框架的系统和方法。该预测性框架包括可适应的、可执行的神经元的多个神经层。神经元接受一个或多个输入信号,并产生可以由上层神经层使用的输出信号。输入信号由编码神经层接收,在编码神经层中,输入信号和编码神经元之间存在1:1的对应关系。输入信号在编码层处被接收,并由各种神经层连续处理。目标函数利用最顶层神经层的输出信号,根据目标来生成针对数据集的预测性结果。在一个实施例中,目标是:确定用户关于搜索结果集中的特定内容项的交互的可能性,或者确定用户关于搜索结果集中的任何内容项的交互的可能性。

Description

自动化的预测性建模与框架
技术领域
本公开的实施例一般地涉及一种用于确定针对数据集的预测结果的计算机实现的方法。
背景技术
对于搜索引擎提供商的一个挑战是要能够预测一个人与给定内容项的交互的可能性,或者,在搜索结果页面的多个项的上下文的情况下,在搜索结果页面中的所有搜索结果和/或内容项中,此人会选择哪一个或与哪一个进行交互?
为了生成关于用户与搜索结果页面上的任何给定内容项、或者特定内容项的交互的概率/可能性,搜索引擎提供商在公式(或公式集)中利用并组合广泛的标准、条件和/或因素,以生成用户交互的各种概率和可能性。然而,虽然公式的结果(概率性确定)根据查询日志和训练模型而被确定,但公式是一个或多个人的人工产物。这些“编码员”从各种信号(即,对于搜索引擎可用的、与接收查询有关的标准、条件和/或因素)中选择,并且基于他们的专业知识和直觉,确定如何对所选信号进行解释、限制、组合并加权,然后产生公式(或多个公式),该公式(或多个公式)生成表示用户交互的概率或可能性的数。
显然,当公式是根据特定的人(或一组人)的专业知识、经验和直觉而被生成的时候,扩展和修改也是直觉和实验的产物。此外,如果编码员离开该组或公司,则会产生空白,并且通常会丢失关于公式“如何”和“为何”以某种方式被制定的原理知识。例如,如果一个特定信号不再可用,或者如果有附加的信号变为可用,则修改给定公式需要最初生成公式所需的专业知识、实验方法和直觉,然而最初制定公式的人员可能会或可能不会依旧能够提供帮助。简而言之,这些人工制定的公式脆弱并且无法管理。
发明内容
以下发明内容被提供,用于以简化的形式介绍所选择的概念,这些概念将在下文的具体实施方式中被进一步描述。该发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
根据所公开的主题的各个方面,提供了用于提供预测性框架的系统和方法。该预测性框架包括可适应的、可执行的神经元的多个神经层。神经元接受一个或多个输入信号,并产生可以由上层神经层使用的输出信号。输入信号由编码神经层接收,在编码神经层中,输入信号和编码神经元之间存在1:1的对应关系。针对数据集的输入信号在编码层处被接收,并由多个神经层连续地处理。目标函数利用最顶层神经层的输出信号,根据目标生成针对数据集的预测性结果。在一个实施例中,目标是:确定用户关于搜索结果集中的特定内容项的交互的可能性,或者确定用户关于搜索结果集中的任何内容项的交互的可能性。
根据所公开的主题的附加方面,呈现了用于提供预测结果的计算机实现的框架。该框架包括多个神经层,多个神经层包括多个中间神经层和编码层。该框架还包括目标函数。关于多个神经层,每个神经层包括多个神经元,其中每个神经元是可执行对象,可执行对象接受一个或多个输入并生成输出。编码层是第一神经层,并且包括多个编码神经元,多个编码神经元具有与针对用于评估的数据集的多个输入信号的1:1的对应关系。在执行中,目标函数根据预定目标,从多个神经层中最顶层神经层的输出信号来确定预测结果。在运算中,目标函数根据预定目标,从最顶层神经层的输出信号确定预测结果,并将预测结果提供给请求方。
根据所公开的主题的另外的方面,呈现了一种计算机系统,该计算机系统被配置为生成关于基础数据的预测结果。该计算机系统包括处理器和存储器,其中处理器执行在存储器中存储的、作为附加的可执行组件的一部分或与附加的可执行组件相结合的指令,来生成预测结果。附加的组件包括可执行预测性框架和结果分析模块。关于框架,该框架包括多个神经层,多个神经层中包括多个中间神经层和编码层。每个神经层包括多个神经元,其中每个神经元是可执行对象,该可执行对象接受一个或多个输入,并生成输出。编码层是第一神经层,并且包括多个编码神经元,多个编码神经元具有与针对用于评估的数据集的多个输入信号的1:1的对应关系。目标函数根据预定目标从框架的最顶层神经层的输出信号来确定预测结果。在运算中,框架通过编码层来获取输入信号,并且连续地通过多个神经层至最顶层神经层来处理输入信号,在最顶层的神经层,目标函数获取输出信号,并生成预测性数据。此外,结果分析模块获取针对数据集的预测结果,根据关于数据集的实际结果来确定预测结果的准确性,并根据预测结果和实际结果生成针对框架的校正数据。校正数据随后被反向传播通过框架,以更新预测性框架的当前模型。
根据所公开主题的又一些方面,呈现了一种计算机实现方法,用于确定针对数据集的预测结果。该方法包括提供可执行的预测性框架的步骤,其中该框架根据经验证的模型来运算。该框架包括多个神经层,多个神经层中包括多个中间神经层和编码层。每个神经层包括多个神经元,其中每个神经元是可执行对象,该可执行对象接受一个或多个输入,并生成输出。编码层是第一神经层,并且包括多个编码神经元,多个编码神经元具有与针对用于评估的数据集的多个输入信号的1:1的对应关系。目标函数根据预定目标,从多个神经层的最顶层神经层的输出信号来确定预测结果。在执行中,框架通过编码层获取针对用于评估的数据集的输入信号,并且连续地通过多个神经层至最顶层神经层来处理输入信号。该方法还包括获取与数据集对应的输入信号,用于由预测性框架处理。该数据集由预测性框架处理。预测结果从目标函数被获取,并被提供给请求方。
附图说明
所公开的主题的前述方面和许多伴随的优点将变得更容易理解,因为通过结合以下附图来参考以下描述,它们被更好地理解,其中:
图1是图示了适于实现所公开主题的各个方面的示例性网络环境的示意图;
图2是图示了示例性框架关于框架的训练和验证的框图;
图3是图示了示例性环境的框图,在该环境中,预测性结果关于请求数据集而被提供给计算机用户;
图4是图示了适于训练根据所公开主题的各方面的预测性框架(诸如图1的框架)的示例性例程的流程图;
图5是图示了用于关于实际数据集提供预测性结果的示例性例程的流程图;
图6是图示了编码有用于生成请求数据集的预测性结果的指令的示例性计算机可读介质的框图;以及
图7是图示了被配置为提供根据所公开主题的各方面的、用于生成预测性结果的框架的示例性计算设备的框图。
具体实施方式
为了清楚和定义的目的,本文档中使用的术语“示例性”应被解释为用作某事物的说明或示例,并且不应将其解释为该事物的理想或主要说明。在文体上,当词语或术语前跟“(多个)”时,该含义应被解释为表示该单词或术语的单数或复数形式,这取决于该术语或项是否只存在一个实例,或存在一个或多个实例。例如,术语“(多个)用户”应当被解释为一个或多个用户。
根据本文使用的定义,术语“神经元”指的是可执行对象(软件对象、硬件对象、或两者的组合),该可执行对象接受一个或多个输入,并生成输出。一般而言,神经元对各种输入信号执行解释性、组合性和变换性操作,以产生和输出信号。每个神经元根据预定的函数集(函数集可以是唯一的,也可以在该神经元所驻留的神经层的其他神经元之间被共享)执行,以便于标识来自输入的某些特性。每个神经元还包括状态信息,反映功能的当前状态,以及分配给输入信号的权重。神经元还可以包括先前状态信息,反映神经元的先前状态。整体而言,每个神经层的神经元共同构成预测性框架的当前模型,该模型支配了如何从输入信号生成预测数据。
术语“神经层”是指神经元的布置或聚集,该布置或聚集接受来自较低层的神经元的输入/信号(或尚未被神经层处理的输入/信号),并为较高层生成输出/信号。通常,相同神经层的神经元关于信号彼此不交互,即,神经层的一个神经元不向相同神经层的另一神经元提供输入或利用相同神经层的另一神经元的输出。
与用于生成预测性结果的人工制定的公式相反,提出了用于自动化的预测性建模和生成的框架。有利地,不考虑人工组合性工作,输入被接受。根据所公开主题的各方面,采用多层神经网络的深度学习技术被利用,以自动地组合、变换和处理多个输入信号,以便于标识用户与内容项的交互概率,内容项的示例有(仅作说明而非限制):搜索结果、广告、信息链接、搜索结果页面等。此外,尽管所公开主题的大部分讨论被展现为与预测用户关于搜索结果中的一个或多个内容项的交互有关,但是通过利用多个神经层,其包括一个在输入信号和编码神经元之间具有1:1对应关系的编码层、训练模型、适当配置的目标函数和结果的反向传播,可以预期所公开主题可以适当地被应用于期望预测结果的其他场景。仅作说明而非限制,预测性框架的目标函数可以被适当地配置,以便在图像处理、语音处理、金融等各种领域中进行回归分析、分类和排名。
如上所述,尽管可能的信号组合的数目与人工制定的公式呈对数增加,但是根据所公开主题,人工制定元素(即,神经元)的数目与所使用信号的数目呈线性增加。更具体地,为了将信号输入到框架中,所公开的主题利用与输入信号具有1:1(一比一)的对应关系的编码神经元,而不是利用人工制定和组织的组合。换言之,对于每个输入信号,在所谓的编码层中都存在与之对应的编码神经元。编码神经元与特定信号相关联,并将该输入信号编码成可以由框架的其他神经层使用的格式,而不管被输入到框架的任何其他输入信号。实际上,为了标识目标(例如,用户与内容项的交互的可能性)的信号组合被自动生成并通过框架的各种神经层被处理。如下所述,对输入信号的处理使得框架根据训练数据集、按照预定目标来细化其运算,并根据验证数据集进行验证。
然后转到附图,图1是图示了示例性框架100的框图,框架100用于建模和生成关于人/计算机用户是否将与搜索结果页面中的某个内容项,或一个或多个内容项交互的预测性信息。根据所公开主题的各方面,框架100包括多个神经层102-112和目标函数114。一般而言,每个神经层包括多个神经元,诸如神经元118、e1-en、C1-Cm、以及R1-R0。如上所述,每个神经元根据预定函数集(函数集可以是唯一的,也可以在该神经元所在神经层的其他神经元之间被共享)来执行,以便从接收到的输入来标识某些特性。来自较低层的神经元的输出被作为输入提供给紧接在上方的神经元层的一个或多个神经元,其中“上方”和“下方”(以及“较高”和“较低”)指的是神经层的处理顺序。例如,关于框116,神经元L1-L3在较低的神经层120上,并且这些神经元的输出是较高神经层122上的神经元U1-U3的输入信号。在该示例中,关于数据的处理流程,较低神经层120在“较高”神经层122的“下方”。
关于每个神经元接收的输入,各种神经元中的每一个神经元可以单独地关联于和控制以下权重,该权重被赋予该神经元接收到的输入信号。例如,接收来自神经元L1-L3的输入的神经元U1可以将不同的权重值与输入信号相关联,即神经元U1可以将来自神经元L2的输入信号的权重(即,向该输入信号分配权重)设为零,有效地完全忽略该输入,并将其他权重与来自神经元L1和L3的输入信号相关联。
如上所述,从输入信号S1-Sn开始,这些信号通过框架100(即深度学习框架)的各种神经层被处理,每个神经层产生越来越多的抽象结果(输出信号),直到在最顶层,目标函数114根据预定目标,(根据其自身的函数、权重因子和启发式算法)利用最顶层神经层112的输出信号,例如用于生成用户关于搜索结果集内的一个或多个内容项的交互的可能性,或者备选地,生成用户关于搜索结果集中的特定内容项的交互的可能性。
仅作说明而非限制,输入信号S1-Sn可以对应于多种因素,包括:用户标识(即,被呈现该搜索结果集的用户);查询;查询的实体/主题;关键词;登广告者;广告活动;当日时间;星期几;节假日;季节;用户的性别;广告;等等。实际上,这些信号通常对应于与编码员使用的信号相同的信号,编码员组合信号以关于用户交互生成他们的预测,并且在许多情况下,这些信号与数千个被考虑的信号相对应。这些信号是第一神经层102的输入,该神经层被称为编码层。
如上所述,并且根据所公开主题的各方面,编码层102通常在输入信号和神经元之间具有1:1的对应关系。每个神经元e1-en被编码,使得它可以接收对应的输入信号,并对该输入信号进行编码,使得数据/输入信号可以被框架100的其他神经元利用。仅作说明而非限制,表示由计算机用户所提交的查询的输入信号可以被编码为3个字母的N-gram,并被映射到由所有可能的3个字母的N-gram的矩阵(约有56,000个条目的矩阵或向量)。当然,某些输入信号的内容,诸如表示当日时间的输入信号,可能不需要编码。在这种情况下,编码神经元可以可选地不被包括,或被编码为除了让信息通过之外什么都不做。
压缩层104(有时被称为堆叠层)被提供,以减小来自编码神经元e1-en的输出信号的稀疏度或数据大小。压缩层104可选地被包括,并被定位于恰在编码层102的上方。通常,压缩层104在输入信号(即,编码神经元的输出信号)和压缩神经元C1-Cn之间也具有1:1的对应关系。作为说明,并且考虑上文关于3个字母的N-gram的矩阵/向量的示例,N-gram矩阵通常是极其稀疏的矩阵:即在56,000个条目的矩阵中,除了可能不到十几个的非零元素,其余都为空。显然,稀疏的输入信号要求大量的处理和存储方面的关注。因此,压缩层的对应压缩神经元被赋予以下任务:在不损失保真度的情况下,减少输入信号的稀疏度或大小,至更密集的格式,即,经压缩的信号准确地表示基础信息。当然,正如与编码神经元的情况一样,某些输入信号的内容,诸如表示当日时间的输入信号,可能不需要被压缩。在这种情况下,压缩层中的压缩神经元可以可选地不被包括,或被编码为除了让信息通过之外什么都不做。
第三残差层106可选地被包括在框架100中,并且驻留在紧邻压缩层104的上方。每个残余神经元R1-Rn(其中n表示输入信号的数目)的独特结构是用于在两层修正线性操作(ReLU)之后加回输入信号的元素,以标识每元素的最大值运算符,如图1示出的残差神经元R1的分解图。以与先前的2个神经层类似的方式,残差层通常在输入信号(即,压缩神经元的输出信号)和残差神经元R1-Rn之间具有1:1的对应关系。
虽然以上描述的前些层通常包括输入信号和层神经元之间的1:1对应关系,但“中间”神经层并不被如此限制。实际上,每个中间神经层可以包括比该层的输入信号多得多的神经元,并且每个神经元可以接受任何数目的可用输入信号。根据所公开的主题的各方面,被适当配置的框架(诸如框架100)可以包括多个中间神经层。尽管框架100图示了五个中间神经层,包括神经层108-112,所公开主题不被如此限制。实际上,如省略号所指示,可以存在任何数目的中间神经层,尽管通常至少三个会被使用以达到期望的结果。
附加地,并且根据所公开主题的其他实施例,中间神经层的一个或多个神经元接收先前的、较低神经层的所有输出信号。实际上,给定中间神经层的每个神经元接收先前神经层的每个输出信号作为输入信号可能是常见的。通常地,然而不是唯一情况,给定神经层的神经元被编码为以在该神经层的其他神经元之间唯一的方式来处理输入信号。分配给输入信号的各种权重,组合性指令和处理,以及其他编码在神经层的各种神经元之间提供了多样性。此外,第一中间层(诸如神经层108)中的神经元数目不需要与另一个中间层的神经元数目匹配,诸如神经层110或112。
目标函数114接受最顶层神经层112的神经元的输出信号,并执行对信号的最终分析,以产生输出:用户关于基础数据(即,输入信号S1-Sn从中被抽取的基础数据)的交互的可能性。关于搜索结果的内容项,所产生的输出是用户关于该项的交互的可能性,或者关于搜索结果页面,所产生的输出是用户与搜索结果页面内的内容项交互的可能性。
为了确保示例性框架100生成可靠的结果,框架必须被训练。转到图2,图2是关于框架的训练和验证图示了示例性框架100的框图。实际上,为了训练框架,使用了一个或多个训练数据集202-206。更具体地,对应于训练数据集的输入信号被标识,并被提供给框架,框架如上所述地处理数据。目标函数114基于对输入信号的处理来生成预测结果208。这些预测结果随后被提供给结果分析服务212,结果分析服务212访问与当前训练数据集相对应的实际结果,诸如实际结果218。基于实际结果,结果分析服务212确定/标识关于预测结果的校正数据,并且关于当前训练数据集(经由目标函数114)将校正数据210提供给框架100。校正数据210包括关于预测结果208中哪些是不正确的指示。对于框架的部分,框架反向传播校正数据“向下”通过神经层,并且通过这样做,可以进行对各种中间神经元层的各种神经元的运算的校正。这些校正可以包括将不同的权重与各种输入信号相关联,以新的方式变换和/或组合结果,等等。
如所指示的,通过校正数据的处理和反向传播,多个训练数据集被用于训练框架100。在框架训练的某一时刻,在已确定数目的训练数据集被处理之后,验证数据集也被处理。然后,该(多个)验证数据集通过框架100被处理,使得目标函数114为验证数据生成预测结果208。结果分析服务212访问与该组验证数据集214相对应的实际结果216,以确定框架100当前状态的性能/准确度。然而,在验证框架100的当前状态时,结果分析服务不再像对训练数据集一样,提供用于反向传播的校正数据210。校正数据210不被提供给框架100是归因于不期望框架在验证数据214上训练,框架在验证数据214上训练可能导致当前模型准确地预测验证数据集214的结果,而关于其他数据集不再准确。相反地,校正数据210被用于评估框架100的当前状态(被称为当前模型220)是否满足一个或多个针对预测结果的预定的准确度阈值。在确定当前模型满足或超过预定的准确度阈值时,模型可以结合框架而被使用,以生成关于实际数据集的预测性结果,如图3所示。
图3是图示了示例性环境300的框图,在示例性环境300中,关于请求数据集302(即,针对其预测结果被请求的数据集),预测结果被提供给计算机用户301。如上所述,来自请求数据集302的各种输入信号被标识,并被提供给框架100,框架100具有已被验证为满足或超过预定的准确度阈值的当前模型。实际上,输入信号经由编码层102被提供给框架100。然后,输入信号由框架的各个层处理,使得目标函数114生成预测结果304。然后经由计算设备306,这些预测结果被提供给提出请求的计算机用户301。
作为不间断的学习过程的一部分,附加于将预测结果304提供给提出请求的计算机用户301之外,预测结果还被提供给结果分析过程212。关于目标(例如,计算机用户是否与内容项交互),结果分析过程212随后获取实际结果310,这些实际结果通常来自向提出请求的用户提供结果的搜索引擎,根据实际结果,生成校正数据308,并向框架提供校正数据用于反向传播。
现在转向图4,图4是图示了示例性例程400的流程图,该例程适合于根据所公开主题的各方面来训练预测性框架,诸如框架100。从框402开始,提供了适合于深度学习的框架,如上文中关于图1的框架100所描述的。根据所公开主题的各方面,框架包括嵌入层102,嵌入层102在输入信号和嵌入层内的嵌入神经元之间具有1:1的对应关系。此外,还可以可选地包括压缩层104,以及残差层106,每层在输入信号(来自紧邻的较低层神经层)与神经元之间具有1:1的对应关系。
在框404,第一训练数据集被获取或访问。在框406,与当前处理的训练数据集对应的输入信号被获取。在框408,根据针对该训练数据集所标识的输入信号,训练数据集由框架100处理。关于图1,上文描述了处理输入信号。
在框410,根据目标函数114,预测结果被确定,以及在框412,针对实际结果对预测结果进行分析。
在框414,根据预测结果与实际结果的对比,校正数据被生成。在框416,校正数据被反向传播通过框架的各种神经层。在框441820,下一个训练数据集被获取,并且例程400返回到框408,以继续处理训练数据。
例程400还示出,周期性地结合训练框架100的当前模型,针对当前的可操作性和准确度的验证也被确定。在这些时候,并且如判定框420所示,还完成了对(由框架的当前模型所确定的)当前结果是否在准确度阈值内的确定。如上所述,验证当前模型包括处理验证数据集,并针对实际结果检查预测结果。如果预测结果在可接受的验证阈值内,则在框422处,框架的当前模型作为经验证的模型而被存储。备选地,如果预测结果不在预定的准确度阈值内,则框架的当前模型不被存储为经验证的模型。
应当理解,尽管图4图示了420和422返回框418的步骤,但这仅用于对例程400的说明性目的,而不应被解释为限制性实施例。实际上,当前框架模型的验证可以关于训练集的处理在并行线程中运算,或者被散布在训练数据集内。当然,当处理验证数据集时(如上所述),通常不会有校正数据和反向传播,以便将验证集用作验证集,而不是训练集。此外,例程400不包括结束步骤。虽然框架训练可以结束,但结束步骤的缺乏表示框架的不间断训练,包括将实际请求数据用于训练目的。
现在转向图5,图5是图示了示例性例程500的流程图,用于提供关于实际数据集的预测结果。从框502开始,具有验证模块的框架100被提供。如上所述,验证模型与已被验证为提供在预定的准确度阈值内的预测结果的工作模型相对应。
在框504,请求数据302被获取以供处理,以及在框506,来自请求数据的输入信号被获取。在框508,从编码层102开始,框架100处理了由所获取的输入信号表示的请求数据。在框510,预测性结果304由框架100的目标函数114确定。在框512,预测性请求被提供给请求方301。
除了提供预测性结果之外,并且作为例程500的可选扩展,在框514,与请求数据302相对应的实际结果310被访问,并且在框516,结果分析服务根据实际结果进行了对预测性结果的分析。在框518,校正数据308被生成,以及在框520,校正数据被反向传播通过框架100,如上文关于图1和图3所描述的。此后,例程500终止。
关于上述例程400和500,以及本文描述的其他过程,虽然这些例程/处理关于离散步骤被表达,但是这些步骤应当被视为本质上是逻辑性的并且可以或可以不对应于给定实现的任意特定实际和/或离散步骤。此外,除非另有说明,否则这些步骤在各种例程和过程中呈现的顺序不应被解释为可以执行这些步骤的唯一顺序。而且,在某些情况下,这些步骤中的一些可以被组合和/或省略。本领域技术人员将认识到,步骤的逻辑表示对于执行所要求保护的主题的各方面是充分有益的,而与逻辑指令/步骤被编码的任意特定开发或编码语言无关。
当然,虽然这些例程和过程包括所公开主题的各种新颖特征,但是其他步骤(未列出)也可以在这些例程中阐述的主题的执行时被执行。本领域技术人员将理解,这些例程的逻辑步骤可以组合在一起或者由多个步骤组成。上述例程的步骤可以并行或串行执行。通常但非排他地,各种例程的功能体现在诸如关于如下图6所描述的计算设备的计算设备的一个或多个处理器上执行的软件(例如,应用、系统服务、库等)中。另外,在各种实施例中,各种例程中的全部或一些也可以被实施在可执行硬件模块中,包括但不限于在系统计算机上的片上系统(SoC)、编解码器、专门设计的处理器和/或逻辑电路等。
如上所述,这些例程和/或过程通常被实施在可执行代码模块中,该可执行代码模块包括例程、函数、循环结构、诸如if-then和if-then-else语句的选择器和切换、赋值、算术计算等。然而,如上所述,每个例程的可执行语句中的准确实现基于各种实现配置和决策,包括编程语言、编译器、目标处理器、操作环境以及链接或绑定操作。本领域技术人员将容易理解,在这些例程中标识的逻辑步骤可以以任意数目的方式实现,因此,上面阐述的逻辑描述足以使得能够实现类似的结果。
虽然所公开的主题的许多新颖方面在应用(也称为计算机程序)、app(小的、通常是单一或狭窄用途的应用)和/或方法中实施的例程中表达,但是这些方面也可以被实施为由计算机可读介质存储的计算机可执行指令,也称为计算机可读存储介质,其是制品。如本领域技术人员将认识到的,计算机可读介质可以托管、存储和/或再现计算机可执行指令和数据以供稍后取回和/或执行。当托管或存储在计算机可读存储设备上的计算机可执行指令由计算设备的处理器执行时,其执行引起、配置和/或适配执行计算设备以执行各种步骤、方法和/或功能,包括上面关于各种所图示例程描述的那些步骤、方法和例程。计算机可读介质的示例包括但不限于:光学存储介质,诸如蓝光盘、数字视频盘(DVD)、光盘(CD)、光盘盒等;磁存储介质,包括硬盘驱动器、软盘、磁带等;存储器存储设备,诸如随机存取存储器(RAM)、只读存储器(ROM)、存储器卡、拇指驱动器等;云存储装置(即在线存储服务);等等。虽然计算机可读介质可以再现和/或导致经由包括载波和/或传播信号的各种传输部件和介质将计算机可执行指令和数据传送到计算设备以由一个或多个处理器来执行,但是出于本公开的目的,计算机可读介质明确地不包括载波和/或传播信号。
转到图6,图6是图示了被编码有指令的示例性计算机可读介质的框图,以如上所述生成请求数据集的预测性结果。更具体地,实现600包括计算机可读介质608(例如,CD-R、DVD-R或硬盘驱动器的盘片),在计算机可读介质608上编码了计算机可读数据606。该计算机可读数据606又包括计算机指令集604,计算机指令集604被配置为根据本文阐述的一个或多个原理进行运算。在一个这样的实施例602中,处理器可执行指令604可以被配置为执行方法,诸如,示例性方法400和400中的至少一些。在另一个这样的实施例中,处理器可执行指令604可以被配置为实现系统,例如,示例性系统700中的至少一些,如下所述。本领域普通技术人员可以设想很多这样的计算机可读介质,该计算机可读介质被配置为根据本文公开的技术进行运算。
现在转向图7,图7是图示了示例性计算设备700的框图,该示例性计算设备700被配置为根据所公开主题的各方面来提供框架,以生成预测性结果。示例性计算设备700包括一个或多个处理器(或处理单元),诸如处理器702,以及存储器704。处理器702和存储器704以及其他组件通过系统总线710互连。存储器704通常(但不总是)包括易失性存储器706和非易失性存储器708。只要存储器被供电,易失性存储器706就保持或存储信息。相反,非易失性存储器708即使在电源不可用时也能够存储(或保持)信息。一般而言,RAM和CPU高速缓冲存储器是易失性存储器706的示例,而ROM、固态存储器设备、存储器存储设备和/或存储卡是非易失性存储器708的示例。
如本领域的技术人员将理解的,处理器702执行从存储器704(和/或从计算机可读介质,诸如图6的计算机可读介质600)取回的指令,以执行如上所述的预测性框架100的各种功能。处理器702可以包括许多可用处理器中的任何一个,诸如单处理器、多处理器、单核单元和多核单元。
此外,图示的计算设备700包括网络通信组件712,以通过计算机网络将该计算设备与其他设备和/或服务互连,包括其他用户设备,例如图3的用户计算设备306。网络通信组件712(有时被称为网络接口卡或NIC)经由物理/有形(例如,网线、光缆等)连接、无线连接或两者,使用一个或多个通信协议,通过网络进行通信。如本领域技术人员将容易理解的,网络通信组件,诸如网络通信组件712,通常包括硬件和/或固件组件(并且还可以包括或包含可执行软件组件),该组件通过传输介质(即,网络)发送和接收数字和/或模拟信号。
示例性计算设备700还包括预测性框架100,预测性框架100包括多个神经层714。此外,这些神经层至少包括编码层102,以及可选的压缩层104和可选的残差层106。此外,除了编码、压缩和残差层之外,预测性框架100还包括多个中间层,如上文关于图1所讨论的。
目标函数114还被包括,作为示例性计算设备700的预测性框架100的一部分。目标函数114利用最顶层神经层的输出信号,根据预定目标来确定关于基础数据的预测结果。如上所述,在一个实施例中,目标函数确定预测性结果,其对应于用户关于搜索结果的内容项的交互的可能性,或者对应于用户关于搜索结果页面的交互的可能性。作为说明而非限制,目标函数可以被训练,以确定用户关于针对给定搜索查询的搜索结果页面上的广告的交互的可能性,或者用户关于搜索结果页面内的付费搜索结果的交互的可能性。当然,应该容易理解,可以根据任何数目的预定目标来有利地训练预测性框架100,使得目标函数在搜索结果域之外关于各种目标生成预测性或解释性结果。
如图7所示,示例性计算设备700还包括结果分析服务212。如上所述,结果分析模块根据实际结果(对于给定的训练数据集)分析预测结果,以确定框架的当前模型是否满足或超过一个或多个准确度阈值。此外,结果分析服务212生成校正数据,该校正数据可以由预测性框架100利用,以通过反向传播来更新各个神经层714内的一个或多个神经元,如上所述。
数据存储718还被包括在示例性计算设备700中。该数据存储包括/存储供预测性框架100使用的信息,包括一个或多个训练数据集724-728以及对应的实际结果734-738。此外,数据存储718包括/存储一个或多个验证集720以及对应的实际结果722。
关于示例性计算设备700的各种组件,本领域技术人员将理解,这些组件中的许多组件可以被实现为存储在计算设备的存储器中的可执行软件模块,被实现为硬件模块和/或组件(包括SoC——片上系统),或两者的组合。实际上,可以根据各种可执行实施例来实现组件,各种可执行实施例包括执行本文档中描述的过程的一个或多个逻辑元素的可执行软件模块,或者包括可执行逻辑以执行本文档中描述的过程的一个或多个逻辑元素的硬件和/或固件组件。作为说明而非限制,这些可执行硬件组件的示例包括:ROM(只读存储器)设备、可编程逻辑阵列(PLA)设备、PROM(可编程只读存储器)设备、EPROM(可擦除PROM)设备等等,其中每个都可以被编码有指令和/或逻辑,这些指令和/或逻辑在执行时执行本文描述的功能。
此外,在某些实施例中,示例性计算设备700的各种组件中的每一个可以被实现为独立的协作过程或设备,与一个或多个计算机系统和/或计算设备一起或在一个或多个计算机系统和/或计算设备上操作。当然,应当进一步理解,上述各种组件应被视为用于执行各种所述功能的逻辑组件。如本领域技术人员将容易理解的,逻辑组件和/或子系统可以以或不以一对一的方式直接对应于实际的分立组件。在实际实施例中,每个计算设备的各种组件可以被组合在一起或跨多个实际组件分布,和/或被实现为计算机网络上的协作过程。
虽然已经描述了所公开主题的各种新颖方面,但是应当理解,这些方面是示例性的,并且不应当被解释为限制。在不脱离所公开主题的范围的情况下,可以对各方面进行变化和改变。

Claims (12)

1.一种包括可执行指令的非暂态计算机可读介质,所述指令在由机器的至少一个处理器执行时,使所述机器实现用于提供预测结果的计算机实现的框架,包括:
多个神经层,所述多个神经层包括:
编码层,所述编码层包括多个编码神经元,每个编码神经元具有用于从输入数据集接收对应的输入信号以进行评估的输入和包括用于所述输入信号的信号嵌入的输出;
多个残差层,每个残差层包括多个残差神经元,每个残差神经元包括没有卷积操作的多个修正线性操作和用于将输入的元素加回到所述残差神经元的求和操作,所述多个残差层中的一个残差层被连接到所述编码层;以及
目标函数,所述目标函数在执行中根据预定目标,从最顶层残差层的输出信号来确定预测结果;
其中,在执行中,所述框架通过所述编码层来获取所述输入信号,并且连续地通过所述多个神经层至所述最顶层残差层来处理所述输入信号;以及
其中,所述目标函数根据所述预定目标,从所述最顶层残差层的所述输出信号来确定所述预测结果,并将所述预测结果提供给请求方。
2.根据权利要求1所述的介质,其中,所述输入信号包括以下中的一项或多项:
用户标识;
查询;
查询的主题;
查询的实体;
关键词;
登广告者;
广告活动;
当日时间;
星期几;
节假日;
季节;
用户的性别;以及
广告。
3.根据权利要求1所述的介质,其中所述目标函数的预先确定的目标是:确定用户关于搜索结果集中的特定内容项的交互的概率。
4.根据权利要求3所述的介质,其中所述搜索结果集的所述特定内容项包括所述搜索结果集中的广告。
5.根据权利要求3所述的介质,其中所述搜索结果集中的所述特定内容项包括所述搜索结果集中的赞助搜索结果。
6.根据权利要求1所述的介质,其中所述目标函数的所述预定目标是确定用户关于搜索结果集中的任一内容项的交互的概率。
7.一种被配置为生成关于基础数据的预测结果的计算机系统,所述计算机系统包括处理器和存储器,其中所述处理器执行在所述存储器中存储的、作为附加的可执行组件的一部分或与所述附加的可执行组件相结合的指令,来生成所述预测结果,所述指令包括:
可执行的预测性框架,其中所述预测性框架包括:
多个神经层,包括编码层和多个残差层,其中:
每个神经层包括多个神经元,每个神经元包括可执行对象,所述可执行对象从较低层接受一个或多个输入并生成输出;以及
所述编码层是包括多个编码神经元的最低神经层,所述多个编码神经元具有与多个输入信号的1:1的对应关系;
所述多个残差层包括多个残差神经元,每个残差神经元包括没有卷积操作的多个修正线性操作和用于将输入的元素加回到所述残差神经元的求和操作,所述多个残差层中的一个残差层被连接到所述编码层;以及
目标函数,所述目标函数在执行中根据预定目标,从最顶层残差层的输出信号来确定预测结果;
其中,在执行中,所述框架通过所述编码层来获取所述输入信号,并且连续地通过所述多个神经层至所述最顶层残差层来处理所述输入信号;以及
其中,所述目标函数根据所述预定目标,从所述最顶层残差层的所述输出信号来确定所述预测结果,并将所述预测结果提供给请求方。
8.根据权利要求7所述的计算机系统,其中,所述输入信号包括以下中的一项或多项:
用户标识;
查询;
查询的主题;
查询的实体;
关键词;
登广告者;
广告活动;
当日时间;
星期几;
节假日;
季节;
用户的性别;以及
广告。
9.根据权利要求7所述的计算机系统,其中所述目标函数的预先确定的目标是:确定用户关于搜索结果集中的特定内容项的交互的可能性。
10.根据权利要求7所述的计算机系统,其中所述目标函数的所述预定目标是:确定用户关于搜索结果集中的任一内容项的交互的可能性。
11.一种用于确定针对数据集的预测结果的计算机实现的方法,所述方法包括:
提供具有经验证的模型的可执行的预测性框架,所述可执行的预测性框架包括:
多个神经层,包括多个残差层和编码层,其中:
每个神经层包括多个神经元,每个神经元包括可执行对象,所述可执行对象接受一个或多个输入并生成输出;以及
所述编码层是最低神经层,并且包括多个编码神经元,所述多个编码神经元具有与多个输入信号的1:1的对应关系;
每个残差层位于所述编码层的上方,所述多个残差层中的一个残差层被连接到所述编码层,每个残差层包括多个残差神经元,每个残差神经元包括没有卷积操作的多个修正线性操作和用于将输入的元素加回到所述残差神经元的求和操作;以及
目标函数,所述目标函数在执行中根据预定目标,从最顶层残差层的输出信号来确定所述预测结果;
其中,在执行中,所述框架通过所述编码层来获取所述输入信号,并且连续地通过所述多个神经层至所述最顶层残差层来处理所述输入信号;以及
其中,所述目标函数根据所述预定目标,从所述最顶层残差层的所述输出信号确定所述预测结果,并将所述预测结果提供给请求方;
获取所述输入信号,用于由所述预测性框架处理;
由所述预测性框架来处理所述输入信号;
从所述目标函数来获取所述预测结果;以及
将所述预测结果提供给所述请求方。
12.根据权利要求11所述的计算机实现的方法,其中所述目标函数的预先确定的目标是确定用户关于搜索结果集中的特定内容项的交互的概率。
CN201780010748.1A 2016-02-12 2017-02-06 自动化的预测性建模与框架 Active CN108604313B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662294792P 2016-02-12 2016-02-12
US62/294,792 2016-02-12
US15/226,196 2016-08-02
US15/226,196 US10685281B2 (en) 2016-02-12 2016-08-02 Automated predictive modeling and framework
PCT/US2017/016759 WO2017139237A1 (en) 2016-02-12 2017-02-06 Automated predictive modeling and framework

Publications (2)

Publication Number Publication Date
CN108604313A CN108604313A (zh) 2018-09-28
CN108604313B true CN108604313B (zh) 2022-09-13

Family

ID=59561590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780010748.1A Active CN108604313B (zh) 2016-02-12 2017-02-06 自动化的预测性建模与框架

Country Status (4)

Country Link
US (1) US10685281B2 (zh)
EP (1) EP3414709A1 (zh)
CN (1) CN108604313B (zh)
WO (1) WO2017139237A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018133034A1 (en) * 2017-01-20 2018-07-26 Intel Corporation Dynamic emotion recognition in unconstrained scenarios
US10353940B1 (en) * 2018-12-11 2019-07-16 Rina Systems, Llc. Enhancement of search results
CN111291860A (zh) * 2020-01-13 2020-06-16 哈尔滨工程大学 一种基于卷积神经网络特征压缩的异常检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101601300A (zh) * 2006-12-14 2009-12-09 汤姆逊许可公司 用自适应增强层预测对位深度可分级视频数据进行编码和/或解码的方法和设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1223709B1 (de) * 2001-01-12 2005-10-26 Siemens Aktiengesellschaft Verfahren und Vorrichtung zum rechnergestützten Überwachen eines Telekommunikationsnetzes
US7937389B2 (en) 2007-11-01 2011-05-03 Ut-Battelle, Llc Dynamic reduction of dimensions of a document vector in a document search and retrieval system
US7756678B2 (en) * 2008-05-29 2010-07-13 General Electric Company System and method for advanced condition monitoring of an asset system
CN101674475B (zh) * 2009-05-12 2011-06-22 北京合讯数通科技有限公司 一种h.264/svc的自适应层间纹理预测方法
US20110080948A1 (en) * 2009-10-05 2011-04-07 Xuemin Chen Method and system for 3d video decoding using a tier system framework
CN103649905B (zh) 2011-03-10 2015-08-05 特克斯特怀茨有限责任公司 用于统一信息表示的方法和系统及其应用
US9009148B2 (en) 2011-12-19 2015-04-14 Microsoft Technology Licensing, Llc Clickthrough-based latent semantic model
US8972318B2 (en) * 2012-05-31 2015-03-03 Qualcomm Incorporated Predicting user behavior using feedback on previously run predictive searches
US9141906B2 (en) 2013-03-13 2015-09-22 Google Inc. Scoring concept terms using a deep network
US9147154B2 (en) * 2013-03-13 2015-09-29 Google Inc. Classifying resources using a deep network
US9519859B2 (en) 2013-09-06 2016-12-13 Microsoft Technology Licensing, Llc Deep structured semantic model produced using click-through data
US9679062B2 (en) * 2013-09-18 2017-06-13 Excalibur Ip, Llc Local recommendation engine
US9535960B2 (en) 2014-04-14 2017-01-03 Microsoft Corporation Context-sensitive search using a deep learning model
US9846836B2 (en) 2014-06-13 2017-12-19 Microsoft Technology Licensing, Llc Modeling interestingness with deep neural networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101601300A (zh) * 2006-12-14 2009-12-09 汤姆逊许可公司 用自适应增强层预测对位深度可分级视频数据进行编码和/或解码的方法和设备

Also Published As

Publication number Publication date
WO2017139237A1 (en) 2017-08-17
US20170236056A1 (en) 2017-08-17
EP3414709A1 (en) 2018-12-19
US10685281B2 (en) 2020-06-16
CN108604313A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
US10839165B2 (en) Knowledge-guided structural attention processing
US10929614B2 (en) Automated contextual dialog generation for cognitive conversation
US11100399B2 (en) Feature extraction using multi-task learning
CN110366734B (zh) 优化神经网络架构
EP3035250B1 (en) Large-scale classification in neural networks using hashing
US11488064B2 (en) Machine learning model for micro-service compliance requirements
US11915123B2 (en) Fusing multimodal data using recurrent neural networks
CN110866628A (zh) 利用动态时间上下文学习进行多界限时间序列预测的系统和方法
WO2019155064A1 (en) Data compression using jointly trained encoder, decoder, and prior neural networks
US11455523B2 (en) Risk evaluation method, computer-readable recording medium, and information processing apparatus
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
CN108604313B (zh) 自动化的预测性建模与框架
US11599826B2 (en) Knowledge aided feature engineering
US20190228297A1 (en) Artificial Intelligence Modelling Engine
US11301504B2 (en) Post hoc bias compensation
US20210192361A1 (en) Intelligent data object generation and assignment using artificial intelligence techniques
US11144727B2 (en) Evaluation framework for intent authoring processes
CN116401522A (zh) 一种金融服务动态化推荐方法和装置
CN115796548A (zh) 一种资源分配方法、装置、计算机设备、存储介质及产品
WO2023110182A1 (en) Extracting explanations from attention-based models
CN117296064A (zh) 计算环境中的可解释人工智能
US11106875B2 (en) Evaluation framework for intent authoring processes
US20220269858A1 (en) Learning Rules and Dictionaries with Neuro-Symbolic Artificial Intelligence
US20240086947A1 (en) Intelligent prediction of sales opportunity outcome
US20230268060A1 (en) Artificial intelligence for alleviating cherry-picking in radiology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant