CN107251011B

CN107251011B - 用于序列标签器的训练系统和方法

Info

Publication number: CN107251011B
Application number: CN201680010623.4A
Authority: CN
Inventors: 郑珉宇; 金永邦; R·萨里卡亚
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-02-17
Filing date: 2016-02-03
Publication date: 2021-10-22
Anticipated expiration: 2036-02-03
Also published as: CN107251011A; US20160239758A1; US9792560B2; EP3259712A1; WO2016133696A1

Abstract

用于比如条件随机场模型之类的序列标签器或者训练该序列标签器的系统和方法。更具体地，系统和方法利用用于具体应用的来自众包的数据的部分地标注的数据和来自搜索日志的部分地标注的数据来训练序列标签器。另外，在此公开的系统和方法通过利用受约束格构仅利用部分地标注的数据来训练序列标签器，其中受约束格构内的每个输入值可以具有多个候选标签，该多个候选标签具有置信分数。因而，系统和方法与利用至少一些完全地标注的训练数据而被训练的序列标签器相比，提供更准确的序列加标签系统、更可靠的序列加标签系统和更高效的序列加标签系统。

Description

用于序列标签器的训练系统和方法

背景技术

机器学习、语言理解和人工智能正在改变用户与计算机交互的方式。计算机和应用的开发者总是试图改进人与计算机之间的交互。然而，语言理解模型的开发需要大量时间、金钱和其它资源来实现。

鉴于这些和其它一般考虑而已经了做出在此公开的实施例。另外，虽然可以讨论相对地具体的问题，但是应当理解，实施例不应限于解决在背景技术中或者在本公开内容中的别处指出的具体问题。

发明内容

概括而言，公开内容总体上涉及用于训练作为序列标签器(比如条件随机场模型)的系统和方法。更具体地，在此公开的系统和方法利用来自众包的数据的、用于具体应用的部分地标注的数据和来自搜索日志的部分地标注的数据来训练序列标签器。在此公开的系统和方法通过将部分地标注的数据合并成受约束格构、仅利用部分地标注的数据来训练序列标签器，其中受约束格构内的每个输入值可以具有多个候选标签，该多个候选标签具有置信分数。因而，在此公开的用于训练序列标签器的系统和方法提供更准确的序列加标签系统、更可靠的序列加标签系统和更高效的序列加标签系统。另外，在此描述的用于通过仅利用用于具体应用的部分地标注的数据和来自搜索日志的部分地标注的数据来训练序列标签器的系统和方法减少为了构建用于应用的语言理解模型而必需的时间和资源。

公开内容的一个方面涉及一种用于利用机器学习技术来训练序列标签器的方法。该方法包括从第一来源获得用于具体应用的部分地标注的数据并且从第二来源获得部分地标注的数据。第二来源是搜索日志。该方法还包括将来自第一来源和来自搜索日志的部分地标注的数据合并成受约束格构。受约束格构内的每个输入值具有多个候选标签，该多个候选标签具有置信分数。该方法附加地包括基于受约束格构来运行训练算法以估计模型参数。与利用至少一些完全地标注的数据而被训练的序列标签器相比，该方法提供更准确的序列标签器和更可靠的序列标签器。

公开内容的另一方面包括一种用于条件随机场的训练系统。训练系统包括计算设备。计算设备包括处理单元和存储器。处理单元实施受约束格构系统。受约束格构系统可操作用于从众包的数据获得用于具体应用的部分地标注的数据并且从搜索日志获得部分地标注的数据。受约束格构系统还可操作用于将来自众包的数据和来自搜索日志的部分地标注的数据合并成受约束格构。受约束格构内的每个词具有多个候选标签，该多个候选标签具有置信分数。附加地，受约束格构系统可操作用于基于受约束格构来运行训练算法以估计模型参数。

公开内容的又一方面包括一种用于利用机器学习技术来构建语言理解模型的系统。该系统包括至少一个处理器和包括存储于其上的计算机可执行指令的一个或者多个计算机可读存储介质。计算机可执行指令由至少一个处理器执行。计算机可执行指令使得该系统执行操作，这些操作包括从众包的数据获得用于具体应用的部分地标注的数据并且从搜索日志获得部分地标注的数据。计算机可执行指令还使得该系统执行操作，这些操作包括将来自众包的数据和来自搜索日志的部分地标注的数据合并成受约束格构。受约束格构内的每个词具有多个候选标签，该多个候选标签具有置信分数。受约束格构系统由于每个词具有允许的候选标签类型的集合并且由于多个候选标签被结构化而被约束。附加地，计算机可执行指令使得该系统执行操作，这些操作包括基于受约束格构来运行训练算法以估计模型参数。语言理解模型是经训练的条件随机场。

提供这一发明内容以用简化的形式介绍以下在具体实施方式中被进一步描述的概念的选集。这一发明内容并非旨在于标识要求保护的主题内容的关键特征或者实质特征，它也并非旨在于用来限制要求保护的主题内容的范围。

附图说明

参照以下各图来描述非限制和非穷举实施例。

图1是图示了用于训练序列标签器的系统的示例的框图。

图2是图示了将基于串的对准算法应用于来自商业数据库的点进数据以对准语义标签与查询-知识点击图形的示例的示意图。

图3是图示了从查询“play the latest batman movie(播放最新的蝙蝠侠电影)”创建的受约束格构的示例的示意图。

图4是图示了用于训练序列标签器的方法的示例的流程图。

图5是图示了用于从获得自商业搜索引擎的未标注的数据自动地生成部分地标注的数据的方法的示例的流程图。

图6是图示了可以用来实践公开内容的实施例的计算设备的示例物理部件的框图。

图7A和图7B是可以用来实践本公开内容的实施例的移动计算设备的简化框图。

图8是可以在其中实践本公开内容的实施例的分布式计算系统的简化框图。

具体实施方式

在以下具体实施方式中，参照附图，这些附图形成以下具体实施方式的部分并且在附图中通过说明示出了具体实施例或者示例。在并未脱离本公开内容的精神实质或者范围的情况下可以组合这些方面，可以利用其它方面并且可以做出结构改变。以下具体描述因此不会在限制意义上被解读，并且本公开内容的范围由权利要求及其等效含义限定。

机器学习、语言理解和人工智能的进步正在改变用户与计算机交互的方式。数字助理应用(比如Siri、Google Now和Cortana)是人类计算机交互中的转变的示例。然而，目前让在创建这些数字应用的公司以外的开发者在这些已经创建的数字助理应用内为它们自己的应用构建语言理解体验是极为困难和/或资源密集的。换而言之，这些数字助理应用的第三方可扩展性经常是资源禁止性的。例如，在创建这些数字应用的公司以外的开发者经常被要求获得大量完全地标注的数据。完全地标注的数据经常需要大量时间和资源来开发。特别地，构建在语言理解中发挥关键作用以提取实体和语义作用的序列标签器需要大量完全地标注的数据，这经常妨碍第三方能够快速地将新域引导到系统中以便为它们自己的应用构建语言理解体验。

通常地没有允许第三方开发者为另一方的应用构建语言理解模型而无需大量完全地标注的数据的系统或者方法。尽管先前系统已经尝试通过利用搜索日志来改进序列标签器的弱监督的训练，但是这些系统和方法已经无法将用于具体应用的部分地标注的众包的数据合并成概率模型框架，并且代之以需要使用一些完全地标注的众包的数据。在此公开的系统和方法能够通过利用用于具体应用的部分地标注的众包的数据和来自搜索日志的部分地标注的数据二者来训练序列标签器。因而，如在此公开的系统和方法允许第三方开发者为另一方的应用构建语言理解模型而无需任何完全地标注的数据。换而言之，如在此公开的系统和方法使第三方能够在“意图即服务”IaaS平台中构建语言理解模型，这允许第三方开发者从训练数据容易地构建语言理解模型。

在此描述的系统和方法的用于通过利用用于具体应用的部分地标注的众包的数据和来自搜索日志的部分地标注的数据二者来训练序列标签器的能力提供更准确的序列加标签系统、更可靠的序列加标签系统和更高效的序列加标签系统。另外，在此描述的系统和方法的用于通过利用用于具体应用的部分地标注的众包的数据和来自搜索日志的部分地标注的数据二者来训练序列标签器的能力减少为了构建用于应用的语言理解模型而必需的时间和资源。

图1总体上图示了用于训练序列标签器的系统100的示例。序列标签器被设计为利用机器学习技术对广泛多种不同输入进行分类(在此也被称为标注或者加标签)。输入可以是需要被集群或者分类的任何数据序列，比如查询、搜索查询、基因组序列等。在所图示的示例中，序列标签器(在此也被称为序列加标签系统)是条件随机场模型102。其它类型的序列标签器包括神经网络。不同于神经网络，条件随机场(CRF)102可以实现高准确性而无任何调谐。因此，CRF是被应用于序列加标签问题的最广泛地使用的机器学习。CRF 102接收输入信号104、从输入信号104提取特征、确定用于特征的模型参数并且然后以用于每个分类状态的概率的形式输出用于每个特征的分类106或者标签106。然而，在CRF模型102可以对输入信号104分类之前，必须利用与输入信号104相似的训练数据107来训练模型102。

例如，在一些实施例中，CRF 102从训练数据107被构建为语言理解模型。如以上讨论的那样，先前利用的CRF需要大量完全地标注的数据作为训练数据以构建语言理解模型。获得大量完全地标注的数据需要大量时间、金钱和其它资源并且因此经常阻碍其它开发者构建语言理解模型以与已知的高度地复杂的语言理解应用(比如数字助理应用)一起工作。然而，系统100利用受约束格构系统111用于训练序列标签器系统，比如CRF 102。受约束格构系统111提供用于仅利用部分地标注的数据作为训练数据107来训练序列标签器的系统。另外，不同于先前利用的训练系统，受约束格构系统111从两个不同数据来源提供训练数据107。

受约束格构系统111获得两个不同种类的部分地标注的训练数据107。受约束格构系统111从用于部分地标注的数据的任何适当来源获得两个不同种类的部分地标注的数据。在一些实施例中，从部分地标注的数据的两个不同来源获得两个不同种类的部分地标注的数据。在附加实施例中，第一种类的部分地标注的数据是任务特有的，不同于不是任务特有数据的第二种类的部分地标注的数据。在一些实施例中，受约束格构系统111获得用于具体应用的部分地标注的众包的数据110和部分地标注的搜索日志数据108。先前利用的训练系统已经利用部分地标注的搜索日志数据作为训练数据；然而，这些先前利用的训练系统需要组合部分地标注的搜索日志数据与完全地标注的人工数据。对照而言，受约束格构系统111无需使用任何完全地标注的数据。

用于获得部分地标注的数据110的任何适当方法可以由系统100利用。在一些实施例中，用于获得用于具体应用的部分地标注的众包的数据110的任何适当方法可以由系统100利用。在一些实施例中，通过利用众包方式收集注解数据来获得部分地标注的众包来源数据。在一些实施例中，可以向两个或者更多个人类注解者发送相同查询，并且因此这一方式允许对查询的多个注解。例如，可以应用单个规则以自动地对例如<date>、<time>和<media_type>的无歧义标签加标签。作为结果，在这些实施例中，人类注解者无需完全地访问用于注解的给定的查询。取而代之，在这些实施例中，人类注解者可以聚焦于更有挑战的标签，比如<movie_title>和<person_name>。

在一些实施例中，用于获得部分地标注的搜索日志数据108的任何适当系统或者方法可以由系统100利用。在一些实施例中，通过由系统100利用来自商业搜索引擎的大量未标注的数据来自动地获得部分地标注的搜索日志数据108。在这些实施例中，通过利用链接查询-点击日志和知识提取来从点进数据自动地构造查询-知识点击图形。例如，可以从结构化的网页如IMDB.com容易地提取电影数据库，并且一般知识图形(比如Freebase和Wikipedia)公开地可用。一旦构造了查询-知识点击图形，基于串的对准算法就可以应用于查询-知识点击图形以对准查询与语义标签。图2图示了应用基于串的对准算法202以在查询-知识点击图形204上对准语义标签208与查询输入值206的示例。接着，在这些实施例中，由于自然语言以及知识和串匹配算法的歧义而去除更少置信的对准，并且保持高置信对准以用于部分标注以保证自动地获得的部分地标注过程没有从未对准过度广义化。用于通过利用来自商业搜索引擎的大量未标注的数据来自动地获得部分地标注的搜索数据的任何适当系统或者方法可以由系统100利用。

一旦受约束格构系统111已经获得两个不同种类的部分地标注的数据，受约束格构系统111就利用合并机制112将两个不同种类的部分地标注的数据110合并成受约束格构。在一些实施例中，一旦受约束格构系统111已经获得用于具体应用的部分地标注的众包的数据110和部分地标注的搜索日志数据108，受约束格构系统111就利用合并机制112将用于具体应用的部分地标注的众包的数据110和部分地标注的搜索日志数据109合并成受约束格构。图3图示了从查询“play the latest batman movie”302创建的受约束格构300的示例。图3也图示了用于查询302的真实标注304。在受约束格构中，每个输入值(比如用于语言理解模型的词)可以具有多于一个可采纳标签(在此也被称为标签或者分类)，这些可采纳标签具有置信分数。可采纳标签在此被称为候选标签306并且在受约束格构300上被表示为节点。对照而言，传统训练系统每输入仅采用一个有效标签。

格构由于每个输入值(比如词)具有允许的候选标签类型(在此也被称为允许的标签类型)的集合并且由于多个候选标签被结构化而被约束。例如，Tom Hanks可以具有允许的标签类型“演员”和“导演”。任何适当候选标签类型可以由系统100利用。候选标签由于某些候选标签类型不能跟随某些其它候选标签类型而被结构化。例如，在一些实施例中，候选标签类型通过使用IOB格式而被结构化。例如，在一些实施例中，电影名称候选标签类型不能跟随音乐名称候选标签类型。这一结构仅为示例性而不是意味着限制。任何适当候选标签结构可以由系统100利用。在遗漏或者不确定标签的情况下，合并机制112在受约束格构中开放在方案中定义的所有可能标签。方案是用于具体任务的标签系统。例如，在闹钟方案中，以下标签可以可用：闹钟状态、持续时间、定位参考、重现日期、开始日期、开始时间和标题。

给定观测标签序列x＝x₁...x_n，由

参数化的一阶CRF将标签序列y＝y₁...y_n的条件概率定义如下：

其中，

p是概率函数，

Φ是特征函数，

θ是参数矢量，

T是转置，

x是输入查询，

y是标签，

y’是可能标签(或者是用于裕度化的暂时变量)，

y(x)是用于x的所有可能标签序列的集合，并且

是按照一阶Markovian假设而被分解成局部特征函数

的全局特征函数。

给定完全地标注的序列

标准训练方法是找到在具有l₂规则化的模型之下使标签序列的对数似然度最大化的θ：

其中：

arg max是最大值的变元，

是实值矢量，

θ^*是最优参数，

N是训练示例的数目，

i是训练示例索引，

λ是规定规则化项的强度的参数，

d是参数维度。

然而，合并机制112不具有完全地标注的序列。取而代之，用于序列x₁...x_n中的每个权标x的合并机制112具有标签信息的以下两个来源：

·允许的标签类型的集合j(x_j)(标签词典)；以及

·从来源数据传送的标签

(可选：传送的标签)，

其中，

j是训练数据的索引，以及

是传送的标签。

因而，合并机制112定义受约束格构

其中每个定位j是允许的标签类型(在此也被称为约束)的集合给定为：

其中，

y是以上映射函数。

除了这些现有约束之外，合并机制112还引入对标签结构的约束。例如，一些标签类型不能跟随某些其它标签类型。合并机制112通过以如下形式不允许无效标签类型作为后处理步骤来并入这些限制：

其中：

是滤波器或者映射函数，以及

是可以跟随

的有效标签类型的集合。

在两个不同类型的部分地标注的数据(比如用于具体应用的部分地标注的众包的数据110和部分地标注的搜索日志数据108)由合并机制112合并成受约束格构之后，训练机制114应用训练算法以基于受约束格构来估计模型参数。这样，训练机制114应用概率置信模型以估计用于候选标签306的模型参数。在一些实施例中，训练机制114为给定的观察序列x定义在标签格构(在此也被称为候选标签格构)之上的条件概率：

训练机制114利用少量维持的数据来训练概率模型。维持的数据是没有被合并机制112合并成受约束格构的训练数据107。给定用于每个权标类型x_j和

的标签词典y(x_j)，其中

是用于x⁽ⁱ⁾的(可能不存在的)传送的标签，训练机制114利用以下等式以找到使标签格构的对数似然度最大化的θ：

由于目标为非凸，所以训练机制114利用基于梯度的算法来找到局部最优值。这一目标在每个示例x⁽ⁱ⁾，

的梯度采用以下形式：

除了第一项之外，以上等式#7与由一阶CRF通常地利用的训练等式相同。例如，如由训练机制114利用的EQ#7用受约束格构

中的特征的期望值替换Φ(x¹，y¹)。

另外，训练机制114基于受约束格构将目标函数定义为：

其中

Γ是受约束格构，

λ是规则化因子，

L是似然度函数，并且

N是训练数据的数目。

目标函数将受约束格构中的预测的标签序列与未受约束格构中的对应预测的标签序列之间的能量差距最小化。如在此被利用的能量差距是指两个状态之间的分数差值。训练算法在计算等式#7中的

时确定或者计算未受约束格构。因而，由于CRF 102被训练，所以CRF接收输入信号104(比如语言查询)、从输入查询104提取特征、利用受约束格构系统110来确定用于特征中的每个特征的模型参数并且然后以用于每个分类状态的概率的形式输出用于每个特征的分类106(在此也被称为标签106或者标注106)。

图4是概念地图示了用于利用机器学习技术来训练序列标签器(比如CRF)的方法400的示例的流程图。在一些实施例中，方法400由受约束格构系统111执行。方法400通过利用两个不同种类的部分地标注的数据来训练序列标签器。来自如本领域技术人员将知道的任何适当来源的部分地标注的数据可以由方法400利用。在一些实施例中，方法400通过利用用于具体应用的部分地标注的众包的数据和来自搜索日志的部分地标注的数据二者来训练序列标签器。这样，与由利用至少一些完全地标注的数据的方法训练的序列标签器相比，方法400提供更准确的序列加标签系统、更可靠的序列加标签系统和更高效的序列加标签系统。另外，与由需要至少一些完全地标注的数据的方法训练的序列标签器相比，方法400需要更少的时间和资源，该时间和这些资源是为了构建用于应用的语言理解模型而需要的。

在操作402处，获得来自第一来源的、用于具体应用的部分地标注的数据。在一些实施例中，在操作402处，获得来自众包的数据的、用于具体应用的部分地标注的数据。可以在操作402处利用用于获得用于具体应用的部分地标注的众包的数据的任何适当方法。在一些实施例中，在操作402处通过利用众包方式以收集注解数据来获得部分地标注的众包数据。在一些实施例中，可以向两个或者更多个人类注解者发送相同查询，并且因此这一方式允许对查询的多个注解。作为结果，在这些实施例中，人类注解者无需在操作402处完全地评估用于注解的给定的查询。

在操作404处，从第二来源获得部分地标注的数据。在一些实施例中，在操作404处，从搜索日志获得部分地标注的数据。在一些实施例中，在操作404处通过如由方法500所图示的、利用来自商业搜索引擎的大量未标注的数据来自动地获得来自搜索日志的部分地标注的数据。图5是概念地图示了用于从获得自商业搜索引擎的未标注的数据自动地生成部分地标注的数据的方法500的示例的流程图。

在操作502处，经由链接查询点击日志和知识提取从未标注的点进数据构造查询-知识点击图形。例如，可以从结构化的网页如IMDB.com容易地提取电影数据库，并且一般知识图形(比如Freebase和Wikipedia)公开地可用。在操作504处应用基于串的对准算法以在构造的查询-知识点击图形上对准查询语义标签与未标注的点进数据，以形成对准的查询-知识点击图形。接着，在操作506处从对准的查询-知识点击图形去除更少置信的对准以形成更新后的对准的图形。在操作506处保持查询-知识点击图形上的高置信的对准以用于部分标注。执行操作506以保证自动部分标注过程由于自然语言的歧义而没有从未对准过度广义化。在操作506之后，执行操作508。在操作508处，基于在更新后的对准的图形上与未标注的点进数据对准的语义标签来部分地标注未标注的点进数据。方法500仅为方法400可以利用的用于从商业搜索引擎自动地获得部分地标注的搜索数据的方法的一个示例。然而，用于从来自商业搜索引擎的未标注的数据自动地获得部分地标注的数据的任何适当方法可以由方法400利用。

一旦操作402和404已经获得了两个不同类型的部分地标注的数据(比如来自众包的数据和来自搜索日志的部分地标注的数据)，就执行操作406。在操作406处，将来自众包的数据的部分地标注的数据和来自搜索日志的部分地标注的数据合并成受约束格构。不同于每输入仅采用一个有效标签的传统训练方法，受约束格构内的每个输入值(比如用于语言理解模型的词)可以具有多于一个候选标签，这些候选标签具有置信分数。在遗漏或者不确定标签的情况下，为受约束格构中的遗漏或者不确定的标签开放在受约束格构中的方案中定义的所有可能标签。为了在操作406处创建受约束格构，序列x₁...x_n中的每个输入值x具有以下两个标签信息来源：

·允许的标签类型的集合y(x_j)(标签词典)；以及

·从数据来源传送的标签

(可选：传送的标签)。

因而，受约束格构

被给定为等式3，其中每个定位j是允许的标签类型(在此也被称为约束)的集合。除了这些现有约束之外，也引入对标签结构的约束以形成受约束格构。例如，一些标签类型不能跟随某些其它标签类型。在操作406处通过以等式#4的形式不允许无效标签类型作为后处理步骤而并入这些限制来形成受约束格构，其中

是可以跟随

的有效标签类型的集合。

在操作408处，基于受约束格构来运行训练算法以估计模型参数。在一些实施例中，训练算法应用概率置信模型以估计用于候选标签的模型参数。在一些实施例中，训练算法用等式#5为给定的观测序列x定义在候选标签格构之上的条件概率。

训练算法可以利用少量维持的数据来训练概率模型。给定用于每个权标类型x_j和训练序列

的标签词典y(x_j)，其中

是用于x⁽ⁱ⁾的(可能不存在的)传送的标签，训练算法可以利用等式#6以找到θ。等式#6将标签格构的对数似然度最大化。由于目标为非凸，所以训练算法利用基于梯度的算法来找到局部最优值。这一目标在每个示例x⁽ⁱ⁾，

的梯度由等式#7示出。

另外，在操作408处被利用的训练算法可以利用等式#8基于受约束格构来定义目标函数。训练算法将受约束格构中的预测的标签序列与未受约束格构中的对应预测的标签序列之间的能量差距最小化。

一旦方法400已经训练了序列标签器(比如CRF)，就可以将CRF应用于各种加标签任务。例如，CRF可以接收查询输入，比如语言查询。CRF从语言查询提取特征，并且然后利用受约束格构和训练算法来估计用于每个特征的语言模型参数。接着，CRF基于查询语言来优化语言模型参数。CRF基于经优化的语言参数来确定用于每个特征的标签(也被称为标注或者分类)。确定的标签由CRF输出作为结果。

在一些实施例中，公开了一种用于条件随机场的训练系统。这一训练系统包括用于从众包的数据获得用于具体应用的部分地标注的数据的装置和用于从搜索日志获得部分地标注的数据的装置。训练系统还包括用于将来自众包的数据和来自搜索日志的部分地标注的数据合并成受约束格构的装置以及用于基于受约束格构来运行训练算法以估计模型参数的装置。另外，受约束格构内的每个词具有多个候选标签，该多个候选标签具有置信分数。在一些实施例中，在与利用至少一些完全地标注的数据而被训练的序列标签器相比时，训练系统提供更准确的序列标签器和更可靠的序列标签器。

在其它实施例中，公开了一种用于利用机器学习技术来构建语言理解模型的系统。该系统包括用于从众包的数据获得用于具体应用的部分地标注的数据的装置和用于从搜索日志获得部分地标注的数据的装置。该系统还包括用于将来自众包的数据和来自搜索日志的部分地标注的数据合并成受约束格构的装置以及用于基于受约束格构来运行训练算法以估计模型参数的装置。另外，在约束格构内的每个词具有多个候选标签，该多个候选标签具有置信分数。受约束格构由于每个词具有允许的候选标签类型的集合并且由于候选标签被结构化而被约束。附加地，语言理解模型是经训练的条件随机场。

在一些实施例中，公开了一种用于利用机器学习技术来训练序列标签器的方法。该方法包括从第一来源获得用于具体应用的部分地标注的数据并且从第二来源获得部分地标注的数据。第二来源是搜索日志。该方法还包括将来自第一来源和来自搜索日志的部分地标注的数据合并成受约束格构。受约束格构内的每个输入值具有多个候选标签，该多个候选标签具有置信分数。该方法附加地包括基于受约束格构来运行训练算法以估计模型参数。与利用至少一些完全地标注的数据而被训练的序列标签器相比，该方法提供更准确的序列标签器和更可靠的序列标签器。序列标签器可以是条件随机场。如果受约束格构中的输入值具有遗漏或者不确定的标签，则受约束格构可以向输入值指派来自方案的所有候选标签。受约束格构由于每个输入值具有允许的候选标签类型的集合并且由于多个候选标签被结构化而可以被约束。多个候选标签由于一些候选标签类型不能跟随某些其它候选标签类型而可以被结构化。训练算法可以将来自受约束格构的候选标签与来自未受约束格构的对应候选标签之间的能量差距最小化。这一方法可以提供用于构建语言理解模型而无需用于具体应用的任何完全地标注的数据的平台。可以通过以下各项从来自商业搜索引擎的未标注的数据生成来自搜索日志的部分地标注的数据：经由链接查询点击日志和知识提取来从未标注的点进数据构造查询知识点击图形；应用基于串的对准算法以在查询-知识点击图形上对准语义标签与未标注的点进数据以形成对准的查询-知识点击图形；从对准的查询-知识点击图形去除更少置信的对准以形成更新后的对准的图形；以及基于更新后的对准的图形上与未标注的点进数据对准的语义标签来部分地标注未标注的点进数据。

在更多实施例中。公开了一种用于条件随机场的训练系统。训练系统包括计算设备。计算设备包括处理单元和存储器。处理单元实施受约束格构系统。受约束格构系统可操作用于从众包的数据获得用于具体应用的部分地标注的数据和从搜索日志获得部分地标注的数据。受约束格构系统还可操作用于将来自众包的数据和来自搜索日志的部分地标注的数据合并成受约束格构。受约束格构内的每个词具有多个候选标签。附加地，受约束格构系统可操作用于基于受约束格构来运行训练算法以估计模型参数。可以从来自商业搜索引擎的未标注的数据生成来自搜索日志的部分地标注的数据。在受约束格构中的词具有不确定的标签时，受约束格构可以向词指派来自方案的所有候选标签。受约束格构由于每个词具有允许的候选标签类型的集合并且由于多个候选标签被结构化而可以被约束。多个候选标签由于一些候选标签类型不能跟随某些其它候选标签类型而可以被结构化。训练算法可以将来自受约束格构的候选标签与来自未受约束格构的对应候选标签之间的能量差距最小化。与利用至少一些完全地标注的数据而被训练的条件随机场相比，受约束格构系统可以创建更准确的条件随机场和更可靠的条件随机场。训练系统可以构建语言理解模型而无需获得用于具体应用的任何完全地标注的众包的数据。可以在移动电话、智能电话、平板计算机、智能手表、可穿戴计算机、个人计算机、台式计算机、游戏系统和/或膝上型计算机上实施受约束格构系统。具体应用可以是数字助理应用、语音识别应用、电子邮件应用、社交联网应用、协作应用、企业管理应用、消息接发应用、字处理应用、电子表格应用、数据库应用、演示应用、联系人应用、游戏应用、电子商务应用、电子业务应用、事务应用、交换应用和/或日历应用。

在附加实施例中，公开了一种用于利用机器学习技术来构建语言理解模型的系统。该系统包括至少一个处理器和包括存储于其上的计算机可执行指令的一个或者多个计算机可读存储介质。计算机可执行指令由至少一个处理器执行。计算机可执行指令使得该系统执行操作，这些操作包括从众包的数据获得用于具体应用的部分地标注的数据并且从搜索日志获得部分地标注的数据。计算机可执行指令还使得该系统执行操作，这些操作包括将来自众包的数据和来自搜索日志的部分地标注的数据合并成受约束格构。受约束格构内的每个词具有多个候选标签，该多个候选标签具有置信分数。受约束格构系统因为每个词具有允许的候选标签类型的集合并且由于多个候选标签被结构化而被约束。附加地，计算机可执行指令使得该系统执行操作，这些操作包括基于受约束格构来运行训练算法以估计模型参数。语言理解模型是经训练的条件随机场。

图6至图9和关联的描述提供了对可以在其中实践公开内容的实施例的多种操作环境的讨论。然而，关于图6至图9而被图示和讨论的设备和系统用于示例和图示而不是限制可以用于实践在此描述的公开内容的实施例的大量计算设备配置的目的。

图6是图示了可以用来实践公开内容的实施例的计算设备600的物理部件(例如，硬件)的框图。例如，受约束格构系统或者模块611可以由计算设备600实施。在一些实施例中，计算设备600是移动电话、智能电话、平板计算机、智能手表、可穿戴计算机、个人计算机、台式计算机、游戏系统、膝上型计算机等之一。以下描述的计算设备部件可以包括用于受约束格构模块611的计算机可执行指令，这些计算机可执行指令可以被执行以运用方法400并且实施在此公开的系统100的部分。在基本配置中，计算设备600可以包括至少一个处理单元602和系统存储器604。依赖于计算设备的配置和类型，系统存储器604可以包括但不限于易失性存储装置(例如，随机存取存储器)、非易失性存储装置(例如，只读存储器)、闪存或者这样的存储器的任何组合。系统存储器604可以包括适合用于运行软件应用620的操作系统605和一个或者多个程序模块606。操作系统605例如可以适合用于控制计算设备600的操作。另外，公开内容的实施例可以与图形库、其它操作系统或者任何其它应用程序结合而被实践，而不限于任何特定应用或者系统。这一基本配置在图6中由虚线608内的那些部件图示。计算设备600可以具有附加特征或者功能。例如，计算设备600也可以包括附加数据存储设备(可移除和/或非可移除)，如比如磁盘、光盘或者磁带。这样的附加存储装置在图6中由可移除存储设备609和非可移除存储设备610图示。例如，可以在所图示的存储设备中的任何存储设备上存储由受约束格构模块611获得的部分地标注的数据。

如以上指出的那样，可以在系统存储器604中存储多个程序模块和数据文件。当在处理单元602上执行之时，程序模块606(例如，受约束格构模块611或者电子邮件应用613)可以执行过程，包括但不限于执行如在此描述的方法400和/或方法500。例如，处理单元602可以实施受约束格构模块611。可以根据本公开内容的实施例而被使用的、并且特别地用来生成屏幕内容的其它程序模块可以包括数字助理应用、语音识别应用、电子邮件应用、社交联网应用、协作应用、企业管理应用、消息接发应用、字处理应用、电子表格应用、数据库应用、演示应用、联系人应用、游戏应用、电子商务应用、电子业务应用、事务应用、交换应用、日历应用等。在一些实施例中，受约束格构模块611收集以上引用的应用之一特有的部分地标注和/或未标注的众包的数据。

另外，可以在包括分立电子元件的电路、包含逻辑门的封装或者集成的电子芯片、利用微处理器的电路中或者在包含电子元件或者微处理器的单个芯片上实践公开内容的实施例。例如，可以经由片上系统(SOC)来实践公开内容的实施例，其中图6中所图示的部件中的每个或者许多部件可以被集成到单个集成电路上。这样的SOC器件可以包括都被集成(或者“烧制”)到芯片衬底上作为单个集成电路的一个或者多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能。在经由SOC操作时，可以经由在单个集成电路(芯片)上与计算设备600的其它部件一起被集成的专用逻辑来操作在此关于客户端的用于切换协议的能力而被描述的功能。也可以使用能够执行逻辑操作(如比如AND、OR和NOT)的其它技术(包括但不限于机械、光学、流体和量子技术)来实践公开内容的实施例。此外，可以在通用计算机内或者在任何其它电路或者系统中实现公开内容的实施例。

计算设备600也可以具有一个或者多个输入设备612，比如键盘、鼠标、笔、声音或者语音输入设备、触摸或者挥动输入设备等。也可以包括输出设备614，比如显示器、扬声器、打印机等。前述设备是示例并且可以使用其它设备。计算设备600可以包括允许与其它计算设备650的通信的一个或者多个通信连接616。适当通信连接616的示例包括但不限于RF发射器、接收器和/或收发器电路；通用串行总线(USB)、并行和/或串联端口。

如在此所用的术语计算机可读介质或者存储介质可以包括计算机存储介质。计算机存储介质可以包括在用于存储信息(比如计算机可读指令、数据结构或者程序模块)的任何方法或者技术中实施的易失性和非易失性、可移除和非可移除介质。系统存储器604、可移除存储设备609和非可移除存储设备610都是计算机存储介质示例(例如，存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或者其它存储器技术、CD-ROM、数字万用盘(DVD)或者其它光存储装置、磁盒、磁带、磁盘存储装置或者其它磁存储设备或者可以用来存储信息并且可以由计算设备600访问的任何其它制造品。任何这样的计算机存储介质可以是计算设备600的部分。计算机存储介质不包括载波或者其它传播或者调制的数据信号。

通信介质可以由调制的数据信号(比如载波或者其它传送机制)中的计算机可读指令、数据结构、程序模块或者其它数据体现并且包括任何信息递送介质。术语“调制的数据信号”可以描述如下信号，该信号让一个或者多个特性以对信号中的信息编码这样的方式而被设置或者改变。举例而言而非限制，通信介质可以包括有线介质(比如有线网络或者直接接线连接)以及无线介质(比如声学、射频(RF)、红外线和其它无线介质)。

图7A和图7B图示了可以用来实践公开内容的实施例的移动计算设备700，例如，移动电话、智能电话、可穿戴计算机(比如智能手表)、平板个人计算机、膝上型计算机等。参照图7A，图示了适合用于实施实施例的移动计算设备700的一个实施例。在基本配置中，移动计算设备700是具有输入单元和输出单元二者的手持计算机。移动计算设备700通常地包括显示器705和允许用户向移动计算设备700中录入信息的一个或者多个输入按钮710。移动计算设备700的显示器705也可以作为输入设备(例如，触屏显示器)工作。

如果被包括，则可选侧部输入单元715允许另外的用户输入。侧部输入单元715可以是旋转开关、按钮或者任何其它类型的手动输入单元。在备选实施例中，移动计算设备700可以并入更多或者更少输入单元。例如，显示器705在一些实施例中可以不是触屏。在又一备选实施例中，移动计算设备700是便携电话系统，比如蜂窝电话。移动计算设备700也可以包括可选小键盘735。可选小键盘735可以是物理小键盘或者在触屏显示器上被生成的“软”小键盘。

除了与显示器705和/或者小键盘735关联的触屏输入设备之外或者取而代之，可以在移动计算设备700中并入自然用户接口(NUI)。如在此所用，NUI包括使用户能够以“自然”方式与设备交互而无由输入设备(比如鼠标、键盘、遥控器等)施加的人为约束的任何接口技术。NUI方法的示例包括依赖于话音识别、触摸和触笔识别、在屏幕上和与屏幕相邻这二者的手势识别、空气手势、头部和眼睛跟踪、语音和话音、视觉、触摸、手势和机器智能的NUI方法。

在各种实施例中，输出单元包括用于示出图形用户界面(GUI)的显示器705。在在此公开的实施例中，可以在显示器705上显示各种用户信息汇集。另外的输出单元可以包括可视指示器720(例如，发光二极管)和/或音频换能器725(例如，扬声器)。在一些实施例中，移动计算设备700并入用于向用户提供触觉反馈的振动换能器。在又一实施例中，移动计算设备700并入用于向外部设备发送信号或者从外部设备接收信号的输入和/或输出端口，比如音频输入(例如，麦克风插口)、音频输出(例如，头戴式受话器插口)和视频输出(例如，HDMI端口)。

图7B是图示了移动计算设备的一个实施例的架构的框图。也就是说，移动计算设备700可以并入用于实施一些实施例的系统(例如，架构)702。在一个实施例中，系统702被实施为能够运行一个或者多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息接发客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些实施例中，系统702被集成为计算设备，比如集成的个人数字助理(PDA)和无线电话。

可以向存储器762中加载并且在操作系统764上或者与操作系统764关联地运行一个或者多个应用程序766和/或受约束格构模块611。应用程序的示例包括电话拨叫器程序、电子邮件程序、个人信息管理(PIM)程序、字处理程序、电子表格程序、因特网浏览器程序、消息接发程序等等。系统702也包括存储器762内的非易失性存储区域768。非易失性存储区域768可以用来存储如果系统702被掉电则不应丢失的持久信息。应用程序766可以使用和在非易失性存储区域768中存储信息，比如由电子邮件应用使用的电子邮件或者其它消息等。同步化应用(未示出)也驻留在系统702上并且被编程为与在主机计算机上驻留的对应同步化应用交互以保持在非易失性存储区域768中存储的信息与在主机计算机处存储的对应信息同步。如应当认识到的那样，可以向存储器762中加载并且在移动计算设备700上运行其它应用。

系统702具有可以被实施为一个或者多个电池的功率供应770。功率供应770还可以包括外部功率源，比如对电池进行补充或者再充电的AC适配器或者有动力对接托架。

系统702也可以包括执行传输和接收射频通信的功能的无线电772。无线电772有助于经由通信载体或者服务提供者的、系统702与“外界”之间的无线连通。在操作系统764的控制之下进行向和从无线电772的传输。换而言之，可以经由操作系统764向应用程序766散播由无线电772接收的通信并且反之亦然。

可视指示器720可以用来提供可视通知和/或音频接口774可以用于经由音频换能器725来产生可听通知。在所图示的实施例中，可视指示器720是发光二极管(LED)并且音频换能器725是扬声器。这些设备可以被直接地耦合到功率供应770，从而使得在被激活时它们保持接通由通知机制规定的持续时间，即使处理器760和其它部件可以被关停以用于节约电池功率。LED可以被编程为无限地保持接通，直至用户采取动作以指示设备的上电状态。音频接口774用来向用户提供可听信号和从用户接收可听信号。例如，除了被耦合到音频换能器725之外，音频接口774也可以被耦合到麦克风以接收可听输入。系统702还可以包括实现板上相机730的操作以记录静止图像、视频流等的视频接口776。

实施系统702的移动计算设备700可以具有附加特征或者功能。例如，移动计算设备700也可以包括附加数据存储设备(可移除和/或非可移除)，比如磁盘、光盘或者磁带。这样的附加存储装置在图7B中由非易失性存储区域768图示。

可以如以上描述的那样在移动计算设备700上本地存储由移动计算设备700生成或者捕获并且经由系统702而被存储的数据/信息，或者可以在可以由设备经由无线电772或者经由在移动计算设备700与关联于移动计算设备700的分离计算设备(例如，分布式计算网络(比如因特网)中的服务器计算机)之间的有线连接而被访问的任何数目的存储介质上存储数据。如应当认识到的那样，可以经由移动计算设备700经由无线电772或者经由分布式计算网络来访问这样的数据/信息。相似地，可以根据熟知的数据/信息传送和存储手段(包括电子邮件和协作数据/信息共享系统)来在计算设备之间容易地传送这样的数据/信息以用于存储和使用。

图8图示了用于如以上描述的那样处理在计算系统处从远程来源(比如一般计算设备804、平板计算机806或者移动设备808)接收的数据的系统的架构的一个实施例。在服务器设备802处被显示的内容可以被存在在不同通信通道或者其他存储类型中。例如，可以使用目录服务822、web门户824、邮箱服务826、即时消息接发存储库828或者社交联网站点830来存储各种文档。举例而言，可以在一般计算设备804、平板计算设备806和/或移动计算设备808(例如，智能电话)中实施受约束格构系统。部分地标注的众包的数据、未标注的众包的数据、未标注的搜索日志数据和/或部分地标注的搜索日志数据可以经由网络815由可以被配置为实施受约束格构模块611的服务器设备802获得。在一些实现方式中，向服务器设备802周期性地传输并且在存储库816中存储部分地标注或者未标注的数据。

示例1

进行试验以比较传统CRF与利用在此公开的系统和/或方法而被训练的半监督CRF。利用完全地标注的众包的数据来训练传统CRF。如在在此公开的系统和方法中描述的那样利用用于具体应用的部分地标注的众包的数据和部分地标注的搜索日志数据来训练半监督CRF。构建两个CRF以创建语言理解模型。将两个不同CRF应用于利用Xbox OneEntertainment搜索的各种序列加标签任务。评估涉及电影、音乐和游戏的数百个查询。每个查询由每个CRF评估。监视并且如下表1中所图示的记录每个CRF的结果的准确度。下表1中提供的准确度分数被定义作为精确度和召回率的调和手段。准确度分数100是可能的最佳分数，而分数0是可能的最差分数。

表1.Xbox One Entertainment搜索中的CRF结果的准确度

表1图示了仅利用部分地标注的数据而被训练的半监督CRF在所有三个类别中返回恰当搜索结果时比传统CRF更可靠。如以上讨论的那样，半监督CRF需要更少时间、金钱和其它资源来构建。因而，在与需要使用至少一些完全地标注的训练数据的传统CRF比较时，在此公开的训练系统和方法利用更少时间、金钱和其它资源来构建更准确和更可靠的模型，比如语言理解模型。

例如，以上参照根据公开内容的实施例的方法、系统和计算机程序产品的框图和/或操作图示来描述本公开内容的实施例。在块中指出的功能/动作可以不按照如在任何流程图中示出的顺序出现。例如，取决于涉及到的功能/动作，事实上可以基本上并行地执行接连示出的块或者有时可以按照相反顺序执行块。

本公开内容参照附图来描述本技术的一些实施例，在附图中仅描述了可能的方面中的一些方面。然而，可以在许多不同形式中体现其它方面，并且在此公开的具体实施例不应被解释为限于在此阐述的公开内容的各种方面。实际上，提供这些示例性实施例以使得本公开内容透彻而完整并且向本领域技术人员完全地传达其它可能实施例的范围。例如，可以修改和/或组合在此公开的各种实施例的方面而没有脱离本公开内容的范围。

虽然在此描述了具体实施例，但是本技术的范围并不限于那些具体实施例。本领域技术人员将认识到在本技术的范围和精神实质内的其它实施例或者改进。因此，具体结构、动作或者介质仅被公开作为说明性实施例。本技术的范围由所附权利要求及其任何等效含义限定。

Claims

1.一种用于条件随机场的训练系统，所述训练系统包括：

计算设备，包括处理单元和存储器，所述处理单元实施受约束格构系统，所述受约束格构系统可操作用于：

从众包的数据获得用于具体应用的部分地标注的数据；

从搜索日志获得部分地标注的数据；

将来自所述众包的数据和来自所述搜索日志的所述部分地标注的数据合并成受约束格构，其中所述受约束格构内的至少一个输入值具有多于一个候选标签，所述多于一个候选标签具有相应的置信分数，并且其中每个输入值被约束于针对所述输入值的、能够跟随其它候选标签类型的标签类型的预定的集合；以及

基于所述受约束格构来运行训练算法以估计模型参数。

2.根据权利要求1所述的训练系统，其中来自所述搜索日志的所述部分地标注的数据从来自商业搜索引擎的未标注的数据而被生成。

3.根据权利要求1所述的训练系统，其中当所述受约束格构中的词具有不确定的标签时，所述受约束格构向所述词指派来自方案的所有候选标签。

4.根据权利要求1所述的训练系统，其中所述受约束格构由于每个词具有允许的候选标签类型的集合并且由于所述多个候选标签被结构化而被约束。

5.根据权利要求4所述的训练系统，其中所述多个候选标签由于一些候选标签类型无法跟随某些其它候选标签类型而被结构化。

6.根据权利要求1所述的训练系统，其中所述训练算法将来自所述受约束格构的候选标签与来自未约束格构的对应候选标签之间的能量差距最小化。

7.根据权利要求1所述的训练系统，其中与利用至少一些完全地标注的数据而被训练的条件随机场相比，所述受约束格构系统创建更准确的条件随机场和更可靠的条件随机场。

8.根据权利要求1所述的训练系统，其中所述训练系统在无需获得用于所述具体应用的任何完全地标注的众包的数据的情况下构建语言理解模型。

9.根据权利要求1所述的训练系统，其中所述受约束格构系统被实施在以下各项中的至少一项上：

移动电话；

智能电话；

平板计算机；

智能手表；

可穿戴计算机；

个人计算机；

台式计算机；

游戏系统；以及

膝上型计算机。

10.根据权利要求1所述的训练系统，其中所述具体应用是以下各项中的至少一项：

数字助理应用；

语音识别应用；

电子邮件应用；

社交联网应用；

协作应用；

企业管理应用；

消息接发应用；

字处理应用；

电子表格应用；

数据库应用；

演示应用；

联系人应用；

游戏应用；

电子商务应用；

电子业务应用；

事务应用；

交换应用；以及

日历应用。

11.一种用于利用机器学习技术来训练序列标签器的方法，所述方法包括：

从第一来源获得用于具体应用的部分地标注的数据；

从第二来源获得部分地标注的数据，其中所述第二来源是搜索日志；

将来自所述第一来源和来自所述搜索日志的所述部分地标注的数据合并成受约束格构，

其中所述受约束格构内的至少一个输入值具有多于一个候选标签，所述多于一个候选标签具有相应的置信分数，并且其中每个输入值被约束于针对所述输入值的、能够跟随其它候选标签类型的标签类型的预定的集合，以及

基于所述受约束格构来运行训练算法以估计模型参数，

其中与利用至少一些完全地标注的数据而被训练的序列标签器相比，所述方法提供更准确的序列标签器和更可靠的序列标签器。

12.根据权利要求11所述的方法，其中所述序列标签器是条件随机场。

13.根据权利要求11所述的方法，其中当所述受约束格构中的输入值具有遗漏或者不确定的标签时，所述受约束格构向所述输入值指派来自方案的所有候选标签。

14.根据权利要求11所述的方法，其中所述受约束格构由于每个输入值具有允许的候选标签类型的集合并且由于所述多个候选标签被结构化而被约束。

15.根据权利要求14所述的方法，其中所述多个候选标签由于一些候选标签类型无法跟随某些其它候选标签类型而被结构化。

16.根据权利要求11所述的方法，其中所述训练算法将来自所述受约束格构的候选标签与来自未约束格构的对应候选标签之间的能量差距最小化。

17.根据权利要求11所述的方法，其中所述方法提供如下平台，所述平台用于在无需用于所述具体应用的任何完全地标注的数据的情况下构建语言理解模型。

18.根据权利要求11所述的方法，其中所述具体应用是以下各项中的至少一项：

数字助理应用；

语音识别应用；

电子邮件应用；

社交联网应用；

协作应用；

企业管理应用；

消息接发应用；

字处理应用；

电子表格应用；

数据库应用；

演示应用；

联系人应用；

游戏应用；

电子商务应用；

电子业务应用；

事务应用；

交换应用；以及

日历应用。

19.根据权利要求11所述的方法，其中来自所述搜索日志的所述部分地标注的数据通过以下从来自商业搜索引擎的未标注的数据而被生成：

经由链接查询点击日志和知识提取从未标注的点进数据构造查询-知识点击图形；

应用基于串的对准算法以在所述查询-知识点击图形上对准语义标签与所述未标注的点进数据，以形成对准的查询-知识点击图形；

从所述对准的查询-知识点击图形去除较少置信的对准以形成更新后的对准的图形；以及

基于在所述更新后的对准的图形上与所述未标注的点进数据对准的所述语义标签来部分地标注所述未标注的点进数据。

20.一种用于利用机器学习技术来构建语言理解模型的系统，所述系统包括：

至少一个处理器；以及

一个或者多个系统存储器，包括存储于其上的计算机可执行指令，所述计算机可执行指令响应于由所述至少一个处理器的执行，使得所述系统执行操作，所述操作包括：

从众包的数据获得用于具体应用的部分地标注的数据；

从搜索日志获得部分地标注的数据；

将来自所述众包的数据和来自所述搜索日志的所述部分地标注的数据合并成受约束格构，

其中所述受约束格构内的至少一个输入值具有多于一个候选标签，所述多于一个候选标签具有相应的置信分数，并且其中每个输入值被约束于针对所述输入值的、能够跟随其它候选标签类型的标签类型的预定的集合，并且

其中所述受约束格构由于每个词具有允许的候选标签类型的集合并且由于所述多个候选标签被结构化而被约束；以及

基于所述受约束格构来运行训练算法以估计模型参数，

其中所述语言理解模型是经训练的条件随机场。