CN107735804A

CN107735804A - 不同标记集合的转移学习技术

Info

Publication number: CN107735804A
Application number: CN201680039897.6A
Authority: CN
Inventors: 金永邦; R·萨里卡亚
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-07-06
Filing date: 2016-07-05
Publication date: 2018-02-23
Anticipated expiration: 2036-07-05
Also published as: WO2017007742A1; EP3320490B1; CN107735804B; US11062228B2; US20170011306A1; EP3320490A1

Abstract

本公开的示例描述了用于不同标记集合的转移学习技术的系统和方法。在各方面中，可以访问服务器设备上的数据集。数据集可以包括标记和与标记相关联的词集。服务器设备可以引起数据集内的标记嵌入。嵌入的标记可以由对应于特定标记的多维向量表示。向量可以用于构建数据集的标记映射。标记映射可以用于训练模型以执行领域适应或转移学习技术。该模型可以用于向语句/查询或训练模型提供结果。

Description

不同标记集合的转移学习技术

背景技术

自然语言理解(NLU)是计算机程序理解人类言语和提取口头或键入输入的含义的能力。NLU系统已经与各种领域(例如，地点、天气、通信、提醒)结合使用。通常，这些领域中的NLU基于统计机器学习模型，这些模型需要大量特定于领域的注释训练数据。出于这样的原因，建立新的领域需要大量的资源投资。虽然领域适应中的各种技术和方法已经发展到解决这些问题，但是这些解决方案假设使用不变的标记空间。因此，这些解决方案的直接应用目前是不可能的。

本文所公开的方面就是针对这些以及其他一般考虑而提出的。而且，虽然可以讨论相对具体的问题，但是应当理解的是，这些示例不应该被限制为解决背景技术或者本公开中的其他地方所标识的具体问题。

发明内容

提供本“发明内容”是为了以简化形式介绍将在以下具体实施方式部分中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的技术主题的关键特征或必要特征，也不旨在用作帮助确定所要求保护的技术方案的范围。

本公开的示例描述了用于不同标记集合的转移学习技术的系统和方法。在各方面中，可以在服务器设备上访问数据集。数据集可以包括标记以及与标记相关联的词集。服务器设备可以引起标记嵌入到数据集。嵌入的标记可以由对应于特定标记的多维向量表示。向量可以用于构建数据集的标记映射。标记映射可以用于训练模型以执行领域适应或转移学习技术。该模型可以用来向语句/查询提供结果或训练不同的模型。

提供本发明内容是为了以简化形式介绍将在以下具体实施方式中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的技术方案的关键特征或必要特征，也不旨在用于限定所要求保护的技术方案的范围。示例的额外方面、特征和/或优点将部分地在下面的描述中阐述，并且部分地将通过描述而显而易见，或者可以通过本公开的实践而被了解。

附图说明

参考以下附图来描述非限制性和非穷尽性示例。

图1示出了本文所述用于实现不同标记集合的转移学习技术的示例性系统的概述。

图2示出了本文所述用于实现不同标记集合的转移学习技术的示例性输入处理单元的概述。

图3示出了本文所述用于不同标记集合的转移学习技术的示例性方法。

图4示出了本文所述使用接收到的输入来执行用于不同标记集合的转移学习技术的示例性方法。

图5是示出可以实践本公开的各方面的计算设备的示例的框图。

图6A和图6B是可以实践本公开的各方面的移动计算设备的简化框图。

图7是其中可以实践本公开的各方面的分布式计算系统的简化框图。

图8是示例性领域中的双射映射的示例图。

具体实施方式

下面参考附图更全面地描述本公开的各方面，附图形成本公开的一部分，并且示出了具体的示例性方面。然而，本公开的不同方面可以以许多不同的形式实现，并且不应被解释为限于在此阐述的各方面；相反，这些方面被提供以使得本公开将是彻底和完整的，并将向本领域技术人员充分地传达这些方面的范围。各方面可以被实践为方法、系统或设备。因此，各方面可以采取硬件实现方式、完全软件实现方式或者组合软件和硬件方面的实现方式的形式。因此，下面的详细描述不应被认为是限制性的。

本公开提供了用于不同标记集合的转移学习技术的系统和方法。如本文所使用的，转移学习可以指将在解决第一个问题时确定的知识应用于不同但相关的第二个问题。在示例中，处理设备可以使用生成的标记映射来训练诸如语言模型之类的模型。经训练的模型可以执行本文描述的领域适应或示例性转移学习技术，以显著减少必须投入到创建特定于新应用或领域的注释中的资源量。

在示例中，可以在服务器设备上访问数据集。本领域的技术人员将认识到，可以结合本公开的示例来使用任何类型的处理设备。示例性数据集可以包括用于自然语言理解(NLU)系统的数据。然而，本领域技术人员将认识到，本公开的示例可以应用于任何输入理解处理，包括以诸如语音/话语、文本、手写输入和触摸形式处理的输入，以及其他示例。在一个示例中，如本文所使用的，NLU可以指计算机程序理解人类语音并便于提取说出的、键入的和/或以其他方式接收到的输入的含义的能力。NLU数据可以与一个或多个领域相关联，并且可以包括标记以及与标记相关联的词集。如本文所使用的，领域可以指隔离或定义应用、软件功能或一组数据的容器和/或边界。例如，可以使用“事件”领域来搜索和购买事件相关的项目；而“地点”领域可以用于搜索地点和到该地点的指引。

处理设备(例如，服务器设备)可以使用例如典型相关分析(CCA)来导出数据集内的数据的密集的低维表示。如本文所使用的，CCA可以指描述确定在相同实体上测量的变量(向量)的多个多维集合之间的关系的方法的统计技术。确定出的关系可以指示哪些变量是最大相关的。密集的低维表示可以包括来自最大相关变量的信息。在一些方面，可以使用CCA来引起标记嵌入到数据集内。嵌入的标记可以由对应于特定标记和与标记相关联的词的多维向量表示。向量可以用于构建数据集的标记映射。在一些示例中，向量内的标记可被分组并映射到粗糙标记集合(簇)。如本文所使用的，粗糙标记集合可以指从更精细的标记集合中已抽象或概括的一组标记。例如，粗糙标记“time”可以从精细标记“start_time”和“end_time”中抽象出来。在其他示例中，向量内的标记可以用于双射映射不同数据集内的标记。例如，领域“events”中的标记“duration”可以被映射到领域“places”中的标记“travel_time”。

处理设备可以使用标记映射来训练模型以执行领域适应或转移学习技术。如本文所使用的，训练模型可以指使用一组训练数据来拟合统计机器学习的模型，其可以用来预测来自一个或多个预测器的响应值。如本文所使用的，领域适应可以指将不同领域和/或应用的数据、标记集合和模式映射到相同的语义空间。在一些示例中，可以训练模型以使用标记映射来执行从粗到精的标记预测。例如，可以在源领域上对模型进行训练，并且可以使用预测标记来训练目标领域上的模型。在其他示例中，可以使用源领域数据和目标领域数据的联合来训练模型，从而来自每个领域的数据与领域指示符联合。本领域技术人员将认识到，在本公开中描述的示例可应用于任何应用领域或服务。

因此，本公开提供了多种技术益处，包括但不限于：语言模型的改进训练，输入处理中的错误率降低，用于不同领域的标记集合的改进映射，用于构建不同领域中标记集合之间的映射的数据驱动技术；用于跨领域查找共享标记的数据驱动技术；减少注释领域所需的训练数据、时间和资源成本；增加第三方可扩展性；以及利用本公开的示例提高应用/服务的效率和质量，以及其他示例。

图1示出了本文所述用于实现不同标记集合的转移学习技术的示例性系统的概述。所呈现的示例性系统100是交互以形成集成整体的相互依赖的部件的组合，用以改进来自隐式反馈的推荐。系统的部件可以是硬件部件或在系统的硬件部件上实现和/或由硬件部件执行的软件。在示例中，系统100可以包括硬件部件(例如，用于执行/运行操作系统(OS))以及在硬件上运行的软件部件(例如，应用、应用程序接口、模块、虚拟机、运行时间库等)中的任何一个。在一个示例中，示例性系统100可以提供软件部件运行的环境，遵守为操作设置的约束，并且利用系统100的资源或设施，其中部件可以是在一个或多个处理设备上运行的软件(例如，应用、程序、模块等等)。例如，软件(例如，应用、操作指令、模块等)可以在诸如计算机、移动设备(例如，智能手机/电话、平板计算机)和/或任何其他电子设备之类的处理设备上运行。作为处理设备操作环境的示例，请参考图5-7中描绘的示例性操作环境。在其他示例中，本文公开的系统的部件可以跨多个设备分布。例如，可以在客户端设备(例如，处理设备)上键入输入，并且可以从诸如一个或多个服务器设备的网络中的其他设备处理或访问信息。

作为一个示例，系统100包括客户端设备102A、客户端设备102B、客户端设备102C、分布式网络104以及分布式服务器环境，分布式服务器环境包括诸如服务器设备106A、服务器设备106B和服务器设备106C之类的一个或多个服务器。本领域技术人员将会理解，诸如系统100的系统的规模可以变化，并且可以包括比图1中所描述的部件更多或更少的部件。在一些示例中，在系统100的部件之间的接口可以远程地发生，例如系统100的部件可以分布在分布式网络的一个或多个设备上。

客户端计算设备102A例如可以被配置为经由用户接口部件或其他输入单元接收与语句或查询相关联的输入。输入的例子可以包括语音、视觉、触摸和文本输入。客户端计算设备102A还可以被配置为处理、存储和/或经由网络104将接收到的输入发送到服务器106A、106B和106C中的一个或多个。服务器计算设备106A例如可以被配置为接收、处理和存储输入。在各方面中，处理输入可以包括识别输入内的一个或多个领域、标记和词集，并识别领域、标记和词集之间的关联。所识别出的领域、标记和词集和/或它们的关联可以存储于数据存储库内。服务器计算设备106A还可以被配置成将数据存储库内的输入转换成向量表示。向量表示可以用于为输入构建标记映射。标记映射技术的例子包括粗糙标记集合映射和双射标记集合映射等等。领域适应技术可以与用于不同数据集的标记映射一起使用。领域适应技术的例子包括从粗到细的预测和特征重复，以及其他例子。服务器计算设备106A可以提供对不同数据集的访问。

图2示出了本文所述用于实现不同标记集合的转移学习技术的示例性输入处理单元200的概述。由输入处理单元200实现的学习技术可以包括图1中描述的学习技术和输入。在替代示例中，单个系统(包括诸如处理器和/或存储器之类的一个或多个部件)可以执行分别在系统100和200中描述的处理。此外，输入处理单元200可以包括在图1的描述中所描述的用户接口部件。

示例性输入处理单元200可以包括用户接口(UI)部件202、数据存储库204、向量化部件206、标记映射部件208以及领域适应部件210，每个部件都具有一个或多个额外部件。UI部件202可以被配置为从客户端设备接收查询数据。在特定示例中，UI部件202可以被配置为直接从用户接收查询数据。查询数据可以与一个或多个领域相关联和/或一个或多个模式可以用于注释领域内的数据。如本文所使用的，模式可以指用于指定数据的一个或多个部分的标记类型或名称的框架。查询数据可以包括与一个或多个意图和/或插槽相关联的查询、语句、词串、一个或多个标记和/或数据。如本文所使用的，意图可以指用户的话语或其他录入的输入的目标或意图。如本文所使用的，插槽可以指用户的话语或其他录入的输入内的可动作内容。UI部件202还可以被配置为处理接收到的查询数据。例如，UI部件202可以将查询数据解析为一个或多个领域、标记和/或词集。可以识别和/或建立领域、标记和/或词集内的关联，从而多个词集可以与一个标记相关联，并且多个标记可以与一个领域相关联。UI部件202可以将经处理的查询数据发送到数据存储库204。

数据存储库204可以被配置为接收、存储和提供对各种类型数据的访问。在各方面中，数据存储库204可以为与接收到的查询数据相关联的数据提供存储。可以根据诸如领域之类的标准来组织和存储数据存储库内的数据。在一些示例中，存储管理服务可以在输入处理单元200上运行。存储管理服务可以与数据存储库204一起工作，以便于访问数据存储库204内的数据。存储管理服务和数据存储库可以位于输入处理单元200上。替代地，存储管理服务和数据存储库204中的一个或多个可以位于输入处理单元200可访问的单独的计算设备上。

向量化部件206可以被配置成将数据存储库204内的查询数据变换成低维向量表示。在各方面中，向量化部件206可以访问查询数据内的标记，以便将一个或多个标记或标记类型和关联的数据转换成对应的向量表示(标记嵌入)。向量化部件206可以使用诸如CCA算法之类的算法来执行变换。例如，可以使用以下示例性算法：

CCA-标记

输入：标记序列维度k

输出：针对每种标记类型，标记向量

1.对于序列中存在的每个标记类型l∈{1…d}和词类型w∈{1…d}，

计算

·count(l)＝标记l出现的次数

·count(w)＝词w出现的次数

·count(l,w)＝词w在标记l下出现的次数

2.定义矩阵其中：

3.在Ω上执行rank-k SVD。令为第i列是对应于第i大奇异值的Ω的左奇异向量的矩阵，

4.对于每个标记l，将的第l个归一化行设置为其向量表示，其中n是整个数据集中标记实例的数目，x₁...x_n是标记的原始表示，y₁...y_n是与标记相关联的词集的原始表示，d是不同标记的数目，d'是不同词的数目，是与第l个实例的标记对应的条目被设置为1的零向量，并且是其中与被标记跨越的词对应的条目被设置为1的零向量。

标记映射部件208可以被配置为使用向量表示来构建标记映射。在一些方面，标记映射部件208可以使用向量表示来将向量表示内的标记映射到粗糙标记集合。例如，给定一领域以及在该领域中出现的标记，标记映射部件208可以通过聚类向量表示来减少标记的数目。聚类可以表示抽象的或者概括的标记，并且可以使用诸如k均值聚类、谱聚类、亲和性传播、均值漂移、Ward层级聚类、凝聚聚类、DBSCAN、高斯混合以及Birch聚类之类的计算或者算法来生成。在示例中，如本文所使用的，k均值聚类可以指在聚类分析中使用的向量量化的操作，用以将n个观察划分为k个聚类，其中每个观察属于具有最近平均值的聚类。

在其他方面，标记映射部件208可以使用向量表示来将向量表示内的标记映射到不同的数据集。例如，给定一对领域以及在每个领域内分别出现的标记，标记映射部件208可以在该对领域内的标记之间创建双射标记映射。如本文所使用的，双射映射可以指多个集合的元素之间的函数，其中特定集合的每个元素与另一特定集合的元素配对。双射标记映射可以使得标记被映射到“最近邻居”，并且可以使用诸如k-最近邻居算法之类的计算或算法来生成。在示例中，如本文所使用的，k最近邻居可以指用于将对象分配给其k个最近邻居中最常见的类别的非参数分类方法。

领域适应部件210可以被配置为使用标记映射来应用领域适应技术。在一些方面，领域适应部件210可以使用从粗到细的预测分析来使源领域内的数据适应目标领域。如本文所使用的，从粗到细的预测可以指将一组对象/观察转换为较大的相关的一组对象/观察。例如，领域适应部件210可以包括或可以访问统计数据模型。领域适应部件210可以使用与源领域相关联的标记映射来训练模型(或使得模型被训练)。该模型然后可以用于对目标领域内的标记进行预测。预测可以包括在标记映射期间导出的标记相关性、关于同义标记名称和/或类型的数据、历史映射数据、意图/插槽分析等等。预测出的标记可以作为附加的训练特征/内容而被提供给模型，并用于训练源领域上的模型。替代地，可以将预测出的标记提供给在目标领域上训练的单独模型。

在其他方面，领域适应部件210可以使用特征复制技术来使源领域内的数据适应目标领域。如本文所使用的，特征复制可以指向量表示、意图/插槽对或与数据集相关联的其他数据的复制。例如，领域适应部件210可以复制至少包括源领域和目标领域的数据集内的每个向量。复制的向量可以与指定与该向量相关联的领域的领域指示符联合。然后，领域适应部件210可以使用复制的源数据和复制的目标数据的联合来训练目标领域上的统计数据模型(或使得模型被训练)。在各方面，在目标领域上训练的模型可以用于向目标领域上的语句和/或查询提供结果，或用于训练不同的模型以使用相同(或类似)的语义空间。

图3-图4示出了与本文所述的用于不同标记集合的转移学习技术相关联的各种处理流程。在各方面中，方法300-400可以由诸如图1的系统100之类的示例性系统执行。在示例中，方法300-400可以在包括至少一个处理器的设备上执行，该处理器被配置为存储和执行操作、程序或指令。然而，方法300-400不限于这样的示例。在其他示例中，可以在用于提供推荐的应用或服务上执行方法300-400。在至少一个示例中，可以由分布式网络的一个或多个部件(例如，网络服务/分布式网络服务(例如，云服务))执行方法300-400(例如，计算机实现的操作)，以针对不同的标记集合使用转移学习技术。

图3示出了本文所述的用于不同标记集合的转移学习技术的示例性方法300。示例性方法300在操作302处开始，其中数据集可以由输入处理单元访问。在各方面中，数据集可以位于数据存储库中，该数据存储库位于输入处理单元内或者位于由输入处理单元可访问的单独的计算设备上。可以经由处理单元或单独的计算设备上的用户接口或应用程序接口(API)来访问数据集。数据集可以包括来自一个或多个应用和/或领域的注释数据。一个或多个领域中的每一个可以与相应的模式相关联。模式可以通过在接收到的查询/语句内指定意图、插槽和/或其他信息来促进对数据集的注释。标记可以应用于意图、插槽和/或其他信息。在一些方面，领域模式可以指定与另一领域模式相似或相同的信息。然而，接收到的输入中的词语的含义在每个领域中可能是不同的。例如，词语“sunny”可能是天气领域中的天气状况，但也可能是天气领域中的歌曲标题。数据集内的数据可以根据领域相关联，从而多个插槽可以与意图相关联，并且多个意图可以与领域相关联。

在操作304处，数据集内的数据可以被转换成低维向量表示。在各方面中，CCA可用于将数据集内的标记或标记类型转换成数据的对应向量表示，如上文在图2中所述。通常，使用CCA和所得定义(例如，是其中与第l实例的标记对应的条目被设置为1的零向量，并且是其中与标记所跨越的词相对应的条目被设置为1的零向量)的动机是相似的标记和标记类型可能与相同(或相似)的词语相关联。例如，领域可以包括标记“start-time”(指定日历事件的开始时间)和“end-time”(指定日历事件的结束时间)。这两个标记经常与关于时间的短语相关联。短语“9pm”、“7”和“8am”可以被标记为“start-time”，并且短语“9am”和“7pm”可以被标记为“end-time”。在这种示例中，两个标记共享词语“am”、“pm”、“9”和“7”。因此，可以使用CCA将每个标记转换成与相应标记的编码的CCA投影对应的k维向量(向量表示)。在一些方面，使用CCA算法可以产生k维向量紧密关联的指示。

在操作306处，向量表示可以用于构造到不同标记集合的标记映射。在一些方面，向量表示可以用于映射粗糙标记集合。可以使用k均值聚类(如上所述)将紧密关联的向量表示分组(聚类)成抽象的或概括的标记，从而创建粗糙标记集合。例如，领域可以包括用于“start-time”标记的向量和用于“end-time”标记的向量。“start-time”和“end-time”向量可以被标识为共同性(密切相关)和/或可以包括共同性的指示符。由于共同性，至少部分地，“start-time”和“end-time”向量可以被分组到单个标记中，例如“time”。下面的表格中示出了聚类的另外示例：

在其他方面，向量表示可以用于执行双射(bijective)映射。可以在一个或多个领域的标记集合上使用k-最近邻算法来执行双射映射，以确定每个标记的最近邻。例如，“Reminder”领域可以包括“move-earlier-time”标记，“Alarm”领域可以包括“duration”标记，以及“Places”领域可以包括“travel-time”标记。表示三个标记的向量可以被标识为共享共同性和/或可以包括共同性的指示符。查询“move the dentist’s appointment up by30minutes”可能会在Reminder领域中被收到。标记move-earlier-time可以被分配到短语“30minutes”。由于共同性，至少部分地，“move-earlier-time”标记可以被映射到“duration”和“travel-time”标记，而不是语义上更加(表面上)对准的、“Places”领域中的标记“time”和“Alarm”领域中的“start-date”。图8中示出了上述示例性领域(例如，Places、Reminder和Target)中的双射映射的这个特定示例。

在操作308处，可以使用领域适应技术来在具有不同标记的领域中实现注释。在一些方面，可以结合标记映射来使用从粗到细的预测分析，以使源领域内的数据适应目标领域。例如，数据集可以包括来自源领域和目标领域的数据。可以使用与源领域相关联的标记映射来训练统计数据模型。在一个特定示例中，可以使用来自源领域的粗糙的或聚类的标记集合来训练模型。在这种示例中，模型可以确定精细标记名称和粗糙标记名称之间或者词语集合与精细和/或粗糙标记名称之间的相关性。这种相关性可以允许模型预测粗糙或聚类的标记集合与来自目标领域的标记之间的相关性，或预测目标领域内的标记。预测的相关性和/或标记可以用于重新训练目标领域上的模型或训练目标领域上的第二模型。在一些方面，第二模型可以用于预测目标领域的精细标记，例如“start-time”和“end-time”，或者可用于训练第三模型。

在其他方面，特征复制可以与标记映射结合使用，以使源领域内的数据适应目标领域。例如，数据集可以包括来自源领域和目标领域的数据。数据集内的标记、与标记关联的数据和/或向量表示可以被复制。复制的数据可以与领域指示符联合。在特定示例中，数据集可以包括“Weather”领域和“Music”领域，这两个领域都包括“sunny”标记。在“Weather”领域，“sunny”可以是天气状况，而“sunny”在“Music”领域内可以是歌曲标题。使用特征复制，可以为“Weather”领域生成标记指示符/特征w(0)＝sunny和(w(0)＝sunny)^(domain＝Weather)，并且可以为“Music”领域生成标记指示符/特征w(1)＝sunny and(w(1)＝sunny)^(domain＝Music)。

然后可以使用包括源领域数据和目标领域数据的联合的特征复制数据集来训练统计数据模型。然后，可以使用经训练的模型来向源领域和/或目标领域上的语句和/或查询提供结果。在各方面，复制和联合预处理步骤通过共同的标记指示符/特征为模型提供对数据集内的所有数据的访问。当数据集中存在标记不明确性(例如，多个领域中的“sunny”标记)时，共同的标记指示符/特征可能是有用的。在这样的方面中，预处理步骤还可以通过领域特定标记指示符/特征向模型提供对特定领域内的数据的访问。在标记与数据集明确时，领域特定标记指示符/特征对于避免过多的数据处理以及减少结果时间可能是有用的。

图4示出了本文所述的使用接收到的输入来执行用于不同标记集合的转移学习技术的示例性方法400。示例性方法400开始于操作402，其中查询输入可以由输入处理单元接收。查询输入可以包括查询、语句、词串、一个或多个标记、和/或与一个或多个意图和/或插槽相关联的数据。在各方面中，输入处理单元可以经由用户接口部件从用户接收查询输入，或者经由API从单独的输入处理单元接收查询输入。例如，输入处理单元可以经由客户端设备访问的API接收查询“I want to see Avengers tonight”。

在操作404处，可以处理和存储接收到的查询输入。在各方面，输入处理单元可以分析查询输入以识别与查询输入相关联的领域、意图、插槽和/或其他信息。识别出的数据可以被解析成与一个或多个领域相关联的标记和词集。例如，输入处理单元可以接收查询“I want tosee Avengers tonight”，其包括“Movies”领域。可以分析该查询，并且输入处理单元可以识别领域“Movies”、意图“Find Movie”以及插槽“avengers”和“tonight”。标记“movie-name”和“movie-start-time”可以分别应用于插槽“avengers”和“tonight”，并且标记可以与识别出的领域和/或意图相关联。在一些方面中，经处理的数据(电影数据集)可以存储在数据存储库中。数据存储库可位于输入处理单元上或位于由输入处理单元可访问的远程计算设备上。

在操作406处，新的领域和/或应用可以被创建、安装或使其对输入处理单元可访问。新领域可以与统计数据模型相关联，但是输入处理单元可能拥有不足的标记数据来训练新领域上的数据。因此，输入处理单元可以访问数据存储库内的电影数据集数据。例如，新的“Calendar”领域可以作为日历应用的一部分被安装在输入处理单元上。日历应用可以不包括数据(例如约会、联系人等)，并且可以不分配“日历”领域标记。

在操作408处，数据存储库内的数据集可以被转换成低维向量表示。在各方面中，可以使用CCA将数据集内的标记或标记类型转换成对应的向量表示，如上面关于图2所描述的。例如，电影数据集可以包括标记/词集对的100个实例，其中六个标记是唯一的。输入处理单元可以将六个标记转换成与相应标记的编码的CCA投影对应的k维向量表示。

在操作410处，向量表示可以用于构造到不同标记集合的标记映射。在一些方面，向量表示可以用于映射粗糙标记集合。例如，电影数据集可以包括六个唯一的标记：“movie-name”、“movie-start-time”、“movie-end-time”、“movie-location”、“movie-distance”和“movie-rating”。这些标记的向量表示内的数据可以使得向量表示被映射到粗糙标记集合(聚类)。在特定示例中，可以将“movie-start-time”和“movie-end-time”概括(聚类)为标记“Time”，将“movie-location”和“movie-distance”概括为标记“Location”，以及将“movie-name”和“movie-rating”概括为标记“Details”。

在操作412处，可以使用领域适应技术来在具有不同标记的领域中实现注释。在一些方面，可以结合标记映射来使用从粗到细的预测分析，以使源领域内的数据适应目标领域。例如，输入处理单元可以使用根据“Movies”领域内的标记生成的粗糙标记集合(例如，“Time”、“Location”和“Details”)来训练“Movies”领域上的模型。经训练的模型可用于预测粗糙标记集合与来自“Calendar”领域中的标记之间的相关性，或预测“Calendar”领域内的标记。在特定示例中，“Calendar”领域可以包括标记：“meeting-time”、“meeting-duration”、“meeting-sponsor”、“meeting-locaiton”和“meeting-subject”。“Movies”领域上训练的模型可以使用粗糙标记“Time”来确定与时间同义或相关的词语(例如，“minute”、“hour”、“duration”、“now”、“earlier”等)。所确定的词语可用于重新训练模型或训练“Calendar”领域中的时间相关(例如，语义相关)标记上的新模型，从而模型将“meeting-time”和“meeting-duration”识别为基于时间的标记。

在操作414处，在目标领域上训练的模型可以用于向语句或查询提供结果。在一些方面，输入处理单元可以使用经训练的模型来提取接收到的查询的含义，检索结果集，和/或训练领域或数据集上的不同模型。例如，查询“I want to see Avengers tonight”可以由输入处理单元接收，其包括“Movies”领域、“Calendar”领域和在两个领域上训练的模型。在处理查询之后，输入处理单元能够确定查询涉及两个领域。在特定示例中，插槽“tonight”可以与“Movies”领域中的标记“movie-start-time”和“Calendar”领域中的标记“meeting-time”相关联。经训练的模型可以返回Avengers电影的电影时间和位置，但是模型也可以返回指示与一个或多个电影时间和预定会议的时间冲突的消息。

图5-图7和相关联的描述提供了可以实践本发明的示例的各种操作环境的讨论。然而，关于图5-图7所示出和讨论的设备和系统仅用于示例和说明的目的，并不限制可用于实践本文所述的本发明的示例的大量计算设备配置。

图5是示出计算设备502的物理部件的框图，例如可以实践本公开的示例的系统的部件。下面描述的计算设备部件可以适于上述的计算设备。在基本配置中，计算设备502可以包括至少一个处理单元504和系统存储器506。取决于计算设备的配置和类型，系统存储器506可以包括但不限于易失性存储设备(例如，随机存取存储器)、非易失性存储设备(例如，只读存储器)、闪存或这些存储器的任何组合。系统存储器506可以包括操作系统507以及适于运行诸如应用528、IO管理器524和其他实用程序526的软件应用520的一个或多个程序模块508。作为示例，系统存储器506可以存储用于执行的指令。作为示例，系统存储器506的其它示例可以是诸如知识资源或学习程序池之类的部件。例如，操作系统507可以适于控制计算设备502的操作。此外，可以结合图形库、其它操作系统或任何其他应用程序来实践本发明的示例，并且本发明的示例不限于任何特定的应用或系统。这种基本配置在图5中由虚线522内的那些部件示出。计算设备502可以具有额外特征或功能。例如，计算设备502还可以包括额外的数据存储设备(可移除的和/或不可移除的)，例如磁盘、光盘或磁带。在图5中通过可移除存储设备509和不可移除存储设备510示出了这种额外存储设备。

如上所述，多个程序模块和数据文件可存储在系统存储器506中。当在处理单元504上执行时，程序模块508(例如，应用528、输入/输出(I/O)管理器524和其他实用程序526)可以执行过程，其包括但不限于例如图4中所示的操作方法400的一个或多个阶段。根据本发明的示例可以使用的其他程序模块可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、输入识别应用、绘图或计算机辅助应用程序等。

此外，可以在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或者包含电子元件或微处理器的单个芯片上实践本发明的示例。例如，本发明的示例可以经由片上系统(SOC)来实践，其中图5中所示的每个或多个部件可以集成到单个集成电路上。这种SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能，所有这些都被集成(或“烧制”)到芯片衬底上，作为单个集成电路。当经由SOC进行操作时，可以经由在单个集成电路(芯片)上与计算设备502的其他部件集成的专用逻辑来操作本文所述的功能。还可以使用能够执行逻辑运算的其他技术来实践本公开的示例，逻辑运算例如为AND、OR和NOT，包括但不限于机械、光学、流体和量子技术。另外，本发明的示例可以在通用计算机内或在任何其他电路或系统内实施。

计算设备502还可以具有一个或多个输入设备512，例如键盘、鼠标、笔、声音输入设备、用于语音输入/识别的设备、触摸输入设备等。还可以包括输出设备514，例如，显示器、扬声器、打印机等。上述设备是示例，并且可以使用其他设备。计算设备504可以包括允许与其它计算设备518通信的一个或多个通信连接516。合适的通信连接516的示例包括但不限于RF发射机、接收机和/或收发机电路；通用串行总线(USB)、并行和/或串行端口。

如在此使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息(例如，计算机可读指令、数据结构或程序模块)的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。系统存储器506、可移除存储设备509和不可移除存储设备510都是计算机存储介质示例(即，存储器存储设备)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其它光学存储设备、磁带盒、磁带、磁盘存储设备或其他磁性存储设备，或可用于存储信息并且可以由计算设备502访问的任何其他制品。任何这样的计算机存储介质可以是计算设备502的一部分。计算机存储介质不包括载波或者其他传播或已调的数据信号。

通信介质可以通过计算机可读指令、数据结构、程序模块或已调数据信号(例如，载波或其他传输机制)中的其他数据来体现，并且包括任何信息传递介质。术语“已调制数据信号”可以描述如下信号：以将信息编码在所述信号中的方式设置或改变一个或多个特性。通过示例而非限制，通信介质可以包括诸如有线网络或直连线连接的有线介质，以及诸如声学、射频(RF)、红外和其他无线介质的无线介质。

图6A和图6B示出了可以实践本发明的示例的移动计算设备600，例如，移动电话、智能电话、个人数据助理、平板个人计算机、膝上型计算机等等。例如，移动计算设备600可以被实现为系统100，系统100的部件可以被配置为执行如图4中所描述的处理方法以及其他示例。参考图6A，示出了用于实现示例的移动计算设备600的一个示例。在基本配置中，移动计算设备600是具有输入元件和输出元件的手持式计算机。移动计算设备600通常包括显示器605和允许用户将信息输入到移动计算设备600中的一个或多个输入按钮610。移动计算设备600的显示器605还可以用作输入设备(例如，触摸屏显示器)。如果包括的话，可选的侧面输入元件615允许进一步的用户输入。侧面输入元件615可以是旋转开关、按钮或任何其他类型的手动输入元件。在替代示例中，移动计算设备600可以并入更多或更少的输入元件。例如，在一些示例中，显示器605可能不是触摸屏。在又一可选示例中，移动计算设备600是便携式电话系统，例如蜂窝电话。移动计算设备600还可以包括可选键区635。可选键区635可以是物理键区或在触摸屏显示器上生成的“软”键区。在各种示例中，输出元件包括用于示出图形用户界面(GUI)的显示器605、视觉指示器620(例如，发光二极管)和/或音频换能器625(例如，扬声器)。在一些示例中，移动计算设备600并入用于向用户提供触觉反馈的振动换能器。在又一示例中，移动计算设备600并入输入和/或输出端口，例如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)和视频输出(例如，HDMI端口)，用于向外部设备发送信号或从外部设备接收信号。

图6B是示出移动计算设备的一个示例的架构的框图。也就是说，移动计算设备600可以并入系统(即，架构)602以实现一些示例。在示例中，系统602被实现为能够运行一个或多个应用(例如，浏览器、电子邮件、输入处理、日历、联系人管理器、消息传送客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些示例中，系统602被集成为计算设备，例如集成的个人数字助理(PDA)和无线电话。

一个或多个应用程序666可以被加载到存储器662中，并且在操作系统664上或者与操作系统664相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息传送程序等等。系统602还包括存储器662内的非易失性存储区域668。非易失性存储区域668可用于存储在系统602断电时不应丢失的持久信息。应用程序666可以使用信息并将信息存储在非易失性存储区域668中，例如由电子邮件应用使用的电子邮件或其他消息等。同步应用(未示出)也驻留在系统602上，并被编程为与驻留在主机计算机上的对应同步应用交互，以保持存储在非易失性存储区域668中的信息与存储在主机计算机处的对应信息同步。应该理解，其他应用可以被加载到存储器662中，并且在移动计算设备600上运行，包括在此描述的应用528、IO管理器524和其他实用程序526。

系统602具有电源670，该电源670可以被实现为一个或多个电池。电源670还可以包括外部电源，例如对电池进行补充或再充电的AC适配器或电对接支架。

系统602可以包括外围设备端口678，其执行便于系统602和一个或多个外围设备之间的连接的功能。去往以及来自外围设备端口672的传输在操作系统664的控制下进行。换句话说，由外围设备端口678接收到的通信可以经由操作系统664传播到应用程序666，反之亦然。

系统602还可以包括执行发送和接收射频通信的功能的无线电设备672。无线电设备672经由通信运营商或服务提供商便于系统602和“外部世界”之间的无线连接。去往和来自无线电设备672的传输是在操作系统664的控制下进行的。换句话说，由无线电设备672接收到的通信可以经由操作系统664传播到应用程序666，反之亦然。

视觉指示器620可以用于提供视觉通知，和/或可以使用音频接口674来经由音频换能器625产生可听通知。在所示示例中，视觉指示器620是发光二极管(LED)，并且音频换能器625是扬声器。这些设备可以直接耦合到电源670，从而当被激活时，即使处理器660和其他部件可能为了节省电力而关闭，它们仍保持开启达由通知机制指示的持续时间。LED可以被编程为无限期地保持开启，直到用户采取动作来指示设备的开机状态。音频接口674用于向用户提供可听信号并从用户接收可听信号。例如，除了被耦合到音频换能器625之外，音频接口674还可以耦合到麦克风以接收可听输入，例如以便于电话对话。根据本发明的示例，麦克风还可以用作音频传感器以便于对通知的控制，如下所述。系统602还可以包括视频接口676，其使得机载照相机630的操作能够记录静止图像、视频流等。

实现系统602的移动计算设备600可以具有额外特征或功能。例如，移动计算设备600还可以包括额外的数据存储设备(可移除的和/或不可移除的)，例如磁盘、光盘或磁带。这种额外的存储设备在图6B中通过非易失性存储区域668示出。

如上所述，由移动计算设备600生成或捕捉并经由系统602存储的数据/信息可以被本地存储在移动计算设备600上，或者数据可以存储在任何数目的存储介质上，所述存储介质可以由设备经由无线电设备672或经由移动计算设备600和与移动计算设备600相关联的分离的计算设备(例如，分布式计算网络(例如互联网)中的服务器计算机)之间的有线连接来访问。应当理解，这样的数据/信息可以经由无线电设备672经由移动计算设备600或经由分布式计算网络来访问。类似地，根据众所周知的数据/信息转移和存储方式，包括电子邮件和协作数据/信息共享系统，可以容易地在计算设备之间转移这些数据/信息以供存储和使用。

图7示出了上所述用于提供可靠地访问存储系统上的目标数据并且处理到一个或多个客户端设备的通信故障的应用的系统的架构的一个示例。与应用528、IO管理器524、其他实用程序526和存储设备相关联地访问、交互或编辑的目标数据可以存储在不同的通信信道或其他存储类型中。例如，可以使用目录服务722、网络门户724、邮箱服务726、即时消息传送存储库728或社交网站730、应用528、IO管理器524、其他实用程序526来存储各种文档，并且存储系统可以使用这些类型的系统等中的任何一个来实现数据利用，如本文所述。服务器720可以提供存储系统，以供在通用计算设备502和移动设备600上操作的客户端通过网络715来使用。通过示例，网络715可以包括互联网或任何其他类型的本地或广域网，并且客户端节点可以被实现为体现在个人计算机、平板计算设备中和/或通过移动计算设备600(例如，智能电话)体现的计算设备502。客户端计算设备502或600的这些示例中的任何一个可以从存储库716获得内容。

贯穿本说明书已经提及了“一个示例”或“示例”，这意味着在至少一个示例中包括特定的描述的特征、结构或特性。因此，使用这样的短语可以指不仅仅是一个示例。此外，所描述的特征、结构或特性可以以任何合适的方式在一个或多个示例中组合。

然而，相关领域的技术人员可以认识到，可以在没有一个或多个具体细节的情况下，或者利用其他方法、资源、材料等来实践这些示例。在其他情况下，公知的结构、资源或操作没有被示出或详细描述，这仅仅是为了避免使示例的各方面模糊。

虽然已经示出和描述了示例性示例和应用，但是应当理解，示例不限于上述的精确配置和资源。可以对本文公开的方法和系统的布置、操作和细节方面进行对于本领域技术人员来说显而易见的各种修改、改变和变化，而不背离所要求保护的示例的范围。

Claims

1.一种系统，包括：

至少一个处理器；以及

耦合到所述至少一个处理器的存储器，所述存储器包括计算机可执行指令，所述计算机可执行指令在由所述至少一个处理器执行时执行一种方法，所述方法包括：

访问第一已标记数据集合；

将所述第一已标记数据集合转换成向量集合；

识别来自所述向量集合的至少两个向量当中的标记的共同性；

基于所识别的所述共同性，使用所述至少两个向量来生成粗糙标记集合；

使用所述粗糙标记集合来训练模型；以及

使用所训练的所述模型，将与所述粗糙标记集合相关联的第一标记映射到与第二已标记数据集合相关联的第二标记。

2.根据权利要求1所述的系统，其中转换所述第一已标记数据集合包括：使用所述第一已标记数据集合对一个或多个标记应用标准相关分析(CCA)。

3.根据权利要求1所述的系统，其中生成所述粗糙标记集合包括：使用从以下组中选择的至少一种技术来聚合所述至少两个向量：所述组包括k均值聚类、谱聚类、相似性传播、均值漂移、Ward层级聚类、凝聚聚类、DBSCAN、Gaussian混合和Birch聚类。

4.根据权利要求1所述的系统，其中训练所述模型包括：识别与所述粗糙标记集合在语义上相关的一个或多个标记。

5.一种用于映射不同标记集合的系统，所述系统包括：

至少一个处理器；以及

访问已标记数据集合，其中所述已标记数据集合包括来自第一领域的数据和来自第二领域的数据；

将所述已标记数据集合转换成向量集合；

在所述向量集合中识别包括来自所述第一领域的数据的第一向量和包括来自所述第二领域的数据的第二向量，其中所述第一向量与所述第二向量共享共同性；

将所述第一向量映射到所述第二向量；以及

至少使用所述第二向量来训练模型。

6.根据权利要求5所述的系统，其中所述共同性表示所述第一向量是来自所述第一领域的所述数据中与所述第二向量最接近的匹配，其中所述最接近的匹配是使用k最近邻算法确定的。

7.根据权利要求5所述的系统，其中映射包括：生成所述第一向量与所述第二向量之间的双射映射。

8.根据权利要求5所述的系统，其中训练所述模型包括：复制所述向量集合。

9.根据权利要求8所述的系统，还包括：将所复制的所述向量集合中的每个向量与领域指示符相结合。

10.一种用于映射不同标记集合的计算机实现的方法，所述方法包括：

在设备上访问第一已标记数据集合；

将所述第一已标记数据集合转换成向量集合；

使用所述粗糙标记集合来训练模型；以及