CN106462608B

CN106462608B - 改进语言模型的知识源个性化

Info

Publication number: CN106462608B
Application number: CN201580025456.6A
Authority: CN
Inventors: M·阿克巴恰克; D·Z·哈卡尼-图尔; G·图尔; L·P·赫克; B·杜莫林
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-05-16
Filing date: 2015-05-15
Publication date: 2019-11-12
Anticipated expiration: 2035-05-15
Also published as: EP3143522A1; CN106462608A; US20150332672A1; WO2015175936A1; US9997157B2

Abstract

提供了通过针对特定用户或用户群体特点将语言模型所使用的知识源个性化来改进用于话音识别的语言模型的系统和方法。通过将来自用户的使用历史如查询记录的实体或用户动作映射到知识源，对特定用户个性化诸如知识图的知识源。个性化知识源可用于通过利用对应于出现在使用历史中的实体或实体对的查询训练语言模型来构建个人语言模型。在一些实施例中，用于特定用户的个性化知识源可以基于类似用户的个性化知识源来进行扩展。

Description

改进语言模型的知识源个性化

背景技术

语音使能的人机对话系统，诸如与娱乐系统或个人设备的语音交互，取决于用户话音的精确识别。例如，有效的语音搜索应用必须精确地识别用户提交的查询，从而返回给用户的信息与用户在提交查询时的意图相关。此类系统的精度能够通过将此类系统所使用的语言模型或口语语言理解(SLU)模型针对具体用户或一组类似用户而不是总的用户群体个性化来改进。

现有的用于个性化语言和SLU模型的方法主要依赖于用户过去的某些类型的言辞以及来自用户记录的个人使用模式。这些方法假设与未来言辞的词汇相似度，诸如未来的用户查询；也即，用户将会询问与之前相同的问题。但是这些方法对于语义上或者类别上相似但是包含不同内容的未来言辞是无效的。特别地，这些方法不能提供用于在已经观察到的词语序列模式上扩展从而预测未见的用户查询的解决方案。

发明内容

提供该发明内容以便以简化的形式来引入下面的具体实施方式中进一步描述的概念的选择。该发明内容不旨在确定所要求保护的主题的关键特征或主要特征，也不旨在用于限定所要求保护的主题的范围。

本发明的实施例涉及通过针对具体用户或用户群体特点调整语言模型所使用的知识源来改进用于话音识别的语言模型的系统和方法。特别地，通过将特定用户的个人使用历史信息并入，可以针对该特定用户个性化诸如知识图的知识源。如进一步所描述的，在一个实施例中，个人使用历史可以包括用户的网络查询记录、桌面或个人设备查询记录、社交网络交互、所访问的网站和类似的用户交互信息。从该数据，可以确定、提取实体和用户动作信息以及将其投射或映射到知识源上，从而针对用户个性化知识源。个性化知识源随后能够用于通过利用对应于在用户的使用历史信息中出现的实体或实体对的查询训练语言模型来构建个人语言模型。

一些实施例还包括使用个性化知识源来确定具有类似的兴趣或意图的用户。以此方式，可以基于类似用户所共有的群体特点来构建语言模型。而且，在目标用户的个人使用历史稀少或未知的情况下，可基于对类似用户个性化的知识源来扩展或增强对该目标用户个性化的知识源。

附图说明

在附图中通过示例而不是限制的方式图示说明了本发明，在附图中相似的附图标记指代相似的元件，并且其中：

图1是可以采用本发明的实施例的示例的系统架构的框图；

图2描绘了依照本发明的实施例的个性化的知识图的一个示例的部分；

图3-5描绘了依照本发明的实施例的基于用户历史来个性化特定用户的语言模型从而更好地理解该特定用户的未来查询的方法的流程图；以及

图6是适合在实现本发明的实施例时使用的示范性的计算环境的框图。

具体实施方式

在本文具体地描述了本发明的主题以符合法规要求。然而，说明书本身不旨在限制该专利的范围。相反，发明人已经想到，要求保护的主题也可能与其它当前或未来的技术相结合而通过其它方式来具体实施，以包含类似于该文档中所描述的步骤的不同步骤或步骤的组合。而且，虽然术语“步骤”和/或“框”可在本文用来暗含所采用的方法的不同要素，该术语不应解释为暗示在本文公开的各步骤之中或之间的任何特定顺序，除非以及除了明确地描述各个步骤的顺序。

在本文所描述的技术的方面一般涉及用于通过针对具体用户或用户群体特点来调整语言模型所使用的知识源来改进用于话音识别的语言模型或SLU模型以及其它事项的系统、方法和计算机存储介质。特别地，通过将用户信息并入知识源中，可以对特定用户个性化诸如知识图的知识源，从而创建个性化知识源。

当创建个性化知识源时，可以使用用户的各种个人信息源以及更一般的知识源，诸如域数据库和知识图。个性化知识源随后可用于构建个性化语言模型，例如通过利用对应于用户的使用历史信息中出现的实体或实体对的查询训练语言模型。例如，在一个实施例中，通过将来自诸如查询记录和社交网络交互的各种个人源的个人使用历史信息映射到一般的知识图上，生成个性化知识图。然后，个性化知识图用于定制用户的语言模型以改善话音识别，例如通过使用个性化知识图中的实体关系来预测用户的未来查询。

一些实施例还包括使用个性化知识源来确定具有类似兴趣或意图的用户，例如通过聚类(clustering)。以此方式，可基于类似用户所共有的群体特点来构建语言模型。而且，可以基于对类似用户个性化的知识源来扩展或增强针对特定用户个性化的知识源。因此，在新用户的个人使用历史稀少或未知的情况下，来自类似用户的信息，包括例如关于实体、实体关系对、意图或实体流行性的信息，可以用于训练新用户的语言模型。

现在转到图1，提供了框图，示出了适合于实现本发明的实施例且通常由系统100指示的示例的系统架构的各方面。应当理解，本文所描述的该布置以及其它布置仅作为示例阐述。因此，系统100仅表示适合的计算系统架构的一个示例。除了或者不使用示出的那些可以使用其它的布置和元素(例如，用户设备、数据库等)，并且一些元素可为了清晰的原因而一起省去。此外，本文所描述的多个元素是可以实现为离散的或分布的组件或者与其它组件相结合来实现以及在任何适合的组合和位置实现的功能实体。在本文中描述为由一个或多个实体所执行的各种功能可以通过硬件、固件和/或软件来实施。例如，一些功能可以通过处理器执行存储在存储器中的指令来实施。

在未示出的其它组件中，系统100包括与一个或多个用户设备(例如，项102和104)通信耦合的网络115、存储设备106以及个性化知识源生成器120。图1所示的组件可以利用一个或多个计算设备，诸如结合图6所描述的计算设备600来实现。网络115可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。这些联网环境常见于办公室、企业域计算机网络、内联网和因特网。应当理解，可以在本发明的范围内在系统100内采用任何数量的用户设备、存储组件和个性化知识源生成器。每个均可以包括单个设备或在分布式环境中配合的多个设备。例如，个性化知识源生成器120可以经由布置在统一地提供本文所描述的功能的分布式环境中的多个设备来提供。另外，未示出的其它组件也可以包含在网络环境内。例如，还可以提供知识图数据库以便单独地存储能够易于由本文所描述的实施例访问的知识图。

示例的用户设备102和104各自包括能够接收来自用户的输入的任意类型的用户设备，诸如下文所述。虽然图1示出了两个示例的用户设备102和104，但是用户可以仅与一个用户设备或多于两个的设备相关联。在一些实施例中，接收到来自用户的输入的用户设备与用户的用户标识相关联。

在一个实施例中，用户设备102和104可以是关于本文的图6所描述的类型的计算设备。通过示例而不是限制的方式，用户设备可具体实现为个人数据助理(PDA)、移动设备、膝上型设备、平板设备、远程控件、娱乐系统、车辆计算机系统、嵌入式系统控制器、电器、消费电子设备、或者能够接收来自用户的输入的其它电子设备。输入可通过多个不同模态中的一个接收，诸如通过示例而不是限制的方式，通过语音或声音、文本、触摸、点击、姿势、用户的物理环境或结合图6所描述的其它输入技术。例如，用户可以使用搜索引擎来输入查询，打算接收与查询高度相关的信息。或者，用户可以与一个或多个社交网站交互并且提供用户打算与朋友或者甚至陌生人共享的输入。用户还可以与社交网站交互，表明用户已经阅读且喜欢另一用户的发帖。此外，用户可以对游戏系统、电视机等使用语音命令。所有这些形式的输入以及其它未在此具体提及的输入被认为在本发明的范围内。

存储设备106通常存储一个或多个知识源107以及个人源109，其在一个实施例中被用来构建语言模型以改进话音识别例如精确地确定用户下一言辞的可能性。在一些实施例中，一个或多个语言模型(未示出)，包括从知识源107构建的语言模型和/或从知识源107和个人源109构建的语言模型，也存储在存储设备106中。此外，虽然描绘为单一数据库组件，存储设备106可以具体实现为一个或多个数据库，或者可以在云端。

在一个实施例中，知识源107包括关系数据库，该关系数据库包含域数据库、知识库、知识图或类似的信息源。在一个实施例中，知识源107包括结构化语义知识库，诸如Sematic Web。通过后台，Sematic Web(或类似的结构化知识库或web规模的语义图)能够利用资源描述架构(RDF)来表示，其为三基关联结构，典型地包括通过某关系链接的两个实体且类似于公知的预测/变元(argument)结构。示例是“directed_by(Avatar，JamesCameron)”。随着RDF在使用和流行度方面的增加，已经出现了覆盖各种域的三元库(称为知识库或知识图)，诸如Freebase.org。在一个实施例中，知识源107包括一个或多个知识图(或者关系图)，其包括指示两个实体之间的关系的三元组(例如，Avatar-directed by-James Cameron)，并且可被汇编为图形结构。在图2中提供了示例的知识图，其图示说明了示范性的实体及其关系，并且将在本文进行更详细论述。

在一个实例中，知识源确定至少一个实体。如本文所使用的，术语实体被广义地定义为包含与其它项具有潜在关系的任何类型的项，包括概念或对象。例如，实体可以包括电影“Life is Beautiful”，导演(director)“Roberto Benigni”，以及奖项“奥斯卡”。这三个实体相关，因为电影“Life is Beautiful”是由“Roberto Benigni”导演的，并且该电影也获得奥斯卡奖。以某种方式相关的多个实体典型地包括域，该域可被视为实体类别，诸如电影、运动、音乐、体育、商业、产品、组织等。

个人源109包括用户的一个或多个信息源。通过示例而不是限制的方式，此类用户信息可以包括：用户的查询记录，包括提交的查询、查询结果和/或点击结果；所访问的网站和浏览器历史；在线购买历史；社交网络交互；以及其它用户交互信息或使用历史。在一个实施例中，用户信息包括在用户设备(例如，项102或104)上所采取的动作，该用户设备可以与用户ID相关。

存储设备106还可以存储根据本文所描述的实施例生成的个性化知识源或扩展的个性化知识源。例如，如进一步所描述的，个性化知识源可针对特定用户定制并可以用于定制用于改进对于该特定用户的话音识别的语言模型。扩展的个性化知识源针对特定用户定制，而且包含了从具有类似兴趣的其它用户到与个性化知识源相关联的用户的映射。当我们在此处提到映射时，我们指的是从一个或多个个人源取得数据且将其与知识源对齐或将其映射到知识源的过程。

在一个实施例中，在数据包括特定的实体或实体类型的情况下，可以在诸如知识图的个性化知识源中确定实体或实体类型，并且对该实体或实体类型添加计数。因此，个性化知识源变成了概率个性化知识源。例如，如果数据包含了电影名字“Life isBeautiful”，则该电影名字位于用户的个性化知识图中并且该实体的当前计数增加一。同样可以在本发明的实施例的范围内构思其它映射方法。例如，算法可用于提供或计算每个实体和/或实体类型的权重。在这些实施例中，该算法可使用一对一计数方法或者可以考虑到不同的因素，诸如从哪个源提到了该实体或实体类型，用户如何表明对该实体或实体类型的兴趣，等等。在一个实施例中，在目标用户的个性化知识源扩展的情况下，来自个性化知识源的加权可用于测量来自其它用户的查询的某些N-gram的计数，从而目标用户的兴趣或意图仍得以表示。

个性化知识源生成器120包括用户历史采集组件122、用户历史解析组件124、知识源扩展组件126和映射组件128。个性化知识源生成器120被配置为利用来自特定用户或者来自被判定为与该特定用户类似的其它用户的个人源数据来生成个性化知识源和扩展的个性化知识源。在一个实施例中，个人知识源生成器120可实现在一个或多个用户设备上，诸如用户设备102和104，实现在服务器或后台组件(未示出)上，或者实现在云端的分布式平台(未示出)上。

在一个实施例中，在高级处，通过将个人源数据映射到一般(非个性化的)知识源或能够进一步个性化的个性化知识源来创建个性化知识源。特别地，用户历史采集组件122被配置为提取或以其它方式采集该特定用户的个性化的用户历史。该个性化的用户历史可以从各种个人源109采集。在一个实施例中，只要能够与特定用户结合，可以使用任何源，诸如需要用户确定或以其它方式与特定用户相关联的源。从这些源采集数据允许系统捕获用户的个人兴趣和意图，该个人兴趣和意图随后能够用于预测或确定看不见的查询(例如，语音查询)用于个性化语言建模的可能性。理解用户的兴趣和意图因此有助于预测用户可能对什么感兴趣或者用户在未来的查询中可能问什么。

除了与仅与特定用户相关联的用户历史，在一些实施例中，用户历史采集组件122还负责采集关于与特定用户类似的其它用户的历史，诸如具有包含其兴趣和意图在内的类似的用户历史的其它用户。特别地，在特定用户的用户历史稀少或未知的情况下，其可以有助于利用来自共享与该特定用户类似的兴趣和意图的其它用户的数据来支持用户的个性化知识源。通过示例而不是限制的方式，可以确定的是特定用户一般对电影具有浓厚的兴趣，并且频繁地搜索网络以得到各种电影的演员阵容信息。另外地，该用户的用户历史表明该用户趋于偶尔购买电影。因此，在不同用户或用户群组被确定对电影具有相似兴趣、搜索电影的演员阵容、以及还有购买电影的趋向的情况下，来自那些用户的历史的数据可映射到与特定用户相关联的个性化知识源从而支持个性化知识源对话音识别的有用性。

用户历史解析组件124通常被配置为通过用户历史采集组件122所提取或采集的可能大量的数据来解析以确定任何实体相关或用户动作相关的信息。如本文所使用的，用户动作是指能够提供关于与特定实体和/或实体类型相关联的用户意图和用户兴趣水平的信息的用户所采取的动作。例如，继续上述示例，如果用户对电影感兴趣且趋于偶尔在网站上进行电影购票，则电影购票的动作可被确定、解析和映射到用户的个人知识源。

用户动作相关信息可尤其有助于利用来自其它用户的数据扩展用户的个性化知识图，因为动作能够用于判定其它用户是否具有与特定用户相似的兴趣或意图。另一示范性的用户动作包括用户提供他或她“喜欢”例如社交网站上的某品项(例如，公共人物、名人、书籍、电影、另一用户的发帖)。在一些实施例中，与用户“喜欢”的无论何物相关联的实体都可以通过用户历史解析组件124来确定。

除了解析与特定用户相关联的个性化用户历史之外，在一些实施例中，用户历史解析组件124还负责解析与和特定用户有相似的兴趣和/或意图的其它用户相关联的数据，如本文所描述的。在这些实施例中，与其它用户相关联的解析的数据随后可以映射到特定用户的个性化知识图中。

知识源扩展组件126被配置为判定是否应当扩展特定用户的个性化知识源，并且在一些实施例中，判定如何扩展以及扩展到何种程度。在一个实施例中，在用户的个性化知识源未被大量扩展来自用户历史的信息的映射的情况下，例如，如果知识源中的实体的计数或权重不特别高或者尚未满足阈值，则可以判定出应当扩展用户的个性化知识源。知识源扩展组件126还可以负责判定应如何扩展个人知识源。该判定的一个方面可以包括确定与特定用户相似的其它用户或用户群组。在一个实施例中，类似用户可以共享群体特点，诸如对具体的领域的兴趣、所执行的查询的类型(例如，搜索电影的演员阵容成员)、用户动作(例如，电影购票)等。

在一个实施例中，扩展个人知识源涉及到对目标用户的个性化知识源中的实体和实体间关系加权。加权可以基于具体的实体和关系已经从用户历史数据映射的次数。类似的加权可关于其它用户的个性化知识源应用。如果目标用户的个性化知识源的具体部分中的实体和实体间关系具有与其它用户的个性化知识源的同一部分中的相同的实体和实体间关系相似的权重(例如，满足加权值的最小阈值)，则可以判定该特定用户和其它用户在知识图的该部分的主题上具有相似的兴趣。

在另一实施例中，替代实体已经映射了多少次的计数或者除了实体已经映射了多少次的计数而使用知识源中的实体的流行度。例如，在具体的实体对于其它用户群组具有特别高的流行度的情况下(例如，该具体的实体经常被查询、提及、在社交网站上发帖)，可以预测出该特定用户也对该流行的实体感兴趣。因此，特定用户的个性化知识源可以针对该实体来扩展，并且可以包括特定用户对该实体的个性化知识源的部分感兴趣(或者可能感兴趣)的指示。

在又一实施例中，用户的个性化知识源可以用于确定用户对个性化知识源的第一部分的兴趣水平，诸如特定的实体或实体间关系。例如，确定兴趣水平可以包括判定用户是否满足指示用户(或其它用户)对知识源的某部分感兴趣的可能性的某阈值。可替代地或者另外地，可以存在能够被满足以量化用户对知识源的一部分的兴趣的多个兴趣水平。

个性化知识源生成器120的映射组件128被配置为将数据映射到知识源。如本文所述，用户历史解析组件124通常从个人源确定并提取用户历史数据，诸如实体和用户动作。该数据随后映射到知识源，从而针对用户调整或个性化知识源。该数据的映射可以多种方式发生。例如，如上所述，每当在用户的个人历史信息中确定了特定实体或实体类型时，知识源中该实体或实体类型的计数可以增加，使得在任何特定时候，实体或实体类型具有与其相关联的计数。因此，如果实体已经被映射了十次，则与个性化知识源中的实体相关联的计数可以是10。或者可替代地，在一个实施例中，可使用算法来计算每个实体的权重，而不是一对一计数。算法可以考虑其它因素，诸如实体(或实体类型)在何处和/或如何被提及或以其它方式与例如用户或上下文链接。因此，如本文所使用的，术语“映射”、“映射到”或“对齐”广义地用来意指增加知识源中的实体、关系、实体-实体对或实体类型的计数、对知识源中的实体、关系、实体-实体对或实体类型加权或者创建与知识源中的实体、关系、实体-实体对或实体类型的关联或者其它用于基于用户历史信息来表示用户对知识源的具体部分的兴趣的指示符。

现在转到图2，依照本发明的实施例，描绘了个性化知识源的各方面。通过示例的方式，图2的个性化知识源包括个性化知识图并且一般地称为知识图200。知识图200表示可以对特定用户个性化的知识源的一个示例。特别地，如下文所述，图2示出了将用户的历史信息(在该情况下是过去的用户言辞)与知识图200对齐以及根据来自用户历史的个人使用统计对图上的关系加权的示例。

知识图可以划分成多个部分，每个部分称为子图。示例的知识图200的两个部分或子图显示在图2中：对应于电影域202的部分和对应于书籍域204的部分。为清晰的原因，电影域202和书籍域204各仅示出了该域中实体和实体间关系的子集。具体地，示出了以电影实体“Life is Beautiful”为中心的电影域202，并且示出了以书籍实体“Leviathan”为中心的书籍域204。如三个点(项214和216)所指示，知识图的其它子部分(例如，其它电影，其它书籍)存在，但是没有示出。

在图2中还示出了用户历史信息的框206。在该示例中，用户历史信息包括过去的用户交互，诸如用户询问Roberto Benigni的电影所提交的之前的查询。此处，实体“Roberto Benigni”和实体关系“导演”是从用户言辞中确定的并且映射(箭头209)到知识图200。第二个示例示出了用户动作，表明用户已经购买了电影“Life is Beautiful”的副本。箭头211显示出该用户动作如何与知识图200中的“Life is Beautiful”实体对齐。类似地，框206示出了其它用户查询的示例，其可以来自与用户相关联的一个或多个查询记录。这些查询包括例如询问奥斯卡获奖电影。此处，“奥斯卡”可以被确定为实体并且映射到知识图中的“奥斯卡，最佳男演员”实体210，和/或如此处所示，映射到与“奥斯卡，最佳男演员”实体210连接的“获奖”的实体间关系，因为用户的意图是确定已经获得奥斯卡奖的电影。下一示例代表了来自包含了在用户设备上进行的来自用户的过去查询的桌面(或用户设备)查询记录的查询。此处，用户正在搜索本地地保存在他或她的用户设备上作为小说的书籍。因此，“小说”被识别为实体并且可以映射到小说实体和/或映射到与小说连接的实体关系“流派”，因为用户的意图是找到作为小说的书籍。

最后，提供了用户提交“Paul Auster书籍”的查询的例子。如图所示，实体“PaulAuster”可以映射到用户的个性化知识图作为实体或者作为具有作者(实体)“PaulAuster”的书籍(实体)“Leviathan”之间的关系。以该方式，通过将在框206中提供的示例的用户历史信息映射到知识图200，知识图200变得针对用户个性化。

如图2中进一步示出，一些实体，诸如“Prix Medicis Etranger”208、“RobertoBenigni”212和“奥斯卡，最佳男演员”210，可以被确定为是该特定用户较感兴趣的，如每当对该实体发生映射时，由被置于实体下方的椭圆形(例如，表示计数)所指示的。可替代地，与某些实体、实体-实体对或关系相关联的计数或权重能够提供用户对那些实体、实体-实体对或关系感兴趣的另一指示(诸如相关联的值)。

转到图3，提供了图示说明用于基于用户历史信息将该特定目标用户的语言模型个性化的一个示范性的方法300的流程图。根据方法300所创建的个性化语言模型可用于目标用户的话音识别，诸如通过预测用户所提交的未来看不见的查询(例如，语音查询)。

在高级处，方法300的实施例首先利用该目标用户的各种个人信息源以及可用的知识源创建了个性化知识源，其可以包括非个性化知识源或者能够针对目标用户个性化的知识源。从用户历史信息的过去的言辞、用户的交互和其它个人源提取的信息与知识源对齐。例如，用户过去的言辞与知识图的部分的基于实体的相似性可被确定且映射到那些部分上。可跟踪出现在用户历史中的实体和实体类型，并且当构建个性化语言模型时可以使用它们的计数。一个实施例还包括：给定过去的用户言辞(或其它用户数据)，使用用于应用域的目标口语语言理解模型来估计特定域的概率，和/或给定过去的用户言辞，使用用于应用域的目标口语语言理解模型来估计用户意图和特定关系的概率。

P(域|过去的用户言辞)，P(意图&关系|过去的用户言辞)

该概率能够在构建个性化语言模型时用来提升知识源的具体部分的计数，如图2中所示。

继续图3，在步骤310中，从一个或多个个人源接收目标用户的使用历史信息。使用历史包括从诸如结合图1所描述的个人源109的一个或多个个人源采集到的与目标用户相关的数据；例如，目标用户经由用户设备执行的来自查询记录的过去的用户查询、网站交互、用户动作等。用户意图可以从使用历史所表示的过去行为推理出。

在一个实施例中，使用历史被采集且存储在数据库中，诸如图1的存储设备106。例如，在目标用户登录到用户设备、运行于设备上的应用、或者具体的网站或诸如搜索引擎的在线服务上的情况下，关于使用历史的信息能够被采集且与用户相关联。在一个实施例中，到使用历史信息的地址或指针可以被存储而使得可以接收到使用历史并且可以在下一步中从使用历史解析具体的信息。

在步骤320中，解析使用历史信息以确定一个或多个实体和/或用户动作。在一个实施例中，步骤320包括从与该目标用户相关联的使用历史信息中提取包括实体-实体对和实体关系的实体和/或用户动作。

在步骤330中，经解析的实体或用户动作映射到知识源上，从而创建个性化知识源并且指示知识源的目标用户最感兴趣的部分。因此，如使用历史所表示的用户的个人兴趣和意图被捕获到个性化知识源上并且随后可用于个性化的语言建模，诸如预测未来看不见的查询(例如，语音查询)。例如，目标用户的用户言辞或过去的交互可以对齐到知识图上，诸如结合图2所描述的。

在一个实施例中，步骤330包括使得可由知识源表示的现有的语言模型适应目标用户的使用历史，如过去的言辞。假设用户通常具有对符合他们的一般兴趣的对话系统的请求，他们可以重复来自相似域且具有相似意图的请求，但是意图的变元不同。因此，通过捕获用户的较高水平的兴趣和意图，能够创建预期相似的意图但是具有不同变元(即，没有出现在使用历史中的变元)的语言模型。如上所述，在一个实施例中，这是通过确定使用历史与知识源的部分的基于实体的相似度以及将它们映射到知识源的对应部分上来实现的。因此，跟踪出现在用户历史中的实体和实体类型，并且当构建个性化的语言模型时使用这些实体和实体类型的计数。在一些实施例中，在该步骤所确定的个性化知识源表示概率知识源，因为来自用户历史的使用统计被用于对知识源的关系和实体加权(或者增加对其的计数)。

在步骤340中，使用个性化知识源来个性化(或训练)该目标用户的语言模型。在高级处，步骤340的实施例可以包括将个性化的概率知识源并入个性化的语言模型，例如通过根据对应于在使用历史中确定的实体或实体-实体对的查询来训练语言模型(例如，N-gram)。通过首先训练用于该目标用户的查询的模型以及随后将来自所有用户的相同的实体或实体-实体对的查询插入其中，可以针对目标用户进一步训练语言模型。可替代地，可对于目标用户的知识源空间来训练全部用户的语言模型，诸如通用语言模型(ULM)。在两种情况下，来自目标用户的知识源的权重可用于测量来自其它用户的查询的某N-gram的计数，使得目标用户的兴趣或意图仍得以表示。

在一个实施例中，可以分析与其它用户相关联的个性化知识图。从这些个性化的知识图中，可以将这些其它用户中的一个或多个确定为具有与目标用户相似的兴趣和/或意图，诸如通过与目标用户具有共映射的实体和实体间关系。以此方式，与其它相似用户相关联的实体和/或用户动作可以映射到目标用户的个性化知识图上。该增加了目标用户的个性化知识图而使得用户的个性化语言模型更佳地适应以改善话音识别。在一个实施例中，两个用户或用户群组之间的兴趣和/或意图的相似度可通过将与每个用户或群组相关联的两个概率知识图空间比较来确定，其中每个空间是利用概率图表示的。利用该相似度度量，可以评估插入权重以确定哪些权重将用于利用相似用户的或用户群组的源插入目标用户的个性化知识源。

方法300的一些实施例包括通过采集、解析这些交互以及将这些交互映射到如上所述的知识源上，使用相似网络中的社交网络交互或其它用户输入用于语言模型个性化。在一些实施例中，知识源已经针对目标用户个性化并且可进一步通过映射社交网络交互来个性化或扩展。在这些实施例中或者在目标用户的个性化知识源基于与其它用户的相似度来扩展的实施例中，其它类似的用户或社交网络朋友的语言模型能够用于插入目标用户的个性化语言模型。然后，假设社交网络朋友将对目标用户的未来查询产生某些影响，则新的个性化语言模型可用于预测目标用户的未来查询。

现在参考图4，提供了示出基于用户历史信息和来自相似用户的信息来个性化特定目标用户的语言模型的示范性的方法400的流程图。个性化的语言模型可用于目标用户的话音识别，例如通过预测目标用户所提交的未来看不见的查询。

在高级处，方法400的实施例可用于通过并入来自针对相似用户和/或社交网络朋友个性化的知识源的信息而“扩展”对目标用户个性化的知识源。可以扩展个性化知识图的一种方式是使用已知的个人关系。示例的关系可以包括三元组，比如“在<公司>工作”或者“是<联系人>的父亲”。然后，如先前的使用历史所激活的网络规模知识图的子图可扩充到该扩展后的个人知识图。在这些实施例中，节点和边(例如，知识图的实体和实体间关系)关于使用历史加权，使得语言模型训练能够立即受益。这些权重随后可确定用于激活图的该部分的N-gram的权重。此外，一旦用户具有扩展后的个性化知识源，其它用户的个性化知识源可用于增强目标用户的知识源。例如，可以利用基于联系频率的在先权重，使用其它用户的语言模型来调整目标用户的语言模型。

类似地，可通过使用类似于目标用户的其它用户的知识源来扩展个性化知识源。例如，假设每个用户具有个性化的语言模型，然后可以对于不同的用户群体特点来创建语言模型，该个性化的语言模型可通过基于他们的使用历史和元数据所确定的概率个性化知识源来提供，诸如结合图3所描述的。在一个实施例中，可以通过将对应于用户的个性化知识源的语言模型聚类来确定相似用户。可以应用本领域技术人员所知的多种各类用于聚类的技术中的任一种。在一个实施例中，应用自底向上聚类，其中关于某度量彼此最相似的一对语言模型迭代地合并(在一个实施例中，与相等的权重组合)。可以使用通常用于计算两个概率分布之间的距离的对称Kullback Leibler距离或者类似的度量。在另一实施例中，应用K均值聚类，其中候选语言模型首先对于数量为N的聚类分成N个箱(bin)。利用其内部的语言模型的非加权线性插值来计算语言模型。每个语言模型随后移动到最相似的箱，也是利用一些距离或相似度度量。

作为补充的方法，在一些实施例中，除了词汇信息之外，基于图相似度的聚类方法能够用于对个性化知识图聚类从而确定具有相似的兴趣或意图的用户群组。可依赖于用户的动作模式的这些实施例导致语义上聚类的用户。在一个实施例中，可以使用用于聚类数据库条目的方法，诸如潜在语义索引(LSI)。在一些情况下，知识源是知识图，图能够被展平为语义三元组的关系表(关系/实体对，诸如“Cameron-director-Avatar”)。在这些实施例中，不是对图条目聚类，通过简单表格变换基于它们对三元组的使用来对用户聚类。一旦聚类被确定，则聚类可用于提供更平滑的语言模型，因为模型可利用更大数量的相似数据来训练。

继续图4，在步骤410中，从目标用户的使用历史中确定包括至少一个实体或至少一个用户动作的第一组数据。至少一个实体可以包括一个或多个实体、实体-实体对或者对应于知识源的实体关系。在一些实施例中，来自目标用户的一个或多个个人信息源的使用历史被分析以确定第一组数据，并且在一些实施例中，从使用历史中解析第一组数据，如在图3的步骤320中所描述的。

在步骤420中，将第一组数据映射到目标用户的个性化知识源。在实施例中，知识源包括在映射第一组数据时被个性化的一般(非个性化)知识源。可替代地，在另一实施例中，第一组数据被映射到已经针对目标用户个性化的知识源上，诸如依照图3的方法300所创建的个性化知识源。在实施例中，可以映射包含了至少一个实体或用户动作的第一组数据，如图3的步骤330中所描述的。

在步骤430中，确定与目标用户相似的一组用户。在一个实施例中，通过诸如上述的聚类来确定一个或多个相似用户。在一个实施例中，步骤430包括：对目标用户的个性化知识源中的实体和实体间关系加权。该加权可以基于具体的实体和关系已经从用户历史数据映射的次数。可以对于其它用户的个性化知识源应用相似的加权。如果在目标用户的个性化知识源的具体部分中的实体和实体间关系具有与其它用户的个性化知识源的同一部分中的相同的实体和实体间关系相似的权重(例如，符合加权值最小阈值)，则可以确定目标用户和其它用户对知识图的该部分中的主题具有相似的兴趣。

在另一实施例中，使用知识源中的实体的流行度，而不是实体已经被映射多少次的计数。例如，如果具体的实体对于目标用户的社交网络朋友的群组具有特别高的流行度(例如，其被频繁地查询，提及，在社交网站上发帖)，则目标用户也对该流行的实体感兴趣的可能性增加。因此，目标用户的个性化知识源可关于该实体扩展(如步骤440中所描述)，并且可以包括特定用户对个性化知识源的针对该实体的部分感兴趣(或者可能感兴趣)的指示。

在另一实施例中，目标用户和其它用户的兴趣水平是利用目标用户的个性化知识源和其它用户的个性化知识源来确定的。例如，可以在相应的知识源的第一部分中比较兴趣水平以判定在用户之间是否存在相似或重叠的兴趣。在一个实例中，能够判定所确定的兴趣水平是否满足最小阈值以及其它用户的群组是否对知识源的第一部分具有与目标用户的兴趣水平可比较的兴趣水平。虽然在一个实施例中存在一个用于确定用户的兴趣水平的阈值，但是在不同的实施例中，使用多于一个的阈值而使得例如可能存在低兴趣水平阈值、中等兴趣水平阈值、高兴趣水平阈值等。在一个实施例中，包括与目标用户共享相似兴趣的一组用户的用户彼此具有共同的兴趣。在本发明的范围内构思本文没有具体公开的用于确定用户相似度的其它方法。

在步骤440中，将对应于类似于目标用户的一组用户的第二组数据映射到目标用户的个性化知识源，从而扩展目标用户的个性化知识源。该第二组数据包括至少一个实体(包含实体-实体对或实体关系)或者用户动作。在一些实施例中，从相似用户的个性化知识源确定和提取第二组数据。在一个实施例中，第二组数据包括更频繁地出现在该组相似用户的个性化知识源中的实体信息和/或相关元数据，其可以通过阈值来确定。在步骤450中，已经扩展的目标用户的个性化知识源用来个性化(或训练)目标用户的语言模型。步骤450的实施例与结合方法300(图3)的步骤340所描述的实施例相似。

转到图5，提供了示出用于扩展针对目标用户个性化的知识图的示范性的方法500的流程图。扩展后的个性化的知识图可用于将目标用户的语言模型个性化。个性化的语言模型可用于目标用户的话音识别，诸如通过预测目标用户所提交的未来看不见的查询。

在步骤510中，聚集来自与第一用户相关联的一个或多个个人源的使用历史。使用历史包括来自一个或多个个人源(例如结合图1所描述的个人源109)的与第一用户相关的数据。例如，第一用户经由用户设备执行的来自查询记录的过去的用户查询、网站交互、用户动作等。

在步骤520中，从第一用户的聚集的使用历史中提取实体和用户动作信息。实体和用户动作信息可以包括一个或多个实体、实体-实体对、实体关系或者用户动作有关的信息。在一个实施例中，从如方法300(图3)的步骤320中描述的聚集的使用历史来解析实体和用户动作信息。

在步骤530中，在步骤520中提取的实体和用户动作信息映射到与第一用户相关联的第一知识图上，从而将用户的第一知识图个性化。在一个实施例中，在步骤530中所执行的映射操作类似于在方法300(图3)的步骤330中所描述的映射操作，其中知识源是知识图。

在步骤540中，确定类似于第一用户的第二用户。在一个实施例中，步骤540包括：通过判定第二用户的个性化的知识图类似于第一用户的个性化的知识图，确定类似于第一用户的第二用户。在一个实施例中，第二用户来自通过如方法400(图4)的步骤430中所描述的聚类或其它方式所判定的一组相似用户。如之前所述，基于所确定的第一用户与第二用户之间的相似度，能够预测出第一用户和第二用户具有共享相似兴趣和意图的可能性。

在步骤550中，扩展第一用户的个性化的知识图以包含来自与步骤540中所确定的第二(相似)用户相关联的个性化的知识图的信息。在实施例中，步骤550包括将来自第二用户的个性化的知识图的实体或用户动作信息映射到第一用户的个性化的知识图上。步骤550的一些实施例类似于结合方法400(图4)的步骤440所描述的实施例，其中知识源是知识图。在一个实施例中，在扩展第一图之前，第二个性化知识图比第一个性化知识图更发达(包含更多信息)。在方法500的一些实施例中，扩展后的个性化知识图可用于将第一用户的语言模型个性化，诸如在方法400(图4)的步骤450中所描述的。

因此，我们已经说明了涉及到通过针对具体用户或用户群体特点来调整语言模型所使用的知识源来改进用于话音识别的语言模型的系统和方法的技术的各个方面。特别地，通过并入特定用户的个人使用历史信息，针对该特定用户个性化诸如知识图的知识源。因此，经由知识源来扩展使用历史从而捕获个人兴趣且预测待用于个性化语言建模的看不见的语音查询。

以类似的方式，SLU模型可适应个性化知识源而用于自然语言理解系统(NLU)。例如，在用于创建个性化SLU模型的一个实施例中，可以从个性化知识源中确定相关的实体模式。这些模式可用于改进实体槽类型的预测，例如通过针对个性化知识源偏置或调整槽填充模型。

应当理解的是，本文所描述的实施例的各个特征、子组合和变型例是实用的并且可用于不参考其它特征或子组合的其它实施例。而且，示例的方法300、400和500中所示的步骤的顺序和序列不意在以任何方式限制本发明的范围，实际上，步骤可以在其实施例内以多种不同的序列出现。这些变型例及其组合也构思于本发明的实施例的范围之内。

已经描述了本发明的各个实施例，现在描述适合于实现本发明的实施例的示范性的计算环境。参考图6，提供了示范性的计算设备，并且一般称为计算设备600。计算设备600仅是适合的计算环境的一个示例，而不意在暗示对本发明的使用范围或功能加以任何限制。计算设备600也不应解释为具有与图示的组件中的任一个或组合有关的任何依赖性或要求。

在计算机代码或机器可用指令的一般背景下描述了本发明的实施例，计算机代码或机器可用指令包括通过计算机或诸如个人数据助理、智能电话、平板式PC或其它手持式设备的其它机器所执行的计算机可用或计算机可执行指令，诸如程序模块。一般地，包含例程、程序、对象、组件、数据结构等在内的程序模块是指执行特定任务或实现特定的抽象数据类型的代码。本发明的实施例可以实现在多种系统配置中，包括手持式设备、消费电子设备、通用计算机、更专业化的计算设备等。本发明的实施例还可以实现于分布式计算环境中，其中通过通信网链接的远程处理设备执行任务。在分布式计算环境中，程序模块可以位于包含存储器存储设备的本地及远程计算机存储介质中。

参考图6，计算设备600包括直接或间接地耦合以下设备的总线610：存储器612、一个或多个处理器614、一个或多个呈现组件616、一个或多个输入/输出(I/O)端口618、一个或多个I/O组件620以及示例性的电源622。总线610表示了一个或多个总线可以是何种总线(例如地址总线、数据总线或其组合)。虽然为了清晰起见用线示出了图6的各个框，实际上，这些框表示逻辑的而不一定是真实的组件。例如，可以将诸如显示设备的呈现组件视为I/O组件。而且，处理器具有存储器。本发明的发明人认识到，这是本领域的本质并且重申图6的图仅是示例说明能够与本发明的一个或多个实施例结合使用的示范性的计算设备。不在诸如“工作站”、“服务器”、“膝上型设备”、“手持式设备”等类别之间做区分，因为都在图1的范围内构思并且参考了“计算设备”。

计算设备600典型地包括各种计算机可读介质。计算机可读介质可以是任何能够由计算设备600访问的可用介质并且包括易失性和非易失性的介质、可移除的和非可移除的介质。通过示例而不是限制的方式，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于诸如计算机可读指令、数据结构、程序模块或其它数据的信息的存储的任何方法或技术实现的易失性和非易失性的、可移除的和非可移除的介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储设备、磁盒、磁带、磁盘存储设备或其它磁存储设备或任何其它能够用来存储所需的信息且能够由计算设备600访问的介质。计算机存储介质不包括信号本身。通信介质通常具体实施计算机可读指令、数据结构、程序模块或调制数据信号中的其它数据，如载波或其它传输机制，并且包括任何信息输送介质。术语“调制数据信号”可以是指使其一个或多个特性以将信息编码在信号中的方式来设定或改变的信号。通过示例而不是限制的方式，通信介质包括诸如有线网或直接接线连接的有线介质以及诸如声波、RF、红外和其它无线介质的无线介质。上述任意的组合也应当包含在计算机可读介质的范围内。

存储器612包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、非可移除的或者其组合。示范性的硬件设备包括固态存储器、硬盘、光盘驱动器等。计算设备600包括一个或多个处理器614，其从诸如存储器612或I/O组件620的各种实体读取数据。呈现组件616向用户或其它设备呈现数据指示。示范性的呈现组件包括显示设备、扬声器、打印组件、振动组件等。

I/O端口618允许计算设备600与包括I/O组件620的其它设备逻辑耦合，其中一些可内置于计算设备600内。示例性的组件包括麦克风、操纵杆、游戏板、卫星盘、扫描仪、打印机、通信组件(例如，网络通信组件、无线电或无线通信组件或类似组件)等。I/O组件620可以提供处理由用户生成的悬浮手势、语音或其它生理输入的自然用户接口(NUI)。在一些实例中，输入可以发送给适当的网络元件以进行进一步处理。NUI可以实现话音识别、触摸与触针识别、面部识别、生物计量识别、在屏幕上的以及邻近屏幕的姿势识别、悬浮手势、头与眼跟踪以及与计算设备600上的显示相关联的触摸识别的任意组合。计算设备600可配备有深度照相机，诸如立体照相机系统、红外照相机系统、RGB照相机系统以及这些的组合，用于姿势检测和识别。另外地，计算设备600可以配备有实现运动检测的加速度计或陀螺仪。加速度计或陀螺仪的输出可提供给计算设备600的显示器以渲染沉浸式增强现实或虚拟现实。

所描绘的各个组件以及没有示出的组件的多种不同的布置是可能的，而不背离下文的权利要求的范围。为了示例而不是限制的意图描述了本发明的实施例。在阅读本公开后以及由于阅读了本公开，可替代的实施例对于本公开的读者而言是显然的。实现上文的可替代的方式能够完成，而不背离下文的权利要求的范围。一些特征和子组合是实用的并且可在不参考其它特征和子组合的情况下采用并且是在权利要求的范围内构思的。

因此，在一个方面，本发明的实施例涉及其中具体实施有计算机可执行指令的一个或多个计算机可读介质，当由具有处理器和存储器的计算系统执行时，所述计算机可执行指令使得计算系统执行用于基于用户历史信息个性化特定的目标用户的语言模型的方法。该方法包括：接收来自一个或多个源的目标用户的使用历史信息，解析使用历史信息以确定实体或用户动作中的一个或多个，以及将实体或用户动作中的一个或多个映射到知识源，诸如知识图，从而创建个性化知识源。在一个实施例中，该方法还包括使用个性化知识源来个性化目标用户的语言模型。

在另一方面，提供了其中具体实施了计算机可执行指令的一个或多个计算机可读介质，当由具有处理器和存储器的计算系统执行时，所述计算机可执行指令使得计算系统执行用于将特定目标用户的语言模型个性化的方法。该方法包括从与目标用户相关联的使用历史中确定第一组数据，该第一组数据包括至少一个实体或用户动作，以及将第一组数据映射到目标用户的个性化知识源。该方法还包括：确定类似于目标用户的一组用户，以及将第二组数据映射到该目标用户的个性化知识源，第二组数据包括对应于与目标用户相似的一组用户的至少一个实体或用户动作，从而创建扩展的个性化知识源。在一个实施例中，该方法还包括使用扩展的个性化知识源来个性化该特定用户的语言模型。

在又一方面中，本发明的实施例涉及其中具体实施有计算机可执行指令的一个或多个计算机可读介质，当由具有处理器和存储器的计算系统执行时，所述计算机可执行指令使所述计算系统执行用于扩展针对目标用户个性化的知识图的方法。该方法包括：聚集来自一个或多个源的第一用户的使用历史，从使用历史中提取实体和用户动作信息，以及将提取的实体和用户动作信息映射到第一用户的第一知识图上，从而创建第一个性化知识图。该方法还包括：确定与第一用户相似的第二用户，以及利用来自第二用户的第二个性化知识图的信息来扩展第一个性化知识图。在实施例中，该方法还包括：使用扩展的第一个性化知识图来个性化第一用户的语言模型。

Claims

1.一种具有具体实施在其上的计算机可执行指令的计算机存储介质，当由具有处理器和存储器的计算系统执行时，所述计算机可执行指令使所述计算系统基于用户历史信息对特定目标用户的语言模型进行个性化，所述计算机可执行指令使所述计算系统进行以下操作：

接收来自一个或多个源的目标用户的使用历史信息；

解析所述使用历史信息以识别实体和与所述实体相关联的用户动作；

访问没有针对用户个性化的一般知识源，其中，所述一般知识源包括对领域中的实体之间的关系的指示符；

将所识别的实体和所识别的用户动作映射到所述一般知识源，从而生成个性化知识源，所述个性化知识源包括对所识别的实体和所识别的用户动作之间的关系的指示符和领域中的实体，所述指示符包括与所述关系相关联的概率，并且所述映射包括增加一个或多个实体的计数或计算一个或多个实体的权重中的至少一项；

利用所述个性化知识源中的所述实体、关系和概率来构建针对所述目标用户的个人语言模型；以及

利用所述个人语言模型来进行针对所述目标用户的计算机执行的话音识别或口语语言理解。

2.如权利要求1所述的一种计算机存储介质，其中知识源包括知识图，并且所述个性化知识源包括个性化知识图。

3.如权利要求1所述的一种计算机存储介质，其中使用历史包括与所述目标用户相关的并且作为所述目标用户关于用户设备采取的动作的结果的数据。

4.如权利要求1所述的一种计算机存储介质，其中所述一个或多个源包括与所述目标用户相关联的一个或多个查询记录、由所述目标用户访问的网站、所述目标用户的在线购买历史、由所述目标用户执行的社交网络交互、或者由所述目标用户在用户设备上采取的动作；并且其中所述用户动作包括由所述目标用户对到网页的链接的选择或者由所述目标用户对网页上的物品的购买。

5.如权利要求1所述的一种计算机存储介质，其中所述使用历史信息的解析还包括：从所述使用历史提取所述实体或所述用户动作中的一个或多个。

6.如权利要求1所述的一种计算机存储介质，其中所述个性化知识图用于从所述用户的过去的行为推理出用户意图。

7.如权利要求1所述的一种计算机存储介质，其中使用所述个性化知识源来对所述用户的语言模型进行个性化包括根据对应于所述使用历史中识别出的实体信息的查询来训练通用语言模型。

8.一种用于对特定目标用户的语言模型进行个性化的方法，所述方法包括：

从与所述目标用户相关联的使用历史中确定第一组数据，所述第一组数据包括至少一个实体或用户动作；

分析所述使用历史信息以得到统计数据；

将所述第一组数据映射到所述目标用户的个性化知识源，其中，所述映射包括基于所述统计数据向所述个性化知识源中的实体和关系分配概率，从而提供概率个性化知识源；

确定与所述目标用户相似的一组用户；

将第二组数据映射到所述目标用户的所述个性化知识源，所述第二组数据包括对应于与所述目标用户相似的所述一组用户的至少一个实体或用户动作，从而创建扩展的个性化知识源，所述扩展的个性化知识源包括第二实体和指示所述至少一个实体或用户动作和所述第二实体之间的关系三元组，所述映射包括增加一个或多个实体的计数或计算一个或多个实体的权重中的至少一项；以及

利用所述扩展的个性化知识源来构建针对所述目标用户的个人语言模型以进行话音识别。

9.如权利要求8所述的方法，还包括使用所述扩展的个性化知识源来对所述目标用户的语言模型进行个性化。

10.如权利要求8所述的方法，其中确定与所述目标用户相似的所述一组用户包括执行聚类算法。