CN111316280A

CN111316280A - 用于自然语言处理的基于网络的学习模型

Info

Publication number: CN111316280A
Application number: CN201880054571.XA
Authority: CN
Inventors: S.扬
Original assignee: Sony Interactive Entertainment LLC
Current assignee: Sony Interactive Entertainment LLC
Priority date: 2017-08-21
Filing date: 2018-07-12
Publication date: 2020-06-19
Anticipated expiration: 2038-07-12
Also published as: US20190057686A1; US20210201898A1; CN111316280B; EP3673388A4; WO2019040197A1; KR20200040766A; JP2020531895A; US11600266B2; US10885901B2; KR102451925B1; JP6987969B2; EP3673388A1

Abstract

提供了用于自然语言处理的基于网络的学习模型的系统和方法。信息可以是被存储在存储器中的关于用户与网络内容的交互的信息。此外，可以捕获对用户发出的声音言语的数字记录。该声音言语可以基于所存储的用户交互信息被解释。用户的意图可以基于所述解释被识别，并且可以基于所识别的意图来进行预测。该预测可以进一步对应于所选工作流。

Description

用于自然语言处理的基于网络的学习模型

背景技术

1.发明领域

本发明技术涉及自然语言处理，更具体地涉及基于网络(例如，游戏网络)交互的用于自然语言处理的学习模型。

2.相关技术说明

当前的内容平台可以提供对与此类内容相关的各种内容和选项的访问。因此，这样的平台可能难以配置、设置和导航。尽管可以使用声音命令，但是这种声音命令可能同样需要与传统工作流相对应的复杂的或繁杂的工作流。例如，游戏的玩家可以使用用户设备120来访问可以托管在网络服务器130上的游戏。该游戏可以与网络中的其他玩家一起玩。例如，玩家A可能希望与她的朋友(即玩家B和玩家C)一起玩游戏。为了使用传统工作流执行此过，玩家可能需要选则游戏(例如，可能包括滚动查看玩家列表)，指定将邀请发送给玩家B(例如，可能包括滚动查看玩家列表)，以及指定将邀请发送给玩家C。口头请求执行每个步骤可能效率不一定高。因此，声音命令的使用即使不比传统工作流慢，也和它差不多。

因此，在本领域中需要用于自然语言处理的基于网络的学习模型的系统和方法。

发明内容

本发明的实施例包括用于自然语言处理的基于网络的学习模型的系统和方法。信息可以是被存储在存储器中的关于用户与网络内容的交互的信息。此外，可以捕获对用户发出的声音言语的数字记录。该声音言语可以基于所存储的用户交互信息被解释。用户的意图可以基于所述解释被识别，并且可以基于所识别的意图来进行预测。该预测可以进一步对应于所选工作流。

各种实施例可以包括用于自然语言处理的基于网络的学习模型的系统。这样的系统可以包括具有传声器的终端用户设备，该传声器捕获由用户和网络服务器发出的声音言语。这样的网络服务器可以包括：网络接口，其通过通信网络接收声音言语的数字记录；存储器，其存储关于用户与网络内容的交互的信息；以及处理器，其执行指令以基于所存储的用户交互信息来解释声音言语，以基于对声音言语的解释来识别用户的意图，并基于所识别的意图进行预测，其中，预测对应于所选工作流。

可选的实施例可以包括用于自然语言处理的基于网络的学习模型的方法。这样的方法可以包括：在存储器中存储关于用户与网络内容的交互的信息；捕获对用户发出的声音言语的数字记录；基于所存储的用户交互信息来解释声音言语；基于对声音言语的解释来识别用户的意图，并基于所识别的意图进行预测，其中该预测对应于所选工作流。

其他的实施例包括其上体现有程序的非暂时性计算机可读存储介质，所述程序可由处理器执行以执行用于自然语言处理的基于网络的学习模型的方法，如上所述。

附图说明

图1示出了其中可以实现用于自然语言处理的基于网络的学习模型的系统的网络环境。

图2示出了可以在用于自然语言处理的基于网络的学习模型中使用的示例性服务器。

图3是示出用于自然语言处理的基于网络的学习模型的示例性方法的流程图。

图4是可以在其中使用的示例性电子娱乐系统。

具体实施方式

本发明的实施例包括用于自然语言处理的基于网络的学习模型的系统和方法。信息可以是被存储在存储器中的关于用户与网络内容的交互的信息。此外，可以捕获对用户发出的声音言语的数字记录。构成声音言语的单词和词类可以基于自然语言处理模型被识别。这些单词可以基于诸如所存储的用户交互信息的情景信息被进一步解释。用户的意图可以基于所述解释被识别，并且可以基于所识别的意图来进行预测。该预测可以进一步对应于所选工作流。

在内容网络中，某些内容交互可能还具有社交元素。例如，游戏可以与一个或多个社交联系人一起玩。在此类游戏过程中，与其他玩家的交互可能涉及“垃圾谈话”和与内容直接或间接相关的其他对话。

图1示出了其中可以实现用于基于社交的内容管理的系统的网络环境100。网络环境100可以包括通信网络110，一个或多个客户端设备120A-120C可以通过该通信网络110与网络服务器130和第三方系统140通信。

通信网络110优选地是本地专有网络(例如，内联网)和/或可替代地是较大的广域网(例如，云)的一部分。通信网络110可以是局域网(LAN)，其通信地耦合到诸如互联网等广域网(WAN)。互联网是互连的计算机和服务器的宽带网络，允许在通过网络服务提供商连接的用户之间传输和交换互联网协议(IP)数据。网络服务提供商的示例是公共交换电话网络、有线电视服务提供商、数字用户线(DSL)服务的提供商或卫星服务提供商。通信网络110允许网络环境100的各个部件之间的通信。

用户可以使用任意数量的不同电子计算设备120A-120C，可以包括但不限于通用计算机、移动电话、智能手机、个人数字助理(PDA)、便携式计算设备(例如，膝上计算机、上网本、平板计算机)、台式计算设备、手持式计算设备、平板设备、游戏控制台、智能电视或任何其他类型的能够通过通信网络110进行通信的计算设备。这样的设备120A-120C优选地被配置为从其他存储介质访问数据，诸如但不限于在下载服务的情况下可能合适的存储器卡或磁盘驱动器。这样的设备120A-120C优选地包括标准硬件计算部件，诸如但不限于网络和媒体接口、非暂时性计算机可读存储装置(存储器)以及用于执行可以存储在存储器中的指令的处理器。关于图4进一步示出和描述了示例性计算设备120。在一些实施例中，计算设备120可以与可以捕获用户输入的外围设备(例如，话音开关耳机上的传声器)和软件(例如，消息收发应用程序)相关联。

网络服务器130可以包括本领域已知的任何类型的服务器或其他计算设备，包括标准硬件计算部件(诸如网络和媒体接口)、非暂时性计算机可读存储装置(存储器)以及用于执行可以存储在存储器中的指令或访问可以存储在存储器中的信息的处理器。多个服务器的功能性可以集成到单个服务器中。任何上述服务器(或集成服务器)都可以具有某些客户端、缓存或代理服务器特性。这些特性可能取决于服务器的特定网络位置或服务器的某些配置。

网络服务器130可以托管网络环境100中的用户设备120可用的各种数字媒体内容。每个用户(例如，用户设备120的用户)可以与允许用户访问其内容库的帐户相关联。这样的内容可以是允许用户以及其他用户进行交互的交互内容。例如，一个游戏可以由多个玩家同时玩，并且涉及玩家之间的交互。

第三方系统140可以向网络服务器130提供各种资源中的任何一种，以辅助自然语言处理、解释和对用户意图的识别。这样的资源可以提供关于与话语相关的特定情景的信息(例如，在处理对游戏的请求中)。

因为网络服务器130托管该内容，所以网络服务器130可以监视和跟踪涉及这种内容的各种用户交互。这样的交互可能涉及网络内容以及与社交联系人的交互。这样的交互可以包括行为、通信来往、采取的动作、发生的事件，达到的里程碑(例如，点数、级别、奖励、成就等)，以及对内容和/或社交联系人的其他可识别的反应。另外，内容服务器130可以跟踪用户与之交互的内容标题(例如，特定游戏)的细节，包括种类、开发者、游戏要求(例如，团队成员的数量、团队成员的角色)等。

可以基于网络内的用户活动(例如，内容和社交互动)来开发用于定制的工作流的学习模型，以允许对工作流进行预测性选择。这样，网络服务器130可以跟踪关于网络内的用户交互的信息。这样的交互可能涉及网络内容以及与社交联系人的交互。跟踪的交互信息可以揭示行为模式和趋势，这些行为模式和趋势可能特定于某些内容标题、某些内容标题类型、某些社交圈以及发生交互的其他情景。学习模型可以随时间发展，并且可以部分地依赖于第三方服务140提供的资源和信息。

另外，网络服务器130可以进一步存储关于用户与之交互的社交联系人的信息。这样的社交联系人也是网络环境100内的用户，本身可以由用户指定。在一些实施例中，用户可以通过熟悉程度、共享活动的类型、共同的内容类型、共同的兴趣、定义的团队或小集团(可能或可能不特定于标题)或任何其他类别来表征社交联系人。社交联系人还可以与可用于表征所述联系人的各种其他参数相关联，包括人口统计数据、社区成员身份、其库中的相应内容标题、播放内容标题的频率等。

与用户设备120相关联的传声器可以在这种用户交互的过程中捕获声音言语。网络服务器130可以分析在当前用户交互以及可以共享一些共性的过去用户交互的情景中的声音言语的数字记录。这样的分析可以包括解码数字记录、转录声音言语、评估声音言语的词以识别关键词或其他意图指示、识别一种或多种可能的解释，以及基于用户交互信息的情景来缩小可能的解释。每个解释可以进一步与进行特定工作流的不同意图相关联。然后，网络服务器130可以基于对声音言语的解释来做出关于用户希望选择哪个工作流的预测。

图2示出了可以在用于自然语言处理的基于网络的学习模型中使用的示例性服务器200。尽管服务器200可以包括如上文关于网络服务器130所述的各种标准硬件，但是用于自然语言处理的基于网络的学习模型可以进一步涉及更专门的部件，诸如自动语音识别210、话音转文本220、自然语言处理程序协调230、代理调度程序240(包括条件-动作规则250A和动作工作流250B)、学习模型260和预测引擎270。

自动语音识别210允许解码数字音频记录，诸如对用户言语的数字记录。尽管可以将这种言语捕获为mp3文件，但可以使用任何数字音频格式(例如，流音频)。话音转文本220可以包括本领域中已知的用于分析数字记录、识别说出的任何单词并基于所识别的单词生成文本的任何转录应用。

自然语言处理程序协调230可以包括可以利用人工智能、过滤器、分类器、机器学习技术等来评估自然语言表达的任何处理器。这样的自然语言处理程序协调230(其可以通过存储在学习模型260中的信息被通知)允许网络服务器200缩小对由用户发出的声音言语的可能解释，并识别用户发出所述声音言语时的更具体意图。在一些实施例中，自然语言处理程序230可以在识别用户所指的特定意图中对各种因素进行加权，所述因素包括发生交互的最近时间、频率、与谁交互(例如，社交联系人)、内容或社交内容的特性，以及可识别的模式和趋势。自然语言处理程序协调230可以进一步利用各种第三方服务140来协助解释用户说出的单词并识别在不同的情景中的意图。

代理调度程序240可以管理这样的第三方服务140，从而具体地确定在特定任务或请求中调用哪个第三方服务140以获得帮助。代理调度程序240可以进一步管理与某些条件-动作规则250A和相对于内容交互要执行的响应动作250B相关联的工作流250。例如，在游戏的情景中，这样的工作流250可以涉及各种与游戏有关的活动(例如，组建团队进行游戏)。每个工作流250可以包括一个或多个条件-动作规则250A，所述条件-动作规则用于识别参与该活动所涉及的动作250B(例如，任务和步骤)。然而，每个任务和步骤都可能需要来自用户的某些信息(例如，输入)。例如，组建团队可能需要用户选择一个或多个团队成员。每个工作流可以包括用于以针对特定用户的定制方式调用一个或多个功能和服务的可插入代码。

如图所示，可以接收各种输入(例如，从检测环境中的状况的传感器和接口接收，所述输入包括用户动作)，并根据条件-动作规则250A进行评估。这种评估可以导致发现将要执行特定的相应动作(例如，来自动作250B)然后可以将与所选动作有关的信息提供给指定的执行器或其他执行者来执行或运行。

当收集关于用户的数据时，可以随时间而存储和细化用于解释用户的言语和识别响应工作流的学习模型260。这样，相对于识别用户可能正在参考的某些实体以及用户可能使用的词类，可以改善对用户言语的解释。用于细化学习模型260的信息可以包括有关网络服务器130跟踪的网络中可能发生的任何各种用户交互的信息。这样的用户交互的发生可能与在网络服务器130处访问的内容有关，以及与和社交联系人(其也在网络服务器130处访问内容)有关的交互(例如，通过消息收发应用发送的消息等)有关。当在网络内发生额外的用户交互时，学习模型260可以被持续地更新和细化。这样，自然语言处理程序协调230在识别用户意图中可以参考的信息基础可以继续增长，从而允许学习和改善对用户意图的识别。因此，学习模型260可以涉及对条件-动作规则250A进行细化，以及以特定于特定用户及其相应的习惯、网络和其他用户特有特性的方式随时间选择响应性操作250B。

预测引擎270可以识别出由自然语言处理程序协调230识别的意图对应于预定的工作流260。所识别的意图还可以提供在预定的工作流上执行所需的信息。

图3是示出用于自然语言处理的基于网络的学习模型的示例性方法的流程图。图3的方法300可被体现为包括但不限于CD、DVD或诸如硬盘驱动器的非易失性存储器的非暂时性计算机可读存储介质中的可执行指令。存储介质的指令可以由一个或多个处理器执行，以使托管或以其他方式访问该存储介质的计算设备的各种硬件部件实现该方法。图3中标识的步骤(及其顺序)是示例性的，并且可以包括其各种替代形式、等效形式或派生形式，包括但不限于这些形式的执行顺序。

在方法300中，可以跟踪关于用户交互的信息，可以捕获、转录、解析、然后在跟踪的交互的情景中解释用户的声音言语，可以基于该解释来识别意图，并且可以基于所识别的意图预测工作流选择。

在步骤310，可以跟踪关于网络中的用户交互的信息。可以针对特定的内容标题或特定的联系人发生这种交互。也可以跟踪关于特定的内容标题和联系人的信息(例如，用户简档)，这些信息包括每个联系人关于某些内容的交互。这样的信息可以存储在诸如学习模型260之类的数据库中，以及存储在网络服务器200可访问的多个不同数据库中。

在步骤320中，可以捕获用户的声音言语。这样的捕获可以经由在用户设备120处的传声器发生。这样的声音言语可以进一步被保存为数字记录(例如，mp3音频文件)，该数字记录可以通过通信网络110传输到网络服务器130。

在步骤330中，可以转录和解析声音言语。网络服务器130可以(例如，经由解码器210)对数字记录进行解码，以及将解码的数字记录转录并解析为文本(例如，经由语音转文本220)。

在步骤340中，可以在从步骤310跟踪的交互信息的情景中分析和解释解析后的文本。自然语言处理程序230可以从由代理调度程序240管理的第三方服务140以及学习模型260中识别声音言语和参考资源的一种或多种可能的解释，以缩小可能性。

在步骤350中，可以基于解释来识别意图。这样的识别可以由自然语言处理程序协调230基于对各种因素的加权来做出，这可以包括对学习模型260的参考以及对可以维护关于网络中的用户和内容的信息的任何其他数据库的参考。这样的加权可以基于内容或社交内容的特性，并且可以随着跟踪额外信息而随时间调整。

在步骤360中，可以做出关于工作流选择的预测。预测引擎270可以识别出在步骤350中由自然语言处理程序协调230所识别的意图对应于存储在工作流260中的一工作流。

图4是可以在将用户产生的媒体实时地并入广播媒体流中使用的示例性电子娱乐系统。图4的娱乐系统400包括主存储器405、中央处理单元(CPU)410、向量单元415、图形处理单元420、输入/输出(I/O)处理器425、I/O处理器存储器430、控制器接口435、存储器卡440、通用串行总线(USB)接口445和IEEE 1394接口450。娱乐系统400还包括操作系统只读存储器(OS ROM)455、声音处理单元460、光盘控制单元470和硬盘驱动器465，它们经由总线475连接到I/O处理器425。

娱乐系统400可以是电子游戏控制台。可替代地，娱乐系统400可以被实现为通用计算机、机顶盒、手持游戏设备、平板计算设备或移动计算设备或电话。娱乐系统可能包含或多或少的操作部件，具体取决于特定的外形尺寸、目的或设计。

图4的CPU 410、向量单元415、图形处理单元420和I/O处理器425经由系统总线485进行通信。此外，图4的CPU 410经由专用总线480与主存储器405通信，而矢量单元415和图形处理单元420可以通过专用总线490进行通信。图4的CPU 410执行存储在OS ROM 455和主存储器405中的程序。图4的主存储器405包括预存储的程序以及使用光盘控制单元470从CD-ROM、DVD-ROM或其他光盘(未示出)通过I/O处理器425传送的程序。图4的I/O处理器425还可以允许引入通过无线或其他通信网络(例如4$、LTE、1G等)传送的内容。图4的I/O处理器425主要控制娱乐系统400的各种设备(包括CPU 410、矢量单元415、图形处理单元420和控制器接口435)之间的数据交换。

图4的图形处理单元420执行从CPU 410和向量单元415接收的图形指令以产生图像以显示在显示装置(未示出)上。例如，图4的向量单元415可以将对象从三维坐标转换为二维坐标，并将二维坐标发送至图形处理单元420。此外，声音处理单元460执行指令以产生声音信号，该声音信号被输出到诸如扬声器(未示出)的音频设备。其他设备可以经由USB接口445和IEEE 1394接口450(例如，无线收发器)连接到娱乐系统400，这些设备也可以嵌入系统400中或作为某些其他部件(诸如处理器)的一部分。

图4的娱乐系统400的用户经由控制器接口435向CPU 410提供指令。例如，用户可以指示CPU 410将某些游戏信息存储在存储器卡440或其他非暂时性计算机可读存储介质上，或者指示游戏中的角色执行某些指定动作。

本发明可以在可由各种终端用户设备操作的应用中实现。例如，终端用户设备可以是个人计算机、家庭娱乐系统(例如Sony

或Sony

或Sony

)，便携式游戏设备(例如Sony

或Sony

)或不同的尽管是次优制造商的家庭娱乐系统。本文描述的本发明方法完全旨在能够在各种设备上操作。本发明还可以以跨标题中立的方式实现，其中可以跨来自各种出版商的各种标题来利用本发明系统的实施例。

非暂时性计算机可读存储介质是指参与向中央处理单元(CPU)提供指令来执行的任何一种或多种介质。此类介质可以采取多种形式，包括但不限于非易失性和易失性介质，诸如分别为光盘或磁盘和动态存储器。非暂时性计算机可读介质的常见形式包括例如软盘、软磁盘、硬盘、磁带，任何其他磁性介质、CD-ROM盘、数字视频盘(DVD)、任何其他光学介质、RAM、PROM、EPROM、FLASHEPROM以及任何其他存储器芯片或盒式磁带。

在将一个或多个指令的一个或多个序列载送给CPU来执行时，可能涉及各种形式的传输介质。总线将数据载送至系统RAM，CPU从所述系统RAM中检索并执行指令。由系统RAM接收的指令可以任选地在CPU执行之前或之后存储在固定磁盘上。同样可以实现各种形式的存储装置以及实现它们所必需的网络接口和网络拓扑。

为了说明和描述的目的，已经给出了该技术的前述详细描述。并非意图穷尽本技术或者将技术限制于所公开的精确形式。鉴于上述教导，许多修改和变化是可能的。选择所描述的实施例是为了最好地解释该技术的原理、其实际应用，并使本领域的其他技术人员能够在各种实施例中利用该技术，并以适合预期的特定用途的各种修改来利用该技术。旨在由权利要求来限定技术的范围。

Claims

1.一种用于自然语言处理的基于网络的学习模型的系统，所述系统包括：

终端用户设备，其包括捕获用户发出的声音言语的传声器；和

网络服务器，其包括：

网络接口，其接收所述声音言语的数字记录，

存储器，其存储关于用户与网络内容的交互的信息，和

处理器，其执行存储在存储器中的指令，其中所述指令由所述处理器执行以：

基于所存储的用户交互信息来解释所述声音言语，

基于所述声音言语的所述解释，识别所述用户的意图，以及

基于所识别的意图进行预测，其中所述预测对应于所选工作流。

2.根据权利要求1所述的系统，其中所述网络服务器识别所述声音言语是在与一个或多个社交联系人的当前交互期间发出的。

3.根据权利要求2所述的系统，其中所述处理器通过对与所述社交联系人的所述交互进行加权来识别所述意图。

4.根据权利要求3所述的系统，其中所述加权还基于所述社交联系人所属的类别。

5.根据权利要求4所述的系统，其中所述处理器还基于对所述声音言语的分析来识别所述社交联系人所属的所述类别。

6.根据权利要求5所述的系统，其中所述处理器还基于对所述社交联系人中的一者的至少一个用户简档的分析来识别所述社交联系人所属的所述类别。

7.根据权利要求4所述的系统，其中所述类别是基于人口统计、播放的内容标题、播放内容标题的频率、所述内容标题的级别以及社区成员身份中的至少一项。

8.根据权利要求2所述的系统，其中所述处理器通过对关于所述社交联系人中的一者与相应网络内容的交互的信息进行加权来识别所述意图。

9.根据权利要求1所述的系统，其中所述网络服务器识别所述声音言语是在与网络内容的当前交互期间发出的，并且还更新关于所述当前交互的所存储的用户交互信息。

10.根据权利要求1所述的系统，其中所述处理器还存储多个工作流，每个工作流与不同类型的意图相关联。

11.一种用于自然语言处理的基于网络的学习模型的方法，所述方法包括：

在存储器中存储关于用户与网络内容的交互的信息；

捕获用户发出的声音言语的数字记录；以及

执行存储在存储器中的指令，其中所述指令由处理器执行以：

基于所存储的用户交互信息来解释所述声音言语，

基于所述声音言语的所述解释，识别所述用户的意图，以及

12.根据权利要求11所述的方法，所述方法还包括识别所述声音言语是在与一个或多个社交联系人的当前交互期间发出的。

13.根据权利要求12所述的方法，其中识别所述意图包括对与所述社交联系人的所述交互进行加权。

14.根据权利要求13所述的方法，其中加权还基于所述社交联系人所属的类别。

15.根据权利要求14所述的方法，所述方法还包括基于对所述声音言语的分析来识别所述社交联系人所属的所述类别。

16.根据权利要求15所述的方法，所述方法还包括基于对所述社交联系人中的一者的至少一个用户简档的分析来识别所述社交联系人所属的所述类别。

17.根据权利要求14所述的方法，其中所述类别是基于人口统计、播放的内容标题、播放内容标题的频率、所述内容标题的级别以及社区成员身份中的至少一项。

18.根据权利要求12所述的方法，其中识别所述意图包括对关于所述社交联系人中的一者与相应网络内容的交互的信息进行加权。

19.根据权利要求11所述的方法，所述方法还包括识别所述声音言语是在与网络内容的当前交互期间发出的，并且更新关于所述当前交互的所存储的用户交互信息。

20.根据权利要求11所述的方法，所述方法还包括在存储器中存储多个工作流，每个工作流与不同类型的意图相关联。

21.一种非暂时性计算机可读介质，其上体现有程序，所述程序可由处理器执行以执行用于自然语言处理的基于网络的学习模型的方法，所述方法包括：

在存储器中存储关于用户与网络内容的交互的信息；

捕获用户发出的声音言语的数字记录；

基于所存储的用户交互信息来解释所述声音言语；

基于所述声音言语的所述解释，识别所述用户的意图；以及