CN111566728B

CN111566728B - 能够实现用户意图和机器服务之间的语义理解映射的对话系统

Info

Publication number: CN111566728B
Application number: CN201880081408.2A
Authority: CN
Inventors: 曹阳; 田继雷
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2023-11-10
Anticipated expiration: 2038-05-07
Also published as: CN111566728A; DE112018007578T5; WO2019214798A1; US20210249001A1

Abstract

一种能够实现用户意图和机器服务之间的语义理解映射的对话系统和智能个人助理。所述对话系统包括从用户接收语音或文本请求的接口。从用户的请求提取该请求的语义，所述语义包括实体、意图或上下文中至少之一。基于所提取的语义来选择动作特征序列。然后执行与所述动作特征序列相对应的应用编程接口(API)序列以产生结果。动作序列优化器可以基于用户配置来对所述动作特征序列进行优化。所述示例提供对用户意图和可用的API之间的更丰富的语义理解映射进行建模的技术方案，该技术方案作为个人助理的核心将大大地改进口语对话系统中的用户体验。

Description

能够实现用户意图和机器服务之间的语义理解映射的对话系统

技术领域

示例涉及一种对话系统，更具体地涉及一种能够实现用户意图和机器服务之间的语义理解映射的对话系统和智能个人助理(PDA)。

背景技术

智能个人助理(PDA)正变为广泛使用的应用和服务之一。意图与人类谈话的口语对话系统在IPA中起到关键作用。图1示出常规的对话系统100。目前的对话系统100使用自然语言理解(NLU)102来通过对话交互找到用户意图。对话策略模块106根据当前的对话状态选择适当的反应。口语对话系统100需要可以跟踪在对话中已经发生了什么的组件104，该组件合并系统输出、用户言语、来自前几轮的上下文以及其他外部信息。对话状态模块104的输出然后被对话策略模块106用于决定系统接着应采取什么动作。对话状态模块104本质上用于管理整个系统的状态和最终表现。如果所需信息不完整，则系统100将产生询问进一步的信息的句子。如果所有的信息都准备好，则系统100将使用预定义的动作模板来选择适当的动作108，诸如查询数据库、调用对应的服务应用编程接口(API)和/或执行控制动作。

目前的对话系统只能够用唯一一个动作来处理服务，例如，来自数据库的查询、一个API调用或者向用户询问更多的信息。在真实生活情况下，用户期待用可能需要几个API用于服务构成的更丰富的语义来与IPA像人类一样进行交流。

即使在目前的对话系统中存在很多可用的web服务API，对于典型的人类自然交流中的更丰富的语义，必须逐步地询问信息，并且这是非常不方便的。详尽地列出用于大型系统的所有的有效的服务API组合将是不切实际的，因为有效的API组合的数量可能是巨大的。在NLU中，语义是针对人类交流目的定义的，因此对于机器(例如API)交流和理解不是最佳的。

发明内容

本文中公开的示例提供了对用户意图和上下文与可用的机器服务(例如API)之间的更丰富的语义理解映射进行建模的新颖的技术方案。作为个人助理应用的核心，这些示例将大大地改进对话系统(诸如口语对话系统)中的用户体验。示例还提供了智能服务构成，例如构建可以选择多个API作为一个响应动作的对话系统。

对话系统可以经由接口从用户接收语音或文本请求。可以从所述请求提取所述请求的语义，所述语义包括实体、意图或上下文中至少之一。可以通过使用循环神经网络或任何其他的机器学习系统来基于所提取的语义来选择动作特征序列。可以将动作特征序列组织为资源图。然后可以执行与动作特征序列相对应的API序列。动作序列优化器可以基于用户配置来对动作特征序列进行优化。

对话系统可以进一步包括配置为用于基于用户配置对动作特征序列进行优化的动作序列优化器。所述请求可以是语音请求，而所述接口可以包括配置为用于将语音请求转换为文本串的语音识别器。另外或备选地，所述请求可以被作为文本请求接收。动作特征序列可以被组织为资源图。API映射器可以用循环神经网络来实现。可以通过将言语和响应转换为特征、将言语和对应的响应的特征组织为输入序列与目标序列对、并且执行监督式序列对序列训练以训练和优化循环神经网络的参数来训练循环神经网络。响应于所述请求可以调用多个API。可以从用户装置接收所述请求。

根据另一方面，提供了一种实现对话系统的方法。所述方法包括：从用户接收请求，提取所述请求的语义，所述语义包括所述请求的实体、意图或上下文中至少之一，基于所提取的语义来选择动作特征序列，并且执行与所述动作特征序列相对应的机器服务序列。所述方法可以包括基于用户配置来对动作特征序列进行优化。所述请求可以是语音请求，而所述语音请求可以被转换为文本串。所述请求可以被作为文本请求接收。所述动作特征序列可以被组织为资源图。所述动作特征序列可以由循环神经网络选择。可以通过将言语和响应转换为特征、将言语和对应的响应的特征组织为输入序列与目标序列对、并且执行监督式序列对序列训练以训练和优化循环神经网络的参数来训练循环神经网络。响应于所述请求可以调用多个API。可以从用户装置接收所述请求。

根据又一方面，提供了一种非暂时性机器可读储存器。所述机器可读储存器可以包括机器可读指令，所述机器可读指令在被执行时执行本文中公开的任何方法。

附图说明

下面仅以举例的方式、参照附图来描述设备和/或方法的一些示例，在附图中：

图1示出常规的对话系统；

图2示出从用户的语音输入解析语义的示例处理；

图3示出根据一个方面的API图和特征提取的示例；

图4是根据一个方面的示例对话系统的框图；以及

图5是用于实现根据本文中公开的示例的对话系统的示例系统的框图。

具体实施方式

现在将参照附图来更充分地描述各种示例，在附图中，例示说明了一些示例。在附图中，为了清晰起见，可以夸大线、层和/或区域的粗细。

因此，虽然进一步的示例能够有各种修改和备选形式，但是其一些特定示例在附图中示出，并且随后将被详细描述。然而，该详细描述不使进一步的示例限于所描述的特定形式。进一步的示例可以涵盖落在本公开的范围内的所有修改、等同和备选。相似的数字在附图的整个描述中始终指代相似的或类似的元素，这些元素可以在提供相同的或类似的功能性的同时被相同地或者当彼此相较时以修改的形式实现。

将理解，当元件被称为“连接”或“耦合”到另一个元件时，元件可以直接连接或耦合，或者经由一个或多个介于中间的元件连接或耦合。如果两个元件A和B通过使用“或”组合，则这要被理解为公开所有的可能的组合，即，只有A、只有B以及A和B。用于相同的组合的备选措辞是“A和B中的至少一个”。同样的情况适用于多于2个的元件的组合。

在本文中用于描述特定示例的目的的术语并不意图对于进一步的示例是限制。每当单数形式(诸如“一个”、“一种”和“该”)被使用、并且只使用单个元件既没有被明确地、也没有被隐含地定义为强制性的情况下，进一步的示例也可以使用复数元件来实现相同的功能性。同样地，当功能性随后被描述为使用多个元件实现时，进一步的示例可以通过使用单个元件或处理实体来实现相同的功能性。将进一步理解，术语“包括”和/或“包含”在被使用时指定陈述的特征、整数、步骤、操作、处理、动作、元件和/或组件的存在，但不排除一个或多个其他的特征、整数、步骤、操作、处理、动作、元件、组件和/或它们的任何组的存在。

除非另有定义，否则所有的术语(包括技术术语和科学术语)在本文中都是以示例所属的领域的它们的普通意义使用的。

本文中公开的示例提供了对用户意图和上下文与可用的机器服务(例如API)之间的更丰富的语义理解映射进行建模的新颖的技术方案。作为个人助理应用的核心，这些示例将大大地改进对话系统(诸如口语对话系统)中的用户体验。作为一般的框架，本文中公开的示例可以被应用于用于直接映射人类语义与机器服务的任何应用。

示例还提供了智能服务构成，例如构建可以选择多个机器服务(例如API)作为一个响应动作的对话系统。

图2示出从用户的语音输入解析语义的示例处理。用户发出语音请求(例如“找到KFC”)。言语识别模块(例如认知服务)将用户的语音输入转换为文本串。语义理解模块(例如微软语言理解智能服务(LUIS))可以将所述文本串解析为人类语义，诸如实体、意图等。然后可以调用API(例如HERE地图API等)来产生输出。在该示例中，可以输出KFC的地点的纬度、经度、距离或其他参数。

通常，语义模型正常是使用人类基于语义预定义的标签(例如实体和意图)训练的。为了基于人类语义处理服务API/机器服务，如果这是直接利用可用的服务API/机器服务标记的，则表现将是最佳的。如果所述系统是直接利用可用的服务训练的，则从人类语义到机器服务的映射可以最佳地执行。此外，几个API/机器服务构成通常可能是为实现由自然人类句子或短语表示的、用户的单个请求所需要的。一旦新的服务API/机器服务被创建或者现有的API/机器服务被修改或移除，所述模型就需要被适应性地训练。以下，术语“API”和“机器服务”将被互换地使用。

在本文中公开的示例中，对话系统可以直接在API序列选择上被学习和训练，而不是通过人类语义定义被标记。

在示例中，API和动作可以被组织为图，例如资源描述框架(RDF)图，并且多个API调用可以通过使用该图被编码为特征。每个API都可以用包括输入参数、输出参数、描述等的Web服务描述语言(WSDL)扩展标记语言(XML)格式来编写。WSDL是用于描述web服务提供的功能性的、基于XML的接口定义语言。确认响应或进一步的问题可以被作为特殊的API处理。一种类型的响应可以对应于一个API。

RDF图是用节点和边缘(即连接)构建的。在示例中，在构建RDF图时，API是节点，并且API之间的连接(即关系)被定义。例如，如果“API i”的输出中的一个与“API j”的输入中的一个匹配，则可以定义从“API i”到“API j”的连接。图节点可以被添加以表示来自用户、而不是来自任何API调用的结果的不同类型的直接输入(诸如名称实体、用户ID等)，这些输入可以被作为特殊的API处理。所述图中的每个节点被给予唯一索引。推理规则被创建。例如，为使API调用有效，所有的所需的输入参数都需要被呈现。

特征提取是将机器API调用序列转换为可以通过机器学习算法建模的特征所需的。在训练阶段期间，学习从人类语义的特征到API调用序列的特征的映射。执行特征提取，以便训练从人类语义到机器API的映射。对于单个API调用类型，输入参数的索引和API调用的索引被提取为特征。多个API调用被作为多个单个API调用的特征序列，即，第一个API调用的特征、第二个API调用的特征、……、最后一个API调用的特征。

在现实中，一个反应可能需要多个动作。例如，如果用户问所述系统“把我导航到商店，以使得我可以在回家的路上买牛奶”，则所述系统需要知道家庭地址，然后找到到家的(一个或多个)路线，然后在找到的(一个或多个)路线上搜索买牛奶的商店，然后将商店地址发送给导航系统。所有的以上信息都可以从各种API获得。例如，用户的家庭地址可以从基于用户ID输出地址的API(例如用户习得目的地API)查询，到家的路线可以从基于给定地址输出路线制定信息的API(例如个人路线API)查询，沿着该路线的商店可以从场所搜索API(例如HERE场所API)获得。HERE场所API是允许构建其中用户可以搜索场所并且接收的关于所选择的场所的详细信息的应用的API。车辆通信API可以发送商店地点(例如经由云而远程地发送)以在车辆中设置导航。术语“车辆”包括任何类型的用于运输的设备，包括、但不限于汽车、公交车、卡车、运动型多功能车辆、休闲车、船、摩托车等。

图3示出根据一个方面的API图和特征提取的示例。对于以上示例请求“把我导航到商店，以使得我可以在回家的路上买牛奶”，API调用序列可以如下：习得目的地API→个人路线API→场所API→车辆通信API。

用户身份API 302可以输出给定用户的用户ID。习得目的地API304可以输出给定用户ID的地址(例如家庭地址)。个人路线API 306可以输出关于从习得目的地API 304提供的地址的路线制定信息(在该示例中，关于家的路线制定信息)。类别API 308可以输出关于输入的类别信息(在该示例中，买牛奶的商店的类别，例如食品杂货店)。场所API 310可以沿着个人路线API 306提供的路线搜索属于类别API 304提供的类别的场所(在该示例中，沿着到家的路线找到的商店的地点信息)。车辆身份API 312可以输出车辆ID。车辆通信API314可以将场所API 310提供的地点信息发送给车辆身份API 312提供的车辆。

在该示例中，映射的特征序列可以是：2,100,2,101,3,102,1,103，即，(用户身份)→(至习得目的地API)→(用户身份，从习得目的地API)→(至个人路线API)→(类别，从个人路线API)→(至场所API)→(车辆身份，从场所API)→(至车辆通信API)。

图4是根据一个方面的示例对话系统400的框图。系统400包括与用户交流(例如通过语音、文本等)的接口402。言语识别器404将用户的言语转换为文本串。用户的请求可以通过文本(例如文本消息、电子邮件等)接收。语义提取器406从文本串提取用请求的语义(例如请求的意图、上下文、实体等)。言语识别器402和语义提取器404的输出是可以被嵌入到高维空间中的文本序列。例如，言语识别器402可以直接输出言语嵌入，该言语嵌入可以与文本嵌入组合为特征。嵌入特征序列是API映射器408的输入。嵌入是用于自然语言处理中的一组语言建模和特征学习技术的集合的名称，在所述自然语言处理中，来自词汇的单词或短语被映射到实数矢量，所述实数矢量使算法运算或计算简单。

API映射器408(例如循环神经网络(RNN)模块、增强学习模块或任何机器学习模块)可以被用于基于用户请求的人类语义对对话策略选择进行建模。API映射器408的输出是动作特征序列(例如图3中的特征序列：(用户身份)→→(输入到习得目的地API)→(用户身份，从习得目的地API)→(至个人路线API)→(类别，从个人路线API)→(至场所API)→(车辆身份，从场所API)→(至车辆通信API))。不同于前馈神经网络，RNN可以使用它们的内部状态(存储器)来对适合于学习目的(在这种情况下，朝向找到最佳的服务序列的语义映射)的、具有可变长度输入序列进行处理以解决用户的需要。

动作序列优化器410可以使用RDF图的推理能力来找到特征序列的缺失部分。例如，如果对于API调用所需的输入中的一些缺失，则动作序列优化器410可以找到缺失的输入，并且使所述序列完整。动作序列优化器410可以根据用户配置对API调用进行优化。例如，对于一个API，可能存在来自其他提供者的几个备选的API。动作序列优化器410可以用根据用户配置的最低价格或最高性能的备选者来替换它。API调用模块412然后执行API序列以产生对用户的响应414。

对话系统400可以在用户装置(例如移动电话、平板、可穿戴用户装置、个人计算机、膝上型电脑等)中实现，并且动作可以通过网络(例如云)被远程地发送给目标装置(例如车辆)。备选地，对话系统可以包括在目标系统中(例如车辆中)。

对话系统400的组件可以为优化而被训练。收集数据以用于训练。训练数据库应包括被用多个API调用类型标记的足够的采样。所述数据可以一开始从手动标记的数据收集、例如监督式或半监督式训练。

可以通过首先如上所述那样将所有的言语和响应转换为特征、然后将言语和对应的响应的特征组织为输入序列对目标序列对来训练API映射器408。监督式序列对序列训练然后可以被应用于训练和优化API映射器408(例如RNN模块)的参数。API映射器408(例如RNN模块)的训练可以通过使用任何常规技术来进行。

图5是用于实现根据本文中公开的对话系统的示例系统(或装置)的框图。装置500可以是移动装置。装置500包括处理器510、存储器/储存器520、无线通信模块530、定位模块540、显示器550、显示器驱动器560、传感器570、扬声器570、麦克风580等，无线通信模块包括基带模块和无线电前端模块(未示出)。在一些方面，处理器510可以包括例如一个或多个中央处理单元(CPU)核和一个或多个高速缓存存储器。无线通信模块530可以按照任何无线通信协议(诸如第三代(3G)、第四代(4G)、第五代(5G)、WiFi、蓝牙或任何无线通信标准)来支持装置500的无线通信。另外，所述装置还可以包括有线通信模块。存储器/储存器520可以存储代码或数据，诸如用户简档文件数据等。包括传感器570，所述传感器是为了感测用户的各种活动。例如，传感器570可以包括加速度计、陀螺仪等。定位模块540可以检测装置500的地点，诸如全球定位系统(GPS)地点。

存储器520(即机器可读存储介质)存储要由处理器510执行的代码。所述代码在被执行的情况下配置为用于：从用户接收请求，提取该请求的语义，所述语义包括该请求的实体、意图或上下文中至少之一，基于所提取的语义来选择动作特征序列，并且执行与该动作特征序列相对应的机器服务序列。所述代码在被执行的情况下可以配置为用于基于用户配置来对动作特征序列进行优化。所述代码在被执行的情况下可以配置为用于：将言语和响应转换为特征，将言语和对应的响应的特征组织为输入序列与目标序列对，并且执行监督式序列对序列训练以训练和优化循环神经网络的参数。

本文中公开的示例提供了对用户意图和可用的服务之间的更丰富的语义理解映射进行建模的新颖的技术方案，该技术方案作为个人助理应用的核心，将大大地改进口语对话系统中的用户体验。这些示例可以改进个人助理中的用户体验，以使得用户能够感觉到与人类、而不是机器进行交流，因为对话系统可以用人类语义来服务，而不是逐个由开发者针对机器定义的API地服务。表现可以被优化，因为映射是直接从人类语义与服务API习得的，而不是经由人类定义的语义单元学习的。本文中公开的示例可以被应用于用于直接映射人类意义与机器服务的其他应用。

另一个示例是一种具有程序代码的计算机程序，当所述计算机程序在计算机、处理器或可编程硬件组件上被执行时，所述程序代码用于执行本文中描述的方法中至少之一。另一个示例是一种包括机器可读指令的机器可读储存器，所述机器可读指令在被执行时执行如本文中描述的方法或实现如本文中描述的设备。进一步的示例是一种包括代码的机器可读介质，所述代码在被执行时使机器执行本文中描述的方法中的任何一个。

与前面详述的示例和附图中的一个或多个一起提及和描述的方面和特征也可以与其他示例中的一个或多个组合，以便替换其他示例的相似特征，或者以便另外还将特征引入到其他示例。

示例可以进一步是或者涉及一种具有程序代码的计算机程序，当所述计算机程序在计算机或处理器上被执行时，所述程序代码用于执行以上方法中的一个或多个。各种上述方法的步骤、操作或处理可以由程控的计算机或处理器执行。示例还可以涵盖程序存储装置，诸如数字数据存储介质，所述程序存储装置是机器、处理器或计算机可读的，并且对机器可执行的、处理器可执行的或计算机可执行的指令程序进行编码。所述指令执行或者使得执行上述方法的动作中的一些或全部。所述程序存储装置可以包括或者可以是例如数字存储器、磁性存储介质(诸如磁盘和磁带)、硬盘驱动器或可光学读取的数字数据存储介质。进一步的示例还可以涵盖被编程为执行上述方法的动作的计算机、处理器或控制单元、或被编程执行上述方法的动作的(现场)可编程逻辑阵列((F)PLA)或(现场)可编程门阵列((F)PGA)。

描述和附图仅例示说明了本公开的原理。此外，本文中记载的所有的示例的主要的明确的意图是仅用于教学的目的以帮助读者理解本公开的原理和发明人(一个或多个)推动技术所贡献的构思。本文中的记载本公开的原理、方面和示例、以及它们的特定示例的所有陈述都意图包含它们的等同物。

被表示为“用于(执行某个功能)……的手段”的功能块可以是指配置为用于执行某个功能的电路。因此，“用于某事的手段”可以被实现为“被配置用于某事或者适合于某事的手段”，，后注入被配置用于相应任务或者适合于相应任务的装置或电路。

附图中所示的各种元件的功能(包括被标记为“手段”的任何功能块、“用于提供传感器信号的手段”、“用于产生传送信号的手段”等)可以以专用硬件的形式实现，诸如“信号提供器”、“信号处理单元”、“处理器”、“控制器”等、以及能够执行与适当的软件相关联的软件的硬件。当由处理器提供时，所述功能可以由单个专用的处理器、单个共享的处理器、或者由多个单个的处理器(其中一些或其中全部可以被共享)提供。然而，术语“处理器”或“控制器”到目前为止不限于只能够执行软件的硬件，而是可以包括数字信号处理器(DSP)硬件、网络处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性储存器。其他的常规的和/或自定义的硬件也可以包括在内。

框图可以例如例示说明实现本公开的原理的高级电路图。类似地，流程图表、流程图、状态转变图、伪代码等可以表示可以例如基本上被表示在计算机可读介质中、所以被计算机或处理器执行的各种处理、操作或步骤，而不管这样的计算机或处理器是否被明确地示出。本说明书中公开的方法可以由具有用于执行这些方法的相应动作中的每个的手段的装置执行。

要理解，本说明书中公开的多个动作、处理、操作、或功能的公开内容可能不能被解释为在特定次序内，除非另有明确的或隐含的陈述，例如，由于技术原因。因此，多个动作或功能的公开内容将不会使这些限于特定次序，除非这样的动作或功能由于技术原因是不可互换的。此外，在一些示例中，单个动作、功能、处理、操作或步骤分别可以包括或者可以分解为多个子动作、子功能、子处理、子操作或子步骤。这样的子动作可以包括在内，并且这个单个动作的公开内容的部分可以包括在内，除非被明确地排除。

技术方案的组合在本文中被明确地提出，除非陈述特定组合不是预期的。

Claims

1.一种对话系统，包括：

接口，所述接口配置为用于从用户接收请求；

语义提取器，所述语义提取器配置为用于提取所述请求的语义，所述语义包括所述请求的实体、意图或上下文中至少之一；

API映射器，所述API映射器配置为用于基于所提取的语义来选择动作特征序列，其中，响应于单个请求选择多个API，所述多个API的调用通过使用资源描述框架图被编码为特征，在所述资源描述框架图中，各API是节点，并且在各API之间的连接至少通过所述API之一的输出与所述API中的另一个的输入之间的匹配来定义；以及

API调用模块，所述API调用模块配置为用于执行与所述动作特征序列相对应的API序列。

2.根据权利要求1所述的对话系统，进一步包括：

动作序列优化器，所述动作序列优化器配置为用于基于用户配置来对所述动作特征序列进行优化。

3.根据权利要求1所述的对话系统，其中，所述请求是语音请求，而所述接口包括配置为用于将语音请求转换为文本串的语音识别器。

4.根据权利要求1所述的对话系统，其中，所述请求被作为文本请求接收。

5.根据权利要求1所述的对话系统，其中，所述API映射器用循环神经网络来实现。

6.根据权利要求5所述的对话系统，其中，通过将言语和响应转换为特征、将所述言语和对应的响应的特征组织为输入序列与目标序列对、并且执行监督式序列对序列训练以训练和优化所述循环神经网络的参数来训练所述循环神经网络。

7.根据权利要求1所述的对话系统，其中，从用户装置接收所述请求。

8.一种实现对话系统的方法，所述方法包括：

从用户接收请求；

提取所述请求的语义，所述语义包括所述请求的实体、意图或上下文中至少之一；

基于所提取的语义来选择动作特征序列，其中，响应于单个请求选择多个API，所述多个API的调用通过使用资源描述框架图被编码为特征，在所述资源描述框架图中，各API是节点，并且在各API之间的连接至少通过所述API之一的输出与所述API中的另一个的输入之间的匹配来定义；并且

执行与所述动作特征序列相对应的API序列。

9.根据权利要求8所述的方法，所述方法进一步包括：

基于用户配置来对所述动作特征序列进行优化。

10.根据权利要求8所述的方法，其中，所述请求是语音请求，并且所述语音请求被转换为文本串。

11.根据权利要求8所述的方法，其中，所述请求被作为文本请求接收。

12.根据权利要求8所述的方法，其中，所述动作特征序列由循环神经网络选择。

13.根据权利要求12所述的方法，其中，通过以下来训练所述循环神经网络：

将言语和响应转换为特征；

将所述言语和对应的响应的特征组织为输入序列与目标序列对；并且

执行监督式序列对序列训练以训练和优化所述循环神经网络的参数。

14.根据权利要求8所述的方法，其中，从用户装置接收所述请求。

15.一种包括机器可读指令的非暂时性机器可读储存器，所述机器可读指令在被执行时实现根据权利要求8所述的方法。