CN115146645A

CN115146645A - 一种语义解析方法以及相关设备

Info

Publication number: CN115146645A
Application number: CN202110333989.8A
Authority: CN
Inventors: 皮特; 晏小辉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-10-04

Abstract

本申请实施例涉及人工智能领域，提供了一种语义解析方法以及相关设备，用于减少设备的内存占用，减小数据的冗余度，提升智能对话系统的语义理解能力。本申请实施例方法包括：获取用户指令文本，将用户指令文本划分为包括M个单词的分词序列，基于句法解析模型，根据分词序列确定表示一个动作或一个触发条件的节点文本，基于语义表示解码模型，根据节点文本确定用户指令文本的目标语义。

Description

一种语义解析方法以及相关设备

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种语义解析方法以及相关设备。

背景技术

基于人工智能技术的智能对话系统可以实现对自然语言的理解，即理解用户指令所表达的语义，完成用户指令语义中指示的任务。用户的指令分为无条件指令和触发型指令，无条件指令表达的语义是立即执行某任务，触发型指令表达的语义是在未来满足某触发条件时执行某任务。

一种触发型指令的语义解析方法是，将一类触发条件和执行任务相似的触发型指令文本抽象为意图，该意图表示当满足某类触发条件时执行某类任务。再基于预先为意图配置的语句模板，解析触发型指令文本的语义。

但是，意图的参数包括触发条件和动作，当触发条件或动作的其中任一个需要改变或扩充时，或需要支持解析其中较复杂的逻辑关系时，就需要为原有意图新增大量语句模板或另配置大量新意图，极大地增加了系统的内存占用，增大了智能对话系统的构建和运营成本。

发明内容

本申请实施例提供了一种语义解析方法以及相关设备，能够减小触发型指令语义解析过程中的数据冗余和内存占用，提升自然语言理解的准确性。

本申请实施例第一方面提供了一种语义解析方法：

智能对话系统接收用户发送的语音指令，将用户语音指令转化为以文本方式表示的用户指令文本。智能对话系统会在将语音转化为文本时智能剔除噪声，得到的用户指令文本是具备真实含义的文本。

智能对话系统对用户指令文本按照词为单位进行划分，得到包含M个单词的分词序列，分词序列中M个单词的排列顺序与用户指令文本中M个单词的排列顺序相同。

智能对话系统根据对用户指令文本进行划分后得到的分词序列，获取分词序列中的至少一个节点文本。至少一个节点文本中的每个节点文本是用户指令文本的一部分且互相无重叠，表示的含义是一个触发条件或一个动作。

智能对话系统确定至少一个节点文本中的每个节点文本，获取用户指令文本中每个节点文本对应的语义信息。智能对话系统根据用户指令文本中每个节点文本的语义信息，确定用户指令文本整句的目标语义。

可以理解的是，当用户指令文本中的触发条件节点文本或动作节点文本其中一个改变时，可以通过原有的触发条件节点语义和动作节点语义的重新组合对应用户指令文本的目标语义，而无需重新配置用户指令文本对应的语句模板，从而大大减少了系统的内存占用，减小了数据的冗余度，降低了智能对话系统的成本；此外，节点文本的节点语义会对节点文本在用户指令文本中的语义形成参考和约束，增强了对用户指令文本语义解析的准确度，提升了语义解析的鲁棒性，提升了智能对话系统的语义理解能力。

基于第一方面，本申请实施例提供了第一方面的第一种实施方式：

至少一个节点文本可以包括相互关联的第一节点文本和第二节点文本，其中第一节点文本为表示触发条件的文本，第二节点文本为表示动作的文本，智能对话系统获取第一节点文本的第一语义信息和第二节点文本的第二语义信息，根据第一语义信息和第二语义信息确定用户指令文本的目标语义。

基于第一方面或第一方面的第一种实施方式，本申请实施例提供了第一方面的第二种实施方式：

用户指令文本的目标语义可以有多种表示形式，可以用词序列加特殊符号的形式表示目标语义，也可以用语义表示图表示目标语义，当目标语义为语义表示图形式时，智能对话系统在获取第一节点文本的第一语义信息和第二节点文本的第二语义信息的基础上，获取语义表示图中第一语义信息指向第二语义信息的边，边的方向只能由表示触发条件的第一语义信息指向表示动作的第二语义信息，而不能由表示表示动作的第二语义信息指向表示表示触发条件的第一语义信息，触发条件指向动作的边表示“触发”约束，即系统应在满足该触发条件时执行该动作。

智能对话系统根据第一节点文本的第一语义信息和第二节点文本的第二语义信息以及第一语义信息指向第二语义信息的边，获得用户指令文本以语义表示图形式表示的目标语义。

可以理解的是，语义表示图中边的方向只能由触发条件指向动作，而不能由动作指向触发条件，节约了语义解析过程中文本之间语义关系的判断，提升了语义解析的准确性。

基于第一方面至第一方面的第二种实施方式中任一种，本申请实施例提供了第一方面的第三种实施方式：

至少一个节点文本可以包括相互关联的第一节点文本、第二节点文本以及第三节点文本，其中第一节点文本和第三节点文本为表示触发条件的文本，第二节点文本为表示动作的文本，智能对话系统获取第一节点文本的第一语义信息、第二节点文本的第二语义信息和第三节点文本的第三语义信息，根据第一语义信息、第二语义信息和第三语义信息确定用户指令文本的目标语义。

基于第一方面至第一方面的第三种实施方式中任一种，本申请实施例提供了第一方面的第四种实施方式：

智能对话系统在获取第一节点文本的第一语义信息、第二节点文本的第二语义信息以及第三节点文本的第三语义信息的基础上，获取语义表示图中第一语义信息指向第二语义信息的边，边的方向只能由表示触发条件的第一语义信息指向表示动作的第二语义信息，而不能由表示表示动作的第二语义信息指向表示表示触发条件的第一语义信息；再获取第一语义信息和第三语义信息之间的边，触发条件之间的边表示逻辑“与”关系。

智能对话系统根据第一节点文本的第一语义信息、第二节点文本的第二语义信息、第三节点文本的第三语义、第一语义信息指向第二语义信息的边以及第一语义信息和第三语义信息之间的边，获得用户指令文本以语义表示图形式表示的目标语义。

可以理解的是，语义表示图中包括多个触发条件之间的边，能够层次化得表达多个复杂触发条件之间的逻辑关系，表示触发条件中的组合、比较、逻辑运算等语义关系，更加精细表示触发型任务指令的语义，加强语义解析能力。

基于第一方面至第一方面的第四种实施方式中任一种，本申请实施例提供了第一方面的第五种实施方式：

从用户指令文本中确定一个节点文本，具体实现方式可以通过编写具有响应功能的程序实现，也可以通过经过训练的神经网络模型实现。在句法解析模型中，可以采用基于转移的句法解析模型实现，以用户指令文本作为输入，可以得到至少一个节点文本的输出。

基于第一方面至第一方面的第五种实施方式中任一种，本申请实施例提供了第一方面的第六种实施方式：

确定至少一个节点文本中每个节点文本的语义信息，具体的实现方式可以通过编写相应功能的程序实现，也可以通过神经网络模型实现，具体的可以通过语义表示解码模型实现。当基于转移的句法解析模型获取了至少一个节点文本后，将至少一个节点文本中的每个节点文本作为输入，得到每个节点文本的语义信息作为输出。基于第一方面至第一方面的第六种实施方式中任一种，本申请实施例提供了第一方面的第七种实施方式：

根据每个节点文本的语义信息，确定用户指令文本的目标语义可以通过编写具有相应功能的程序实现，也可以通过语义表示解码模型实现，将每个节点文本的语义信息作为输入，得到用户指令文本的目标语义作为输出。

本申请实施例第二方面提供了一种智能对话系统，该系统具有实现上述第一方面中智能对话系统的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能对应的模块。

本申请实施例第三方面提供了一种智能对话系统，包括处理器、存储器、输入输出设备以及总线；

处理器、存储器、输入输出设备与总线相连；

处理器用于执行上述第一方面中任一项所述的方法。

本申请实施例第四方面提供了一种计算机存储介质，该计算机可读存储介质中保存有程序，当所述计算机执行所述程序时，执行前述第一方面任一项所述的方法。

本申请实施例第五方面提供了一种计算机程序产品，当该计算机程序产品在计算机上执行时，计算机执行前述第一方面中任一项所述的方法。

本申请实施例第六方面提供了一种智能终端设备，智能终端设备包括第二方面中任一项或第三方面提供的智能对话系统。

从以上技术方案可以看出，本申请实施例具有以下优点：获取用户指令文本，从用户指令文本中确定至少一个节点文本，至少一个节点文本中的每个节点文本为用户指令文本中表示动作或触发条件的文本，确定至少一个节点文本中的每个节点文本的语义信息，根据每个节点文本的语义信息，确定用户指令文本的目标语义。当用户指令文本中的触发条件节点文本或动作节点文本其中一个改变时，可以通过原有的触发条件节点语义和动作节点语义的重新组合对应用户指令文本的目标语义，而无需重新配置用户指令文本对应的语义模板，从而大大减少了系统的内存占用，减小了数据的冗余度，降低了智能对话系统的成本，提升了智能对话系统的语义理解能力。

附图说明

图1为人工智能主体框架的一种结构示意图；

图2为本申请实施例中智能对话系统的架构示意图；

图3为本申请实施例的产品的一个实现形态；

图4为本申请实施例的产品的另一实现形态；

图5为本申请实施例中语义解析方法的一个流程示意图；

图6为本申请实施例中语义表示图的结构示意图；

图7为本申请实施例中句法解析模型的神经网络模型的架构示意图；

图8为本申请实施例中栈编码器的架构示意图；

图9为本申请实施例中语义表示解码模型的神经网络模型的架构示意图；

图10为本申请实施例中联合模型的训练架构示意图；

图11为本申请实施例中模型训练的一个系统架构；

图12为本申请实施例中执行设备的一个结构示意图；

图13为本申请实施例中执行设备的另一结构示意图。

具体实施方式

本申请实施例提供了一种语义解析方法，应用于人工智能领域中语义解析子领域，用于减小触发型指令语义解析过程中的数据冗余和内存占用，提升自然语言理解的准确性。

在人们的生活和工作中，越来越多的事务需要人与机器协作完成，这就需要人与机器进行良好的交互才能得完成任务。传统的人机交互(human–machine interaction，HMI)的方式包括通过键盘和鼠标与个人电脑(personal computer，PC)进行交互以及通过触摸屏与智能手机进行交互。

人工智能(artificial intelligence，AI)技术的发展深刻改变了人与机器交互的方式，从通过键盘和鼠标与PC进行交互以及通过触摸屏与智能手机进行交互，发展到以智能对话系统为代表的语音交互。

语音对话系统作为一种新兴的交互方式连接了用户与服务，被视为移动互联网服务的入口。目前国内外各大互联网公司积极布局语音对话系统，其中的代表性产品为各类语音助手，如苹果的Siri、亚马逊的Alexa、谷歌的Google Assistant、微软的Cortana、小冰等，以及搭载了这些语音助手的智能终端设备，如手机、平板、音箱、穿戴、电视、车载设备等。

语音对话系统首先通过语音识别模块(automatic speech recognition，ASR)将麦克风接收的语音转换为文字，随后通过自然语言理解模块(natural languageunderstanding，NLU)解析转换为文字的用户指令文本的语义，即用户希望机器执行什么操作以及操作关联的参数。NLU的语义理解能力包括两个部分：(1)将自然语言文本表示为一种机器可理解的形式，即设计一种语义表示；(2)将自然语言文本转换为该语义表示形式，即设计与该语义表示匹配的解析算法。

当前业界主流的方式是采用DIS框架(领域Domain，意图Intent，槽位Slot)的语义表示和基于DIS框架的解析算法对用户指令文本进行语义理解。其中，领域一般基于业务场景划分，如音乐、有声、百科、智能家居等；意图则抽象自句子的核心谓词，如播放、暂停播放、调大音量等，代表用户希望机器执行的动作；槽位则抽象自谓词的论元，如要播放的歌曲的名字、音量要调大的数值等，代表执行该操作需要的参数。以“打开客厅的灯”为例，其领域为“家居控制”，意图为“开启设备”，槽位为：{room:客厅,device:灯}。

在智能对话系统的实际应用中，用户向机器下达的语音指令可以分为两类，一类是立即执行某任务(无条件指令)，另一类是在未来某时间或满足某触发条件时执行某任务(触发型任务指令)。对于简单的条件指令(如时间条件)，DIS语义表示可通过添加相应的槽位和意图来覆盖，如添加槽位“起始时间”、“结束时间”等，添加意图“在某时间播放音乐/控制设备”等。但随着触发条件变得多样，在DIS框架下需要添加大量槽位以表示不同类型的触发条件，以及额外添加大量的意图及其句式模板，成本太高且造成大量冗余。进一步地，对于触发条件内蕴含的比较、组合、逻辑运算等语义关系，DIS的扁平的槽位结构则更是无法表示。因此，急需针对触发型任务指令构建一种语义表示和该语义表示对应的解析算法，用于表示和解析指令中蕴含的触发条件、执行动作和其中蕴含的丰富的语义关系，提升对话系统的自然语言理解能力。

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据-信息-知识-智慧”的凝练过程。

“IT价值链”是从人工智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施。

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片提供，智能芯片包括中央处理器(central processing unit，CPU)，嵌入式神经网络处理器(neural-networkprocessing unit，NPU)，图形处理器(graphics processing unit，GPU)，专用集成电路(application specific integrated circuit，ASIC)，或者现场可编程逻辑门阵列(fieldprogrammable gate array，FPGA)等硬件加速芯片；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据。

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理。

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力。

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用。

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

本申请实施例可以应用于如图2所示的智能对话系统架构：

如图2所示的智能对话系统包括离线训练框架和在线预测框架。

离线训练框架中，按照本申请实施例中提出的语义表示定义，对日常使用中高频率出现的文本标注文本对应的语义表示定义，将标注有语义表示定义的文本作为训练语料，并基于已标注的训练语料生成更多训练语料。

利用已经获得的训练预料进行模型训练，使模型学习文本的句法结构和学习文本的语义表示结构，句法结构和语义表示结构的学习并不是孤立进行的，模型还需要联合学习文本的句法架构和语义表示结构的对应关系，使模型学习的文本句法结构会对文本语义表示结构形成约束。

在对模型进行训练后，得到上下文对齐感知解析模型，该模型可以确定文本的句法结构、文本的语义表示结构和句法结构与语义表示结构的对齐关系。

在线预测框架中，用户发出的语音输入ASR模块，ASR模块用于将用户的语音输入解析为文本。在线预测框架接收离线训练框架将训练完成的上下文对齐感知解析模型的推送，将ASR模块解析用户语音后得到的用户指令文本作为上下文对齐感知解析模型的输入，经过该模型的语义解析后，得到以本申请实施例提出的语义表示定义形式表示的文本语义，使对话管理模块基于语义解析模块输出的语义表示更新对话状态，调用技能接口，挂载语义表示中的触发条件和执行动作。

回复生成模块根据当前对话状态生成回复语后，经文本转语音(text to speech，TTS)模块将文本回复语转换成语音，向用户播报。

结合上述介绍，下面介绍本申请实施例中语义解析方法的产品实现形态，本申请实施例的产品的一种实现形态可以是如图3所示的智能音箱：

智能音箱中的ASR模块将用户输入的语音转换为文本，将文本输入中控器，中控器会将不同领域的文本进行分类，将不同领域的文本进行分发，经中控器分发后的用户指令文本由智能音箱中的NLU模块基于离线训练得到的语义解析模型进行语义解析，NLU模块将解析后的结果传回给中控器，随后，中控器从候选的语义表示中决策最优的一个，将其映射为机器指令，将该语义表示和机器指令分发给对话管理器。对话管理器基于语义表示更新对话状态，基于机器指令调用技能服务接口挂载触发条件和计划任务，并生成回复，技能服务包括音乐服务、天气服务或新闻服务。中控器更新全局状态，将回复传入TTS模块。TTS将回复文本转化为语音向用户播报。

结合上述介绍，下面介绍本申请实施例中的产品的另一实现形态，请参阅图4：

本申请实施例中语义解析方法的另一产品形态是智能音箱中的NLU装置。

模型训练所需要的训练预料可以由两种方式获取，一种是由运营人员可以在运营平台上编写触发型任务指令的模板，基于模板的嵌套生成训练语料；另一种是由标注人员在标注平台上对日常使用中高频出现的文本标注语义表示定义以及节点与指令子文本的对齐关系，获取经过标注得到的训练语料。

根据训练语料训练上下文对齐感知的语义解析模型。

NLU服务基于上一步训练的语义解析模型，对ASR识别的用户指令文本作语义解析，输出语义表示。语义表示一方面传给对话管理器、技能服务等获取回复返回给用户，另一方面记录到日志服务器，推送给离线日志分析模块。

离线日志分析模块收集日志中未正确解析的用户指令，推送给标注人员作标注，进行迭代优化。

结合上述介绍，下面描述本申请实施例中的语义解析方法：

请参阅图5，本实施例中，智能对话系统获取用户指令文本，将用户指令文本划分为分词序列，基于句法解析模型，根据分词序列确定表示一个动作或一个触发条件的节点文本，基于语义表示解码模型，根据节点文本获取节点语义，根据节点语义获取语义表示图，进一步获取用户指令文本的目标语义。

501、智能对话系统获取用户指令文本。

智能对话系统中的麦克风会拾取用户发出的语音指令，智能对话系统中的ASR模块将麦克风接收到的用户语音转换为文字，得到用户指令文本。

502、智能对话系统根据用户指令文本获取分词序列。

智能对话系统中的分词预处理模块对用户指令文本中进行划分，得到包括N个单词的分词序列，该分词序列中的N个单词按照用户指令文本中的先后顺序进行排列。

503、智能对话系统基于句法解析模型，根据分词序列确定节点文本。

本申请实施例中的句法解析模型为基于转移的句法成分分析模型(transition-based constituent parser)，基于转移的句法成分分析模型维护一个栈S和一个队列B，栈S的初值为空栈，队列B的初值为将用户指令文本划分后得到的分词序列。模型分步迭代，从左至右遍历句子，在每一步决策对栈S和队列B应采取的操作。将用户指令文本的分词序列解析完毕后，对栈S和队列B采取的操作序列形成了对用户指令文本的分词序列的一个分割，基于该分割即得到用户指令中的节点文本。

504、智能对话系统基于语义表示解码模型，根据节点文本确定节点语义。

语义表示解码模型在离线状态下完成训练后，被推送给NLU模块，当句法解析模型每获取一个节点文本，就采用语义表示解码模型，以节点文本为输入获取每个节点文本的语义，得到每个节点文本对应的节点语义的输出。

505、智能对话系统根据节点语义确定用户指令文本的语义表示图。

节点语义包括动作节点语义和触发条件节点语义，智能对话系统在获取了节点文本对应的节点语义后，将所有节点的语义作为语义表示解码模型的输入，得到各语义节点之间的边结构(包括触发条件节点指向动作节点语义的边以及触发条件节点语义之间的边)。语义节点之间的边表示语义节点之间的某种语义关系。智能对话系统在确定了节点文本对应的节点语义后，确定节点语义之间的边，得到包括用户指令文本中所有节点语义的语义表示图。

506、智能对话系统根据语义表示图获取用户指令文本的目标语义。

语义表示图的边在不同的情况下表示不同的语义，其中触发条件节点指向触发条件节点的边表示逻辑“与”关系，触发条件节点指向动作节点的边表示“触发”关系，在语义表示图中从触发条件节点到达动作节点的不同路径之间有“或”关系。确定了语义表示图中边的语义后，将语义表示图转化为更直观的序列表示形式，获取以序列形式表述的目标语义。

结合上述介绍，下面对图5所示实施例中的句法解析模型的模型框架进行介绍：

本申请实施例中，句法解析模型的输入为用户指令文本的分词序列，输出为用户指令文本中所有的节点文本。句法解析模型的输入数据结构包括一个栈和一个队列。用户指令文本的分词序列以队列的数据结构逐个读入句法解析模型，模型在每一步根据栈和队列的状态决定应采取的操作，直至队列中的分词全部推入栈且根据栈的状态进行的操作均已完成，则解析完毕。每一步可以采取的操作如下表1所示：

表1

结合上面对本申请实施例中句法解析模型的模型框架的介绍，下面以用户指令文本为“我回家后，如果温度超过30度或湿度高于50％就打开空调”为例，对本申请实施例中句法解析模型的模型框架进行更详细的介绍，如表2所示：

表2

栈S	队列B	预期操作
			[]	[我,回家,后,…]	Add(T)
[T]	[我,回家,后,…]	Shift*3
			[T,我,回家,后]	[如果,温度,超过,…]	Reduce
[T(我回家后)]	[如果,温度,超过,…]	Shift
			[T(我回家后),如果]	[温度,超过,30,度…]	Add(T)
[T(我回家后),如果,T]	[温度,超过,30,度…]	Shift*4
			[T(我回家后),如果,T,温度,超过,30,度]	[或,湿度,…]	Reduce
[T(我回家后),如果,T(温度超过30度)]	[或,湿度,…]	Shift
			[T(我回家后),如果,T(温度超过30度),或]	[湿度,高于,50％,…]	Add(T)
[…,T(温度超过30度),或,T]	[湿度,高于,50％,…]	Shift*3
			[…,T(温度超过30度),或,T,湿度,高于,50％]	[就,打开,空调]	Reduce
[…,T(温度超过30度),或,T(湿度高于50％)]	[就,打开,空调]	Shift
			[…,T(湿度高于50％),就]	[打开,空调]	Add(A)
[…,T(湿度高于50％),就,A]	[打开,空调]	Shift*2
			[…,T(湿度高于50％),就,A,打开,空调]	[]	Reduce
[…,T(湿度高于50％),就,A(打开空调)]	[]

通过每一步的操作，得到节点文本“我回家后”、“温度超过30度”、“湿度高于50％”和“打开空调”。

连续N步Shift简记为Shift*N，表示从当前开始往后连续N步的操作都是Shift(即将当前队列B头部的N个词逐一推入栈S)。

结合上述介绍，下面对本申请实施例中语义表示解析模型进行介绍：

本申请实施例中的语义表示解析模型具有两种功能：(1)以节点文本作为输入，确定节点文本的节点语义；(2)在确定了用户指令文本中包括的全部节点文本的节点语义后，获取用户指令文本整句的语义表示图。

结合上述以用户指令文本为“我回家后，如果温度超过30度或湿度高于50％就打开空调”为例，对本申请实施例中语义表示解码模型的语义表示图进行详细介绍：

句法解析模型已经获取了节点文本“我回家后”、“温度超过30度”、“湿度高于50％”和“打开空调”，语义解析模型得到节点文本的节点语义后，分析节点语义之间的关系，得到如图6所示的语义表示图。

图6所示的语义表示图包括触发条件节点一601、触发条件节点二602、触发条件节点三603和动作节点604，其中，触发条件节点一601的文本为“我回家后”，触发条件节点二的文本602为“温度超过30度”，触发条件节点三603的文本为“湿度高于50％”，动作节点604的文本为“打开空调”。

图5所示的语义表示图包括两条路径，即601-602-604和601-603-604，这两条路径之间具有“或”关系，触发条件节点一601指向触发条件节点二602的边表示“与”关系，触发条件节点一601指向触发条件节点三603的边表示“与”关系。

结合上述介绍，下面对本申请实施例中语义解析方法的一个应用场景进行介绍：

当根据本申请实施例中语义解析方法获取用户指令文本的目标语义后，可以根据目标语义进行任务触发。任务触发为基于图推理的任务触发：若从某无入边的触发条件节点到某动作节点间的某条路径上的所有触发条件的状态都为真，则执行该动作节点。以图6中的语义表示图为例介绍任务触发的方式：(1)当路径601-602-604中触发条件节点一601和触发条件节点二602状态都为真时，执行动作节点604；(2)当路径601-603-604中触发条件节点一601和触发条件节点三603状态都为真时，执行动作节点604。

其中，触发条件Trigger包括但不限于以下几类：某变量V发生变化；某变量V发生定向变化(增大/减小)；两变量V1，V2具有二元关系(相等/不等/大于/小于/大于或等于/小于或等于/包含/包含于/…)；等等。执行动作Action包含动作名称及动作参数。

结合上述介绍，下面对图5所示实施例中以序列形式表示的目标语义进行介绍：

将语义表示图基于预定义的规则转化为序列形式，定义如表3所示的规则：

表3

T_BEG,T_END符号分别表示Trigger的起始、结束标记，A_BEG,A_END符号分别表示Action的起始、结束标记，OR_BEG,OR_END表示“或”运算的起始、结束标记。基于上述规则，可将图5的语义表示图转化为如下目标语义序列：

本申请实施例中句法解析模型框架的具体实现依赖神经网络模型，下面详细介绍本申请实施例中句法解析模型的神经网络模型，请参阅图7：

本申请实施例中句法解析模型的神经网络模型包括栈编码器701、队列编码器702、操作序列编码器703、融合全连接神经网络704、预测全连接神经网络705。

栈编码器701可以是循环神经网络(recurrent neural network,RNN)，也可以是其他类型的人工神经网络，例如长短期记忆人工神经网络(long short-term memory，LSTM)，具体此处不做限定。如表2所示句法解析模型的模型框架中，将栈的每一步操作后的状态作为栈状态序列作为栈编码器701的输入数据，得到当前栈S_t的向量

队列编码器702可以是RNN，也可以是其他类型的人工神经网络，例如LSTM，具体此处不做限定。如表2所示句法解析模型的模型框架中，将队列每一步操作后的状态作为队列状态序列作为队列编码器702的输入数据，得到当前队列B_t的向量

操作序列编码器703可以是循环神经网络RNN，也可以是其他类型的人工神经网络，例如长短期记忆人工神经网络LSTM，具体此处不做限定。如表2所示句法解析模型的模型框架中，将每一步的操作组成的操作序列作为操作序列编码器703的输入数据，得到当前数据操作序列O的向量

融合全连接神经网络704为多层感知器(muti－layer perception，MLP)，用于将当前栈St的向量

当前队列Bt的向量

和当前数据操作序列O的向量

作为输入，经过全连接融合后得到向量r_t。

预测全连接神经网络705为MLP，用于将融合全连接神经网络704输出的向量r_t作为输入，得到下一步的操作的概率分布：

P(o_t|S_t，B_t，{o₁，...，o_t-1})=f_P(r_t；Θ_P)；o_t∈{Shift，Reduce，Add(A)，Add(T)}

其中，

分别表示栈编码器、队列编码器、操作序列编码器、融合MLP1、预测MLP的网络函数，分别以

为参数。得到的预测操作为如表1所示4种操作的其中一种。

结合上述图7所示实施例的介绍，下面对本申请实施例中栈编码器的架构进行详细介绍，请参阅图8：

栈编码器包括两个子文本编码器，一个子文本编码器为节点子文本编码器，另一个子文本编码器为整合文本编码器。

节点子文本编码器是双向LSTM，用于将栈S中对应某节点的已被归约的文本段编码为一个归约向量。

整合文本编码器7是双向LSTM，用于将节点子文本编码器输出的各节点的归约向量连同其他未被归约的子文本整体编码为一个嵌入向量，得到栈S的编码向量。

节点子文本编码器的具体形式为：

其中，

表示前、后向LSTM的隐状态向量；d为隐向量维度；

为前向LSTM，以

为参数；

为后向LSTM，以

为参数；

和

构成了子文本编码器的参数Θ_sub；tok_i为第i个词元(非终结符或文本单词)，e(tok_i)表示tok_i的嵌入向量；L为输入编码器的词元的个数(包括非终结符)。将前向、后向LSTM的最后一步的输出向量拼接，得到子文本编码器的输出向量。整合文本编码器的双向LSTM与上述公式形式相同，仅参数不同。

同理，队列编码器、操作序列编码器也采用双向LSTM的形式，与上述公式形式相同，仅参数不同。得到栈编码向量

队列编码向量

操作序列编码向量

后，经过如下全连接网络，得到融合向量r_t：

其中，

为待学习参数。

结合图5所示实施例中对语义表示解码模型的介绍，下面对本申请实施例中语义表示解码模型的神经网络模型进行详细介绍，请参阅图9：

图9所示的语义表示解码模型基于图7所示句法解析模型，当句法解析模型获取被归约的节点子文本后，将节点子文本作为输入，采用语义表示解码模型得到被归约的节点子文本对应的节点子语义。

本申请实施例中句法解析模型和语义表示解码模型可以构建成一个联合模型进行训练，请参阅图10：

本方案基于标注语料训练一个上下文对齐感知的语义解析模型。这是一个联合模型，包含一个基于转移的句法解析模型和一个语义表示解码模型。模型的训练框架如图10所示。训练数据(绿色框)的形式为用户文本指令Q、Q的语义表示图G＝(V,E)，以及节点集合V与Q中的子文本的对齐关系(即每个节点对应Q中的哪段子文本)。

结合上述介绍，下面对本申请实施例中如图6所示的句法解析模型的神经网络模型和如图9所示的语义表示解码模型的神经网络模型所组成的联合模型的训练架构进行介绍，请参阅图10：

训练数据的形式为用户文本指令Q、Q的语义表示图G＝(V,E)，以及节点集合V与Q中的子文本的对齐关系(即每个节点对应Q中的哪段子文本)。

(1)运营人员编写触发型任务指令的模板，基于模板的嵌套生成训练语料。模板及其语义表示转换规则示例如表4所示：

表4

将具体的Trigger和Action的说法基于上述模板嵌套，即可生成足够复杂的触发型任务指令，并且自然获得了每个Trigger和Action节点与指令的子文本的对齐关系。例如，可基于上述模板生成上述表2中的指令“我回家后，如果温度超过30度或湿度高于50％就打开空调”，其中Trigger节点T1对应子文本“我回家后”，Trigger节点T2对应子文本“温度超过30度”，Trigger节点T3对应子文本“湿度高于50％”，Action节点A对应子文本“打开空调”。

(2)标注人员从日志中筛选高频的触发型任务指令，标注其语义表示以及节点与指令子文本的对齐关系作为训练语料。

根据训练预料训练包括句法解析模型和语义表示解码模型的联合模型。

结合上述图10所示的联合模型的训练架构的介绍，下面对图10所示的联合模型的训练架构所依赖实现的系统架构进行说明，请参阅图11：

本申请实施例提供了一种系统架构1100。数据采集设备1160用于获取样本数据以及训练产生的损失值并存入数据库1130，训练设备1120基于数据库1130中维护的样本数据以及训练产生的损失值生成目标模型/规则1101。下面将更详细地描述训练设备1120如何基于样本数据以及训练产生的损失值得到目标模型/规则1101，目标模型/规则1101能够自适应的调整损失值对应的权重参数，同时在训练过程中利用并行计算优势探索权重的有效性以及继承优秀的网络参数和权重，从而实现在一个训练时间内得到最优训练模型。

深度神经网络中的每一层的工作可以用数学表达式来描述：从物理层面深度神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由完成，4的操作由完成，5的操作则由来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合。其中，是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量决定着上文所述的输入空间到输出空间的空间变换，即每一层的权重控制着如何变换空间。训练深度神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量形成的权重矩阵)。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objectivefunction)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

训练设备1120得到的目标模型/规则可以应用不同的系统或设备中。在附图11中，执行设备1110配置有I/O接口1112，与外部设备进行数据交互，“用户”可以通过客户设备1140向I/O接口1112输入数据。

执行设备1110可以调用数据存储系统1150中的数据、代码等，也可以将数据、指令等存入数据存储系统1150中。

计算模块1111使用目标模型/规则1101对输入的数据进行处理，对用户指令文本的句法和语义进行解析，得到用户指令文本中各节点的子语义和用户指令文本的语义表示图。

关联功能模块1113具体进行对用户指令文本的句法和节点文本的子语义进行关联。

关联功能模块1114具体对用户指令文本的节点文本的子语义和用户指令文本的语义表示图进行关联。

最后，I/O接口1112将处理结果返回给客户设备1140，提供给用户。

更深层地，训练设备1120可以针对不同的目标，基于不同的数据生成相应的目标模型/规则1101，以给用户提供更佳的结果。

在附图11中所示情况下，用户可以手动指定输入执行设备1110中的数据，例如，在I/O接口1112提供的界面中操作。另一种情况下，客户设备1140可以自动地向I/O接口1112输入数据并获得结果，如果客户设备1140自动输入数据需要获得用户的授权，用户可以在客户设备1140中设置相应权限。用户可以在客户设备1140查看执行设备1110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备1140也可以作为数据采集端将采集到训练数据存入数据库1130。

值得注意的，附图11仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图11中，数据存储系统1150相对执行设备1110是外部存储器，在其它情况下，也可以将数据存储系统1150置于执行设备1110中。

结合上述对本申请实施例中语义解析方法的介绍，下面对本申请实施例中实现语义解析方法的智能对话系统所基于的执行设备的结构进行介绍：

请参阅图12，本申请实施例中图12所示的执行设备包括获取单元1201和处理单元1202。

获取单元1201，用于获取用户指令文本；

处理单元1202，用于从用户指令文本中确定至少一个节点文本，至少一个节点文本中的每个节点文本为用户指令文本中表示动作或触发条件的文本；

处理单元1202，用于确定至少一个节点文本中的每个节点文本的语义信息；

处理单元1202，还用于根据每个节点文本的语义信息，确定用户指令文本的目标语义。

处理单元1202，还用于当至少一个节点文本包括相互关联的第一节点文本和第二节点文本，第一节点文本为表示触发条件的文本，第二节点文本表示动作的文本时，

根据第一节点文本的第一语义信息和第二节点文本的第二语义信息，确定用户指令文本的目标语义。

处理单元1202，还用于当用户指令文本的目标语义为语义表示图时，根据第一语义信息、第二语义信息和第一语义信息指向第二语义信息的边确定用户指令文本的目标语义。

处理单元1202，还用于当至少一个节点文本包括第三节点文本，第三节点文本为表示触发条件的文本时，根据第一节点文本、第二节点文本和第三节点文本，确定用户指令文本的目标语义。

处理单元1202，还用于根据第一语义信息、第二语义信息、第一语义信息指向第二语义信息的边以及第三语义信息和第一语义信息指向第三语义信息的边，确定用户指令文本的目标语义。

处理单元1202，还用于根据基于转移的句法解析模型，以用户指令文本为输入，得到至少一个节点文本的输出。

处理单元1202，还用于根据语义表示解码模型，以至少一个节点文本为输入，得到每个节点文本的语义信息为输出。

处理单元1202，还用于根据语义表示解码模型，以每个节点文本的语义信息为输入，得到用户指令文本的目标语义的输出。

本申请实施例提供的执行设备具体可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使执行设备内的芯片执行上述图5所示实施例描述的语义解析方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体的，请参阅图13，图13是本申请中芯片的一个实施例，该芯片可以表现为神经网络处理器1300，神经网络处理器1300作为协处理器挂载到主CPU上，由主机CPU分配任务。神经网络处理器1300的核心部分为运算电路1303，控制器1304可以控制运算电路1303提取权重存储器1302或者输入存储器1301中的数据并进行运算。

在一些实现中，运算电路1303内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路1303可以是二维脉动阵列。运算电路1303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器1302中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器1301中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1308中。

统一存储器1306用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)1305，DMAC被搬运到权重存储器,1302中。输入数据也通过DMAC被搬运到统一存储器1306中。

总线接口单元1310(bus interface unit，BIU，可以是，用于通过总线实现主CPU、DMAC和取指存储器1309(instruction fetch buffer，IFB)的交互。取指存储器1309用于存储控制器1304使用的指令。

向量计算单元1307包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如像素级求和，对特征平面进行上采样等。

其中，图4至图9所对应的实施例中示出的神经网络中各层的运算可以由运算电路1303或者向量计算单元1307执行。

其中，上述任一处提到的处理器，可以是一个通中央处理器，微处理器，或一个或多个用于控制上述第一方面方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语义解析方法，其特征在于，包括：

获取用户指令文本；

从所述用户指令文本中确定至少一个节点文本，所述至少一个节点文本中的每个节点文本为所述用户指令文本中表示动作或触发条件的文本；

确定所述至少一个节点文本中的每个节点文本的语义信息；

根据所述每个节点文本的语义信息，确定所述用户指令文本的目标语义。

2.根据权利要求1所述的语义解析方法，其特征在于，所述至少一个节点文本包括相互关联的第一节点文本和第二节点文本，所述第一节点文本为表示触发条件的文本，所述第二节点文本为表示动作的文本；

所述根据所述每个节点文本的语义信息，确定所述用户指令文本的目标语义，包括：

根据所述第一节点文本的第一语义信息和所述第二节点文本的第二语义信息，确定所述用户指令文本的目标语义。

3.根据权利要求2所述的语义解析方法，其特征在于，所述用户指令文本的目标语义为语义表示图，所述根据所述第一节点文本的第一语义信息和所述第二节点文本的第二语义信息，确定所述用户指令文本的目标语义，包括：

根据所述第一语义信息、所述第二语义信息和第一语义信息指向第二语义信息的边确定所述用户指令文本的目标语义。

4.根据权利要求1或2所述的语义解析方法，其特征在于，所述至少一个节点文本包括第三节点文本，所述第三节点文本为表示触发条件的文本；

根据所述第一节点文本、所述第二节点文本和所述第三节点文本，确定所述用户指令文本的目标语义。

5.根据权利要求4所述的语义解析方法，其特征在于，所述根据所述第一节点文本、所述第二节点文本和所述第三节点文本，确定所述用户指令文本的目标语义，包括：

根据所述第一语义信息、所述第二语义信息、所述第一语义信息指向第二语义信息的边以及所述第三语义信息和第一语义信息指向第三语义信息的边，确定所述用户指令文本的目标语义。

6.根据权利要求5所述的语义解析方法，其特征在于，所述从所述用户指令文本中确定至少一个节点文本，包括：

根据基于转移的句法解析模型，以所述用户指令文本为输入，得到所述至少一个节点文本的输出。

7.根据权利要求6所述的语义解析方法，其特征在于，所述确定所述至少一个节点文本中的每个节点文本的语义信息，包括：

根据语义表示解码模型，以所述至少一个节点文本为输入，得到所述每个节点文本的语义信息为输出。

8.根据权利要求7所述的语义解析方法，其特征在于，所述根据所述每个节点文本的语义信息，确定所述用户指令文本的目标语义，包括：

根据所述语义表示解码模型，以所述每个节点文本的语义信息为输入，得到所述用户指令文本的目标语义的输出。

9.一种智能对话系统，其特征在于，包括：

获取单元，用于获取用户指令文本；

处理单元，用于从所述用户指令文本中确定至少一个节点文本，所述至少一个节点文本中的每个节点文本为所述用户指令文本中表示动作或触发条件的文本；

所述处理单元，用于确定所述至少一个节点文本中的每个节点文本的语义信息；

所述处理单元，用于根据所述每个节点文本的语义信息，确定所述用户指令文本的目标语义。

10.根据权利要求9所述的智能对话系统，其特征在于，包括：

所述处理单元，用于当所述至少一个节点文本包括相互关联的第一节点文本和第二节点文本，所述第一节点文本为表示触发条件的文本，所述第二节点文本表示动作的文本时，

11.根据权利要求10所述的智能对话系统，其特征在于，包括：

所述处理单元，用于当所述用户指令文本的目标语义为语义表示图时，根据所述第一语义信息、所述第二语义信息和第一语义信息指向第二语义信息的边确定所述用户指令文本的目标语义。

12.根据权利要求9或10所述的智能对话系统，其特征在于，包括：

所述处理单元，用于当所述至少一个节点文本包括第三节点文本，所述第三节点文本为表示触发条件的文本时，根据所述第一节点文本、所述第二节点文本和所述第三节点文本，确定所述用户指令文本的目标语义。

13.根据权利要求12所述的智能对话系统，其特征在于，包括：

所述处理单元，用于根据所述第一语义信息、所述第二语义信息、所述第一语义信息指向第二语义信息的边以及所述第三语义信息和第一语义信息指向第三语义信息的边，确定所述用户指令文本的目标语义。

14.根据权利要求13所述的智能对话系统，其特征在于，包括：

所述处理单元，用于根据基于转移的句法解析模型，以所述用户指令文本为输入，得到所述至少一个节点文本的输出。

15.根据权利要求14所述的智能对话系统，其特征在于，包括：

所述处理单元，用于根据语义表示解码模型，以所述至少一个节点文本为输入，得到所述每个节点文本的语义信息为输出。

16.根据权利要求15所述的智能对话系统，其特征在于，包括：

所述处理单元，用于根据所述语义表示解码模型，以所述每个节点文本的语义信息为输入，得到所述用户指令文本的目标语义的输出。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中保存有程序，当所述计算机执行所述程序时，执行如权利要求1至8中任一项所述的方法。

18.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上执行时，所述计算机执行如权利要求1至8中任一项所述的方法。

19.一种智能终端设备，其特征在于，所述智能终端设备包括权利要求9至16任一项所述的智能对话系统。