CN114492447A

CN114492447A - 一种文本数据处理方法和智能设备

Info

Publication number: CN114492447A
Application number: CN202011143373.6A
Authority: CN
Inventors: 邓东; 舒昌文; 冯超
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-05-13

Abstract

本申请实施例公开了一种文本数据处理方法，用于确认技能请求词和用户说法集合的语义一致性。本申请实施例方法包括：智能设备获取目标技能的技能请求词和用户说法集合，所述用户说法集合包括所述目标技能中每一个意图的至少一个用户说法，通过根据所述技能请求词和所述用户说法集合分别确定所述每一个意图的语义隐表示和权重，并根据所述每一个意图的语义隐表示和权重确定所述用户说法集合的目标摘要语义，根据所述技能请求词和所述目标摘要语义确定所述技能请求词和所述用户说法集合的匹配度，缩小了需要计算的两段文本的长度差距，而且基于意图级别的注意力机制确定的目标摘要语义，减少了不重要的意图所造成的干扰。

Description

一种文本数据处理方法和智能设备

技术领域

本申请涉及人工智能领域，尤其涉及一种文本语义一致性方法和智能设备。

背景技术

语音助手(voice assistant，VA)(或智能虚拟助手，例如：华为的小艺、小米的小爱同学等)是一种通过识别用户的语音指令，以执行相应的操作的应用。语音助手除了提供自身的语音服务之外，还可以提供第三方应用的服务。这些第三方应用所提供的服务称为技能，技能用于为用户实现多种意图。例如，技能“高铁管家”，为用户实现“购票、退出界面、退票、查询订单情况”等意图。

为了调出所需要的技能并实现相关意图，开发者提供了技能请求词和用户说法。用户可以在语音助手上念出技能请求词即可调出相应的技能。例如，念出“我要买高铁票”，语音助手识别到“高铁”，即可调出“高铁管家”这项技能。调出技能后，用户可以在语音助手上念出用户说法，以实现需要的意图，例如，“我想退票”，即可实现“退票”意图，例如“请查询我的订单”，即可实现“查询订单”意图。

技能请求词是用户感知此技能所提供的服务的少数甚至唯一的通道，因此技能请求词与技能所能提供的服务内容(即用户说法)在语义上需要具有高度的一致性。当前，对于技能请求词与用户说法在语义上的一致性，可以首先将两段文本映射到同一个语义空间，得到两个向量，再进行两个向量的相似度进行计算，以确定两段文本之间语义的一致性。但是，技能请求词与用户说法的文本长度相差较大，上述方法对于文本长度相差较大的两段文本处理性能较差。

发明内容

本申请实施例提供了一种文本数据处理方法和智能设备，用于确认技能请求词和用户说法集合的语义一致性。

本申请第一方面提供了一种文本数据处理方法，包括：智能设备获取目标技能的技能请求词和用户说法集合，所述用户说法集合包括所述目标技能中每一个意图的至少一个用户说法；所述智能设备根据所述技能请求词和所述用户说法集合分别确定所述每一个意图的语义隐表示和权重；所述智能设备根据所述每一个意图的语义隐表示和权重确定所述用户说法集合的目标摘要语义；所述智能设备根据所述技能请求词和所述目标摘要语义确定所述技能请求词和所述用户说法集合的匹配度。

在本申请实施例中，获取目标技能的技能请求词和用户说法集合，所述用户说法集合包括所述目标技能中每一个意图的至少一个用户说法，通过根据所述技能请求词和所述用户说法集合分别确定所述每一个意图的语义隐表示和权重，并根据所述每一个意图的语义隐表示和权重确定所述用户说法集合的目标摘要语义，根据所述技能请求词和所述目标摘要语义确定所述技能请求词和所述用户说法集合的匹配度，缩小了需要计算的两段文本的长度差距，而且基于意图级别的注意力机制确定的目标摘要语义，减少了不重要的意图所造成的干扰。

在一些可能的实现方式中，所述智能设备根据所述用户说法集合分别确定所述每一个意图的语义隐表示，并基于深度循环神经网络对所述技能请求词进行文本处理，得到所述技能请求词的语义隐表示。最后，所述智能设备根据所述每一个意图的语义隐表示和所述技能请求词的语义隐表示确定所述每一个意图的权重，由此确定了每一个意图的权重，可以根据意图的权重来实现基于意图级别的注意力机制。

在一些可能的实现方式中，所述智能设备确定所述用户说法集合中所述每一个意图的用户说法，并串联所述每一个意图的所有用户说法，得到所述每一个意图的用户说法串联文本，最后基于深度循环神经网络分别对所述每一个意图的用户说法串联文本进行文本处理，从而得到了所述每一个意图的语义隐表示。

在一些可能的实现方式中，所述智能设备计算所述每一个意图的语义隐表示和所述技能请求词的语义隐表示的相似度，作为所述每一个意图的权重，即可确定每一个意图的重要性，奠定了实现基于意图级别的注意力机制的基础。

在一些可能的实现方式中，所述智能设备根据所述技能请求词的语义隐表示和所述目标摘要语义映射到同一个语义空间中，得到第一语义向量和第二语义向量，然后所述智能设备计算所述第一语义向量和所述第二语义向量的相似度，作为所述技能请求词和所述用户说法集合的匹配度，实现了认技能请求词和用户说法集合的语义一致性的判别。

本申请第二方面提供一种智能装置，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法。具体地，该智能装置包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的模块或单元。

本申请第三方面提供一种智能装置，包括：至少一个处理器、存储器、收发器以及存储在存储器中并可在处理器上运行的计算机执行指令，当计算机执行指令被处理器执行时，处理器执行如上述第一方面或第一方面任意一种可能的实现方式的方法。

本申请第四方面提供一种存储一个或多个计算机执行指令的计算机可读存储介质，当计算机执行指令被处理器执行时，处理器执行如上述第一方面或第一方面任意一种可能的实现方式的方法。

本申请第五方面提供一种存储一个或多个计算机执行指令的计算机程序产品，当计算机执行指令被处理器执行时，处理器执行上述第一方面或第一方面任意一种可能实现方式的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

智能设备获取目标技能的技能请求词和用户说法集合，所述用户说法集合包括所述目标技能中每一个意图的至少一个用户说法，通过根据所述技能请求词和所述用户说法集合分别确定所述每一个意图的语义隐表示和权重，并根据所述每一个意图的语义隐表示和权重确定所述用户说法集合的目标摘要语义，根据所述技能请求词和所述目标摘要语义确定所述技能请求词和所述用户说法集合的匹配度，缩小了需要计算的两段文本的长度差距，而且基于意图级别的注意力机制确定的目标摘要语义，减少了不重要的意图所造成的干扰。

附图说明

图1为人工智能主体框架的一种结构示意图；

图2a为一种自然语言处理系统；

图2b为另一种自然语言处理系统；

图2c为本申请实施例提供的自然语言处理的相关设备的示意图；

图3为本申请实施例提供的一种系统架构的示意图；

图4为本申请实施例提供的一种文本数据处理方法

图5为本申请实施例提供的一种智能设备的示意图；

图6为本申请实施例的又一种计算机设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对人工智能系统总体工作流程进行描述，请参见图1，图1示出的为人工智能主体框架的一种结构示意图，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能终端、智能交通、智能医疗、自动驾驶、平安城市等。

接下来介绍几种本申请的应用场景。

图2a示出了一种自然语言处理系统，该自然语言处理系统包括智能设备以及数据处理设备。其中，智能设备包括手机、个人电脑或者信息处理中心等智能终端。智能设备为自然语言数据处理的发起端，作为语言问答或者查询等请求的发起方，通常用户通过智能设备发起请求。

上述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的查询语句/语音/文本等问句，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的语言数据处理。数据处理设备中的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以在数据处理设备上，也可以在其它网络服务器上。

在图2a所示的自然语言处理系统中，智能设备可以接收用户的指令，例如智能设备可以接收用户输入的一段文本，然后向数据处理设备发起请求，使得数据处理设备针对智能设备得到的该一段文本执行自然语言处理应用(例如文本分类、文本推理、命名实体识别、翻译等)，从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如处理结果、推理结果、命名实体识别结果、翻译结果等)。示例性的，智能设备可以接收用户输入的一段中文，然后向数据处理设备发起请求，使得数据处理设备对该一段中文进行实体分类，从而得到针对该一段中文的实体处理结果；示例性的，智能设备可以接收用户输入的一段中文，然后向数据处理设备发起请求，使得数据处理设备将该一段中文翻译成英文，从而得到针对该一段中文的英文译文。

在图2a中，数据处理设备可以执行本申请实施例的文本数据处理方法。

图2b示出了另一种自然语言处理系统，在图2b中，智能设备直接作为数据处理设备，该智能设备能够直接接收来自用户的输入并直接由智能设备本身的硬件进行处理，具体过程与图2a相似，可参考上面的描述，在此不再赘述。

在图2b所示的自然语言处理系统中，智能设备可以接收用户的指令，例如智能设备可以接收用户发出的语音，然后生成语音对应的一段文本，然后再由智能设备自身针对该一段文本执行自然语言处理应用(例如文本分类、文本推理、命名实体识别、翻译等)，从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如处理结果、推理结果、命名实体识别结果、翻译结果等)。

在图2b中，智能设备自身就可以执行本申请实施例的文本数据处理方法。

图2c是本申请实施例提供的自然语言处理的相关设备的示意图。

上述图2a和图2b中的智能设备具体可以是图2c中的本地设备301或者本地设备302，图2a中的数据处理设备具体可以是图2c中的执行设备210，其中，数据存储系统250可以存储执行设备210的待处理数据，数据存储系统250可以集成在执行设备210上，也可以设置在云上或其它网络服务器上。

图2a和图2b中的处理器可以通过神经网络模型或者其它模型(例如，基于支持向量机的模型)进行数据训练/机器学习/深度学习，并利用数据最终训练或者学习得到的模型针对文本序列执行自然语言处理应用(例如文本分类、序列标注、阅读理解、文本生成、文本推理、翻译等)，从而得到相应的处理结果。

图3是本申请实施例提供的一种系统100架构的示意图，在图3中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：各个待调度任务、可调用资源以及其他参数。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理(比如进行本申请中神经网络的功能实现)过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则，该相应的目标模型/规则即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。其中，训练数据可以存储在数据库130中，且来自于数据采集设备160采集的训练样本。

在图3中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图3仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图3中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。如图3所示，可以根据训练设备120训练得到神经网络。

本申请实施例还提供的一种芯片，该芯片包括神经网络处理器NPU。该芯片可以被设置在如图3所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图3所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则。

神经网络处理器NPU，NPU作为协处理器挂载到主中央处理器(centralprocessing unit，CPU)(host CPU)上，由主CPU分配任务。NPU的核心部分为运算电路，控制器控制运算电路提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路是二维脉动阵列。运算电路还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)中。

向量计算单元可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(localresponse normalization)等。

在一些实现种，向量计算单元能将经处理的输出的向量存储到统一缓存器。例如，向量计算单元可以将非线性函数应用到运算电路的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器和/或统一存储器、将外部存储器中的权重数据存入权重存储器，以及将统一存储器中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)，用于通过总线实现主CPU、DMAC和取指存储器之间进行交互。

与控制器连接的取指存储器(instruction fetch buffer)，用于存储控制器使用的指令；

控制器，用于调用指存储器中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器，输入存储器，权重存储器以及取指存储器均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，DDRSDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

具体的，请参考图4，为一种文本数据处理方法，包括：

401、获取目标技能的技能请求词和用户说法集合，用户说法集合包括目标技能中每一个意图的至少一个用户说法。

在开发一款技能时，开发者可以为目标技能提供技能请求词。例如，“我要买高铁票”，语音助手识别到“高铁”，作为技能请求词，即可调出“高铁管家”这项技能。需要说明的是，目标技能可以配置有多个不同的技能请求词，也可以只配置有一个技能请求词，此处不做限定。例如，技能“高铁管家”的技能请求词可以为“高铁”“买票”“车票”“旅行”“票价”等到，此处不做限定。

目标技能可以具有多种意图，包括“进入界面”“购票”“退票”“查询订单”等，开发者可以为目标技能中各种意图提供多种不同的用户说法。例如，“退出界面”意图，用户可以输入语音“后退原界面”“回到上一个位置”“退后”“关闭”(即为用户说法)等，即可实现“退出界面”的意图。

用户说法集合包括多个用户说法，每个用户说法都有对应的意图。即每个意图可以通过多个用户说法实现，但是一个用户说法只能实现一个意图。

开发者在开发技能时，可以向语音助手的平台提供相关的文档，该文档中记载了技能请求词和用户说法集合，那么语音助手的平台的工作人员获得了该文档后，可以对技能请求词和用户说法集合的文本语义一致性进行评测。

402、对技能请求词进行筛选。

需要说明的是，在开发者进行开发的过程中，存在一些不合适的技能请求词，例如中英文混合词、品牌企业名称、生僻字词等。因此，可选的，可以在对技能请求词和用户说法集合的文本语义一致性进行评测之前，对技能请求词做出筛选。对于符合相关规则的技能请求词，可以进行技能请求词和用户说法集合的文本语义一致性进行评测，对于不符合相关规则的技能请求词，则可以让开发者重新修改技能请求词，或者直接放弃该技能请求词。

实例性的，可以通过以下两个方式进行筛选。

(1)词形判别。

在该方式中，可以定义一些规则来约束技能请求词的词形，依次作为技能请求词一致性验证方法的数据预处理过程，这个预处理过程也将对后续数据建模过程起到积极作用。

实例性的，以下面3个规则为例。需要说明的是，除了以下3个规则，还可以有更多的规则约束技能请求词的词形，此处不做限定。

规则1、约束技能请求词不能出现中外文混合。

当用户通过语音唤起技能请求词时，中外文混合的情况(例如中英文混合)会加大自动语音识别(automatic speech recognition，ASR)和自然语言处理的难度，对用户习惯和业务也是一种消极作用。因此，在一些可能的实现方式中，可以首先识别出技能请求词是否存在中外文混合的情况，如果存在，那么则该技能请求词无法通过筛选。

规则2、技能请求词的字/词的数量在预设范围内。

例如，技能请求词的词数量不能多于10个词，也不能少于2个词；又例如，技能请求词的字数量不能多于20个字，也不能少于2个字。这样既方便用户记住技能请求词，也方便技能请求词表达目标技能的实际服务范围。

规则3、技能请求词需要通过白名单检测。

例如，若不是腾讯创建的技能，其技能请求词不能包含“微信”、“腾讯”等字词。白名单检测的机制主要是约束技能请求词与企业品牌之间的冲突，防止技能请求词冒用其他企业品牌名来误导用户，这样会极大的伤害用户体验。

以上3个规则仅供示例，还可以有其他规则，此处不做限定。

(2)生僻字判别。

该方式对技能请求词的识别主要用于防止出现难记、难认的技能请求词的情况，这类情况的出现将极大的阻碍用户有效地接触到技能，降低了用户体验。

在一些可能的实现方式中，可以基于统计的自然语言处理方法来解决生僻字的判别。

具体的，可以首先对技能请求词进行N-gram表示的处理(N可以取2或者3)。需要说明的是，N-gram表示可以会将技能请求词表示成多个字数为N的词。例如将“请查询从深圳到北京的高铁票”这段话进行N-gram表示的处理后，得到“请”“查询”“从”“深圳”“到”“北京”“的”“高铁票”这几个词。

然后，将会在一个预先准备好的对话系统文本库中计算这些词的词频-逆文本频率指数(term frequency–inverse document frequency，TF-IDF)值。需要说明的是，TF-IDF的计算方式可以反映一个词对一个文档的语义重要性，一般情况下，就“的”“请”这样的TF-IDF值比较小，而“高铁票”“查询”这样的TF-IDF值比较高。我们在文本处理过程中，一般会预先根据经验和数据集设一个阈值(threshold)，TF-IDF值小于这个阈值的就去掉，TF-IDF值大于这个阈值的就保留。这样可以去掉部分“噪音”的影响。

最后，统计各词的频数。需要说明的是，如果其中某些词的出现频数低于预设值，则这些词组将被认为是生僻字，而技能请求词中被认为含有生僻字，需要修改。另外，还可以保留了一个白名单筛选机制。此白名单罗列了一些常见的复杂词组，如“饕餮”、“耄耋”等明显难记、难认的词，还有一些繁体词组。

综上所述，本申请可以让技能请求词在清晰表达业务服务内容的同时，能简洁、清晰明了的让用户记住技能请求词，以便用户下次使用时唤起服务。以上连各种筛选方式仅为示例，还可以有其他的筛选方式，此处不做限定。

403、确定用户说法集合中每一个意图的用户说法。

需要说明的是，用户说法集合包括多个用户说法，其中每个用户说法都有其所属的意图的。例如，用户说法集合中“查询订单”的意图的用户说法可以有3个：“请帮我查询已经买了的车票”“我买了什么车票”“确定一下我的票”。

在本申请实施例中，当获取用户说法集合后，可以确定用户说法集合中各个用户说法所属的意图，得到用户说法集合中每一个意图的用户说法。

实例性的，假设目标技能具有m个意图，分别为意图1，意图2，…，意图m，那么其中每个意图i的各个用户说法可以表示为wi1,i2,wi3,…,wi(ni)，即意图i具有一共ni个用户说法，即得到用户说法集合中每一个意图的用户说法。

404、串联每一个意图的所有用户说法，得到每一个意图的用户说法串联文本。

例如，户说法集合中“查询订单”的意图的用户说法可以有3个：“请帮我查询已经买了的车票”“我买了什么车票”“确定一下我的票”，那么串联之后，得到“请帮我查询已经买了的车票我买了什么车票确定一下我的票”。续上述203的例子，通过串联意图i具有一共ni个用户说法，得到意图i的用户说法串联文本，其中i＝1,2,……,m。

405、基于深度循环神经网络分别对每一个意图的用户说法串联文本进行文本处理，得到每一个意图的语义隐表示。

在本申请实施例中，深度循环神经网络是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。例如，长短期记忆网络(long short-term memory，LSTM)。下面就以LSTM为例进行说明。

可选的，由于中文里很多意思都是由词组成的，在一些可行的实现方式中，可以对用户说法串联文本进行中文分词。例如，将“请帮我查询已经买了的车票我买了什么车票确定一下我的票”分成了“请”“帮”“我”“查询”“已经”“买”“了”“的”“车票”“我”“买”“了”“什么”“车票”“确定”“一下”“我”“的”“票”。经过上述文本分词后的用户说法串联文本，得到ni个词，可以利用深度循环神经网络生成该用户说法串联文本的摘要，作为每一个意图的语义隐表示。

需要说明的是，在进行文本处理之前，可以先将用户说法串联文本映射到语义空间，得到x_i,j，其中j＝1,2,…，ni。

然后，通过LSTM对意图i的用户说法串联文本进行的文本处理，得到：

h_i,j＝LSTM([h_i,j-1；x_i,j]·W+b)(j＝1,2,…，ni)

其中，h_i,j表示意图i的用户说法串联文本的第j个词的语义隐表示。

需要说明的是，[h_i,j-1；x_i,j]用于串联向量h_i,j-1和x_i,j。h_i,j-1是第j-1个词(上一步)经过LSTM的文本处理后的语义隐表示，W和b是LSTM模块中输入层到隐藏层的神经网络参数。

在本申请实施例中，取j＝ni，即意图i第ni个词(最后一个词)对应的语义隐表示h_i,ni，作为意图i的语义隐表示。

406、基于深度循环神经网络对技能请求词进行文本处理，得到技能请求词的语义隐表示。

在本申请实施例中，首先将技能请求词进行中文分词。例如，“请打开高铁管家”，经过中文分词后，得到“请”“打开”“高铁”“管家”。一般性的，技能请求词的输入表示为(r1，r2，…，rm)，其中，m是技能请求词分词后词的数量。

通过LSTM对分词后的技能请求词进行的文本处理，得到h_r,j(j＝1,2,…,m)，其中，取j＝m，得到h_r,m作为该技能请求词的语义隐表示。

407、计算每一个意图的语义隐表示和技能请求词的语义隐表示的相似度，作为每一个意图的权重。

示例性的，可以通过softmax()函数来计算意图i的语义隐表示和技能请求词的语义隐表示的相似度，作为意图i的权重：

α_i＝softmax(h_i,ni·h_r)

其中，α_i表示意图i的权重,α_i越小，表示意图i对此目标技能的语义影响越小，比如“欢迎”意图。α_i越大，表示意图i对此目标技能的语义的影响越大，需要重点考虑这个意图，例如“高铁票”“订票”和“退票”。这样，也称为基于意图的注意力机制。需要说明的是，Softmax是一种激活函数，用于在神经网络或深度学习中用于分类的函数，其取值在0到1之间，且和为1，表示概率分布的情况。

需要说明的是，在计算意图i的权重时，是通过h_i,ni·hr得到的，那么，技能请求词的语义隐表示即作为一种全局信息来监督意图i，只有意图i的语义隐表示与技能请求词的语义隐表示的点积计算值越大，则其权重越大。

408、根据每一个意图的语义隐表示和权重确定用户说法集合的目标摘要语义。

通过上述步骤205和步骤207确定意图i的语义隐表示h_i,ni和权重α_i后，可以通过以下方式计算用户说法集合的目标摘要语义：

得到h_w后，我们再接一层全连接神经网络，得到用户说法集合的目标摘要语义h_s：

h_s＝F1(h_w·W^s+b^s)

其中，F()为激活函数，例如sigmoid()，W^s和b^s是该全连接层函数的相关参数。

409、根据技能请求词的语义隐表示和目标摘要语义映射到同一个语义空间中，得到第一语义向量和第二语义向量。

通过上述步骤的计算后，得到技能请求词的语义隐表示h_r和用户说法集合的目标摘要语义h_s，那么可以通过以下方式计算二者的匹配度H：

H＝F2(W·[h_r；h_s]+b)

例如，F1()为激活函数，例如sigmoid()。sigmoid()的函数值接近0至1之间，0表示相似度最低，函数值接近1表示相似度很高。

请参考图5，本申请还提出了一种智能设备500，包括：

获取模块510，有获取目标技能的技能请求词和用户说法集合，用户说法集合包括目标技能中每一个意图的至少一个用户说法；

处理模块520，用于根据技能请求词和用户说法集合分别确定每一个意图的语义隐表示和权重；

处理模块520，用于根据每一个意图的语义隐表示和权重确定用户说法集合的目标摘要语义；

处理模块520，用于根据技能请求词和目标摘要语义确定技能请求词和用户说法集合的匹配度。

在一些可能的实现方式中，处理模块520具体用于：

根据用户说法集合分别确定每一个意图的语义隐表示；基于深度循环神经网络对技能请求词进行文本处理，得到技能请求词的语义隐表示；根据每一个意图的语义隐表示和技能请求词的语义隐表示确定每一个意图的权重。

在一些可能的实现方式中，处理模块520具体用于：

确定用户说法集合中每一个意图的用户说法；串联每一个意图的所有用户说法，得到每一个意图的用户说法串联文本；基于深度循环神经网络分别对每一个意图的用户说法串联文本进行文本处理，得到每一个意图的语义隐表示。

在一些可能的实现方式中，处理模块520具体用于：

计算每一个意图的语义隐表示和技能请求词的语义隐表示的相似度，作为每一个意图的权重。

在一些可能的实现方式中，处理模块520具体用于：

根据技能请求词的语义隐表示和目标摘要语义映射到同一个语义空间中，得到第一语义向量和第二语义向量；计算第一语义向量和第二语义向量的相似度，作为技能请求词和用户说法集合的匹配度。

需要说明的是，上述所描述的管理设备由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中管理设备的叙述，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储有程序，该程序执行包括上述方法实施例中记载的部分或全部步骤。

如图6所示，为本申请实施例的又一种计算机设备的结构示意图，该计算机设备可以是上述实施例中的智能设备，该计算机设备可以是服务器，也可以是其他可以实现本申请功能的设备，该计算机设备也可以是终端，例如个人计算机(personal computer，PC)，笔记本电脑，手机等终端设备。

该计算机设备可以包括：处理器601(例如CPU)、存储器602、发送器604和接收器603；发送器604和接收器603耦合至处理器601，处理器601控制发送器604的发送动作和接收器603的接收动作。存储器602可能包含高速RAM存储器，也可能还包括非易失性存储器NVM，例如至少一个磁盘存储器，存储器602中可以存储各种指令，以用于完成各种处理功能以及实现本申请实施例的方法步骤。其中，上述处理器601和存储器602可以采用虚拟化的方式实现。

可选的，本申请实施例涉及的计算机设备还可以包括：电源605、以及通信端口606中的一个或多个，图6中所描述的各器件可以是通过通信总线连接，也可以是通过其他连接方式连接，对此，本申请实施例中不做限定。接收器603和发送器604可以集成在计算机设备的收发器中，也可以为计算机设备上分别独立的收、发天线。通信总线用于实现元件之间的通信连接。上述通信端口606用于实现计算机设备与其他外设之间进行连接通信。

本申请还提供了一种芯片系统，该芯片系统包括处理器，用于支持上述智能设备实现其所涉及的功能，例如，例如接收或处理上述方法实施例中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存计算机设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本数据处理方法，其特征在于，包括：

智能设备获取目标技能的技能请求词和用户说法集合，所述用户说法集合包括所述目标技能中每一个意图的至少一个用户说法；

所述智能设备根据所述技能请求词和所述用户说法集合分别确定所述每一个意图的语义隐表示和权重；

所述智能设备根据所述每一个意图的语义隐表示和权重确定所述用户说法集合的目标摘要语义；

所述智能设备根据所述技能请求词和所述目标摘要语义确定所述技能请求词和所述用户说法集合的匹配度。

2.根据权利要求1所述方法，其特征在于，所述智能设备根据所述技能请求词和所述用户说法集合分别确定所述每一个意图的语义隐表示和权重，包括：

所述智能设备根据所述用户说法集合分别确定所述每一个意图的语义隐表示；

所述智能设备基于深度循环神经网络对所述技能请求词进行文本处理，得到所述技能请求词的语义隐表示；

所述智能设备根据所述每一个意图的语义隐表示和所述技能请求词的语义隐表示确定所述每一个意图的权重。

3.根据权利要求2所述方法，其特征在于，所述智能设备根据所述用户说法集合分别确定所述每一个意图的语义隐表示，包括：

所述智能设备确定所述用户说法集合中所述每一个意图的用户说法；

所述智能设备串联所述每一个意图的所有用户说法，得到所述每一个意图的用户说法串联文本；

所述智能设备基于深度循环神经网络分别对所述每一个意图的用户说法串联文本进行文本处理，得到所述每一个意图的语义隐表示。

4.根据权利要求2或3所述方法，其特征在于，所述智能设备根据所述每一个意图的语义隐表示和所述技能请求词的语义隐表示确定所述每一个意图的权重，包括：

所述智能设备计算所述每一个意图的语义隐表示和所述技能请求词的语义隐表示的相似度，作为所述每一个意图的权重。

5.根据权利要求2-4中任一项所述方法，其特征在于，所述智能设备根据所述技能请求词和所述目标摘要语义确定所述技能请求词和所述用户说法集合的匹配度，包括：

所述智能设备根据所述技能请求词的语义隐表示和所述目标摘要语义映射到同一个语义空间中，得到第一语义向量和第二语义向量；

所述智能设备计算所述第一语义向量和所述第二语义向量的相似度，作为所述技能请求词和所述用户说法集合的匹配度。

6.一种智能设备，其特征在于，包括：

获取模块，有获取目标技能的技能请求词和用户说法集合，所述用户说法集合包括所述目标技能中每一个意图的至少一个用户说法；

处理模块，用于根据所述技能请求词和所述用户说法集合分别确定所述每一个意图的语义隐表示和权重；

所述处理模块，用于根据所述每一个意图的语义隐表示和权重确定所述用户说法集合的目标摘要语义；

所述处理模块，用于根据所述技能请求词和所述目标摘要语义确定所述技能请求词和所述用户说法集合的匹配度。

7.根据权利要求6所述智能设备，其特征在于，所述根据所述技能请求词和所述用户说法集合分别确定所述每一个意图的语义隐表示和权重，包括：

根据所述用户说法集合分别确定所述每一个意图的语义隐表示；

基于深度循环神经网络对所述技能请求词进行文本处理，得到所述技能请求词的语义隐表示；

根据所述每一个意图的语义隐表示和所述技能请求词的语义隐表示确定所述每一个意图的权重。

8.根据权利要求7所述智能设备，其特征在于，所述根据所述用户说法集合分别确定所述每一个意图的语义隐表示，包括：

确定所述用户说法集合中所述每一个意图的用户说法；

串联所述每一个意图的所有用户说法，得到所述每一个意图的用户说法串联文本；

基于深度循环神经网络分别对所述每一个意图的用户说法串联文本进行文本处理，得到所述每一个意图的语义隐表示。

9.根据权利要求7或8所述智能设备，其特征在于，所述根据所述每一个意图的语义隐表示和所述技能请求词的语义隐表示确定所述每一个意图的权重，包括：

计算所述每一个意图的语义隐表示和所述技能请求词的语义隐表示的相似度，作为所述每一个意图的权重。

10.根据权利要求7-9中任一项所述智能设备，其特征在于，所述根据所述技能请求词和所述目标摘要语义确定所述技能请求词和所述用户说法集合的匹配度，包括：

根据所述技能请求词的语义隐表示和所述目标摘要语义映射到同一个语义空间中，得到第一语义向量和第二语义向量；

计算所述第一语义向量和所述第二语义向量的相似度，作为所述技能请求词和所述用户说法集合的匹配度。

11.一种智能设备，其特征在于，包括：

处理器、存储器和收发器，其中，所述存储器存储有程序代码，所述处理器调用所述存储器中存储的程序代码，使得所述智能设备执行如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，包括程序，当其在计算机上运行时，使得计算机执行如权利要求1至5中任一项所述的方法。

13.一种计算机程序产品，其特征在于，存储一个或多个计算机执行指令，当计算机执行指令被处理器执行时，处理器执行如权利要求1至5中任一项所述的方法。