CN111666766A

CN111666766A - 数据处理方法、装置和设备

Info

Publication number: CN111666766A
Application number: CN201910164814.1A
Authority: CN
Inventors: 包祖贻; 李辰; 刘恒友; 徐光伟; 李林琳
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2020-09-15
Anticipated expiration: 2039-03-05
Also published as: CN111666766B

Abstract

本发明实施例提供一种数据处理方法、装置和设备，该方法包括：接收属于第一领域的语句；根据已训练好的语言模型获取语句对应的语义表示向量序列；将该语义表示向量序列输入到已训练好的序列标注模型，以得到语句中包含的命名实体；根据命名实体对语句进行相应处理；其中，语言模型是根据第一领域对应的第一样本集和第二领域对应的第二样本集进行无监督训练得到的，序列标注模型是根据第二领域对应的第三样本集进行有监督训练得到的。由于基于语言模型提取到的语句中各个词语的语义表示具有跨领域消歧的能力，以该语言模型作为桥梁，将属于第二领域的海量语料样本迁移到第一领域中以训练序列标注模型，可以提高命名实体识别结果的准确性。

Description

数据处理方法、装置和设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种数据处理方法、装置和设备。

背景技术

命名实体识别是自然语言处理领域中的一个基本的问题，属于序列标注问题的范畴。简单来说命名实体识别问题就是将一段文本序列中包含的我们感兴趣的命名实体识别出来并加以归类，例如人名，地名和机构名等。命名实体识别技术是关键词抽取，信息检索，机器翻译，问答系统等多种自然语言处理应用场景必不可少的组成部分。

由于命名实体识别属于序列标识问题的范畴，因此，可以通过训练序列标注模型，以该序列标注模型对输入的语句进行命名实体标注从而实现识别该语句中包含的命名实体的目的。目前，一般会针对特定的某个应用领域训练用于该应用领域的序列标注模型，而且，序列标注模型的训练多采用有监督训练的方式进行。在有监督训练方式下，需要人工预先进行大量语料样本的标注，即获取属于某个应用领域的若干语料样本，根据设定的命名实体标签集合对每个语料样本中包含的词语进行标注，以标记其中的某个词语是否对应于某个命名实体标签。

实际应用中，针对某些应用领域，能够获得的语料样本数量可能较少，而样本数量不充分会导致训练得到的序列标注模型的准确性较差，从而最终影响命名实体识别结果的准确性。

发明内容

本发明实施例提供一种数据处理方法、装置和设备，用以提高命名实体识别结果的准确性。

第一方面，本发明实施例提供一种数据处理方法，该方法包括：

接收属于第一领域的语句；

根据语言模型获取所述语句对应的语义表示向量序列；

将所述语句对应的语义表示向量序列输入到序列标注模型，以得到所述语句中包含的命名实体；

根据所述命名实体对所述语句进行相应处理；

其中，所述语言模型是根据所述第一领域对应的第一样本集和第二领域对应的第二样本集进行训练得到的，所述序列标注模型是根据所述第二领域对应的第三样本集进行训练得到的。

第二方面，本发明实施例提供一种数据处理装置，该装置包括：

接收模块，用于接收属于第一领域的语句；

识别模块，用于根据语言模型获取所述语句对应的语义表示向量序列；将所述语句对应的语义表示向量序列输入到序列标注模型，以得到所述语句中包含的命名实体；

处理模块，用于根据所述命名实体对所述语句进行相应处理；

第三方面，本发明实施例提供一种电子设备，包括处理器、存储器，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少实现上述第一方面中的数据处理方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现上述第一方面中的数据处理方法。

在本发明实施例中，将能够获得少量被人工标注的语料样本的领域称为第一领域，相对的，将能够获得海量被人工标注的语料样本的领域称为第二领域。当需要训练应用于第一领域的序列标注模型时，为保证序列标注模型的准确性，可以借助第二领域的语料样本进行该序列标注模型的训练。但是，由于不同领域所关注的命名实体标签是有差异的，因此，为了能够使得基于第二领域的语料样本训练出的序列标注模型能够适用于第一领域，通过第一领域和第二领域的语料样本共同训练一个跨领域的语言模型。由于这个语言模型可以得到语句的上下文信息，使得基于该语言模型提取到的语句中各个词语的语义表示(语义表示向量)具有跨领域消歧的能力。从而，以该语言模型作为桥梁，可以将属于第二领域的海量被标注的语料样本迁移到第一领域中以进行对应于第一领域的序列标注模型的训练，以有助于提高序列标注模型亦即命名实体识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一示例性实施例提供的一种数据处理方法的流程图；

图2为一示例性实施例提供的命名实体识别过程的原理示意图；

图3为一示例性实施例提供的语言模型训练方法的流程图；

图4为一示例性实施例提供的语言模型训练过程的原理示意图；

图5为一示例性实施例提供的一种序列标注模型训练方法的流程图；

图6为一示例性实施例提供的序列标注模型训练过程的原理示意图；

图7为一示例性实施例提供的一种数据处理装置的结构示意图；

图8为与图7所示实施例提供的数据处理装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式。除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

在对本发明各实施例提供的数据处理方法的执行过程进行详细说明之前，先对该数据处理方法的核心思路进行说明。

命名实体识别技术已经先后在很多应用领域内被使用，对于这些应用领域，我们可以按照被标注的语料样本的多少划分为两大类：高资源领域(比如新闻领域等)和低资源领域(比如医疗领域等)。顾名思义，高资源领域是指具有海量的被人工标注的语料样本的领域，而低资源领域是指具有少量的被人工标注的语料样本的领域。其中，这里的人工标注是指按照不同应用领域所关注的标签种类对语料样本中包含的词语进行命名实体标注。

对任一文本进行命名实体识别往往是基于序列标注模型来实现的。由于高资源领域具有海量的被人工标注的语料样本，从而基于该海量语料样本进行训练(比如有监督训练)得到的序列标注模型往往具有较佳的准确性。相反地，由于低资源领域仅具有少量的被人工标注的语料样本，从而基于该少量语料样本进行训练得到的序列标注模型的准确性往往较差。

另外，在采用有监督训练方式时，对所有应用领域都标注大量语料样本的代价是非常高的，这意味着在很多应用领域上可能并不能得到足够大的被标注的语料样本。

基于此，发明人想到：是否可以利用像新闻领域这种高资源领域中的丰富的、被标注的语料样本来辅助低资源领域对应的序列标注模型的学习即训练。

从而，本文就可以仅通过大量的无标注的语料样本训练一个跨领域的语言模型，使用这个语言模型可以提取到语句中各个词语的语义表示(该语义表示以向量的形式体现，因此可以称为语义表示向量)。由于该语言模型可以得到语句的上下文信息即语句中各个词语的上下文信息，所以这个语义表示具有领域消歧的能力。比如在生鲜领域的“这个苹果很新鲜”和在电子产品领域的“这个苹果手机好便宜”中的苹果可以根据其上下文进行词义消歧。以该语言模型作为桥梁，将高资源领域的海量被标注的语料样本迁移到低资源领域，以辅助进行低资源领域对应的序列标注模型的训练。如此，可以训练得到一个跨领域的序列标注模型，以用于对低资源领域中需要进行命名实体识别的语句进行命名实体标注。

以上对本文中数据处理方法的核心思路进行了介绍。下面为便于理解，也对实体识别的含义进行举例说明。

命名实体识别的任务是识别句子中出现的命名实体，通常识别人名、地名、机构名等命名实体。假设有如下句子“我现在在北京的北医三院”，需要识别其中包括的人名、地名、机构名。以序列标注的角度看待实体识别问题，首先将该句子看作是由一个个汉字组成的序列，然后需要定义标签集合，假设标签集合LabelSet如下：

LabelSet＝{BA,MA,EA,BO,MO,EO,BP,MP,EP,O},

其中，BA代表这个汉字是地址首字，MA代表这个汉字是地址中间字，EA代表这个汉字是地址的尾字；BO代表这个汉字是机构名的首字，MO代表这个汉字是机构名称的中间字，EO代表这个汉字是机构名的尾字；BP代表这个汉字是人名首字，MP代表这个汉字是人名中间字，EP代表这个汉字是人名尾字，而O代表这个汉字不属于命名实体。

有了输入汉字序列以及标签集合，接下来就是由已经训练好的序列标注模型对其中的每个汉字进行分类，即为其中的每个汉字打上标签集合中的标签，从而该句子中的命名实体就被识别出来了。

上述句子的序列标注结果为：我/O现/O在/O在/O北/BA京/EA的/O北/BO医/MO三/MO院EO

从而，该句子的命名实体识别结果为：地名——北京，机构名——北医三院。

下面结合以下的各个实施例对本文提供的数据处理方法的执行过程进行说明。该数据处理方法可以由一电子设备来执行，该电子设备可以是诸如PC机、笔记本电脑等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为主机集群承载的虚拟服务器，或者也可以为云服务器。

图1为一示例性实施例提供的一种数据处理方法的流程图，如图1所示，该方法包括如下步骤：

101、接收属于第一领域的语句。

本实施例中，第一领域是指低资源领域，比如可以是医疗领域、零售领域等。

实际应用中，用户可以在第一领域对应的客户端中，通过人机交互接口输入上述语句。比如，当第一领域为零售领域时，对应的客户端可以是购物App或者网页，而其中的人机交互接口比如可以是客户端中集成的客服系统入口、检索输入框等。

102、根据语言模型获取该语句对应的语义表示向量序列，其中，语言模型是根据第一领域对应的第一样本集和第二领域对应的第二样本集进行训练得到的。

其中，第二领域是指高资源领域，比如是新闻领域等。

其中，语言模型可以是根据第一领域对应的第一样本集和第二领域对应的第二样本集进行无监督训练得到的。当然，也可以进行有监督训练以得到该语言模型。

其中，第一样本集由若干属于第一领域的未被标注的语料样本构成，第二样本集由若干属于第二领域的未被标注的语料样本构成。可以理解的是，该未被标注是指未对语料样本进行标签的标注。

本文中，语言模型，也可以称为统计语言模型。在语言模型中，一个关键的问题是估计如下概率：P(Wt|W1:(t-1))，即在给定历史信息ht＝W1:(t-1)的条件下，在t时刻(或位置)，词典V中的每个词语的出现概率。这个问题可以转换为一个类别数为|V|的多类分类问题。

其中，|V|表示词典V中包含的词语数量，W1:(t-1)表示时刻1至(t-1)分别出现的词语，Wt表示预测的t时刻对应的词语。

本实施例中，由于采用第一样本集和第二样本集对语言模型进行训练，因此，上述词典V即可以由第一样本集和第二样本集对应的若干词语构成，那么可以理解的是，此时，在给定历史信息ht＝W1:(t-1)的条件下，该语言模型需预测由第一样本集和第二样本集对应的若干词语所构成的词典V中各个词语的出现概率。也就是说，该语言模型具有跨领域的特点。

另外，在该语言模型中，可以实现对输入文本的语义分析，具体地，是根据文本中包含的各词语的上下文信息以提取出各词语的语义表示向量。其中，在模型训练过程中，该输入文本是指第一样本集和第二样本集中的语料样本；在模型使用过程中，该输入文本是指上述步骤101中的语句。

以模型训练过程为例，语言模型包括输入层、隐层和输出层，其中，输入层可以将语料样本中包含的各个词语转换为词向量，隐层对输入的各个词向量进行语义分析(具体是结合各个词语的上下文信息进行语义分析)，得到对应的各语义表示向量，输出层根据各语义表示向量进行上述概率的计算以及计算语言模型此时对应的困惑度。

值得说明的是，在模型使用过程中，步骤101中的语句可以仅经过语言模型的输入层和隐层的处理，输出该语句对应的语义表示向量序列，该语义表示向量序列进而输入到序列标注模型中进行命名实体标注处理。其中，该语义表示向量序列由该语句中各词语各自对应的语义表示向量构成。

103、将该语句对应的语义表示向量序列输入到序列标注模型，以得到该语句中包含的命名实体，其中，序列标注模型是根据第二领域对应的第三样本集进行训练得到的。

本实施例中并不对序列标注模型的具体实现形式进行限定，可以采用目前已经广泛使用的任一种序列标注模型。只是需要强调的是，该序列标注模型用于对属于第一领域即低资源领域的文本进行命名实体识别，但是该序列标注模型却是基于第二领域即高资源领域的被标注的海量语料样本进行训练(比如有监督训练)获得的。

之所以能够基于第二领域的被标注的海量语料样本训练获得用于对属于第一领域的文本进行命名实体识别的序列标注模型，正是因为上述语言模型可以根据文本中词语的上下文信息提取出不同领域的文本中各词语的语义表示向量，从而可以实现同一词语在不同领域的语义消歧能力。由此可以理解的是，上述第三样本集中的语料样本需要先经过已经训练好的语言模型进行语义分析处理，之后将其输出的语义表示向量序列作为序列标注模型的输入以对序列标注模型进行训练。

值得说明的是，本实施例中，输入到序列标注模型的是输入语句中各词语的语义表示向量，这就是说，作为序列标注模型的输入的线性序列并不对应于语句中的一个个独立的汉字，而是对应于该语句中包含的一个个词语，而且是结合其上下文准确理解了语义的词语。

通过跨领域的语言模型以及高资源领域的海量语料样本实现了对低资源领域所需的序列标注模型的建模，可以保证该序列标注模型具有良好的收敛性，从而亦保证基于该序列标注模型进行的实体识别结果的准确性。

104、根据获得的命名实体对该语句进行相应处理。

在通过序列标注模型得到语句中包含的命名实体之后，可以基于该命名实体识别结果对该语句进行相应处理。

上述步骤101至103的命名实体识别过程可以适用于多种不同的实际应用场景中，比如智能问答场景、信息检索场景等等。

以信息检索场景为例，此时，根据识别出的命名实体对语句进行相应处理，可以实现为：以该命名实体作为检索词进行检索，输出与检索词对应的检索结果。

比如，假设语句为“推荐一下治疗甲流的药”，且假设标签集合中包括表示病名的标签，则识别出的该语句中包含的命名实体为：病名——甲流，以甲流作为检索词进行信息检索，可能会得到与治疗甲流的药相关的多条检索结果。

再以智能问答场景为例，此时，根据识别出的命名实体对语句进行相应处理，可以实现为：根据命名实体确定用户意图，将语句提供至与用户意图对应的服务进行相应处理。或者，可选地，也可以在确定出用户意图之后，根据已经建立的问答语库直接获取与该用户意图对应的应答信息。

比如，假设语句为“我想看看ONLY的连衣裙”，且假设标签集合中包括表示品牌和服装类型的标签，则识别出的该语句中包含的命名实体为：品牌——ONLY，服装类型——连衣裙，此时，确定用户意图是购买ONLY品牌的连衣裙，从而，可以将该语句提交给数据筛选服务进行处理，以从商品数据库中筛选出符合该用户意图的商品。

前文提到，语言模型包括输入层、隐层和输出层。输入层可以将输入的语句转换为词向量序列，即将该语句中包含的各个词语转换为词向量；隐层可以对词向量序列进行语义分析，得到每个词语对应的语义表示向量亦即得到语句对应的语义表示向量序列；输出层根据语义表示向量序列预测出各词语的出现概率以及该语句对应的概率。

为实现上述功能，可选地，输入层和输出层可以包括词向量矩阵，该词向量矩阵可以是根据第一样本集和第二样本集中包含的语料样本形成的，形成过程会在后续实施例中说明。该词向量矩阵中的每个词向量对应于一个词语，从而，当得到输入的语句中包含的各个词语后，可以查询该词向量矩阵，将各个词语转换为对应的词向量。

另外，隐层可以由至少一层神经网络组成，该神经网络可以为如下任一种：卷积神经网络(Convolutional Neural Network)、循环神经网络(Recurrent Neural Network，简称RNN)、双向循环神经网络(Bi-directional Recurrent Neural Network，简称Bi-RNN)、长短期记忆(Long Short-Term Memory，简称LSTM)网络、双向长短期记忆(Bi-directionalLong Short-Term Memory，简称Bi-LSTM)网络。

基于上述语言模型的架构，结合图2，简单示意下使用语言模型和序列标注模型对输入的语句进行命名实体识别的过程：

假设输入的语句表示为Z＝{我，爱，北京，天安门}，其中，该语句假设为已经经过分词处理得到各个词语。另外，假设需要识别的命名实体为地名、机构名，设置标签集合LabelSet＝{O,M,B}，其中，O表示这个词语不是命名实体，B表示这个词语是地名、M表示这个词语是机构名。

由于在对输入的语句进行命名实体识别时，仅使用到语言模型的输入层和隐层，因此，针对语言模型，图2中仅示意了输入层和隐层，其中，输入层以词向量矩阵表示，隐层以Bi-LSTM网络表示，Bi-LSTM网络可以提取词语的上下文信息，能够更加准确地理解词语的语义。

语句Z输入到语言模型的输入层后，根据词向量矩阵将语句Z中的各个词语转换为对应的词向量，得到词向量序列E＝[e1,e2,e3,e4]，其中，e1,e2,e3,e4是分别对应于我，爱，北京，天安门这四个词语的词向量。词向量序列E输入到隐层后，经过隐层的语义分析处理，输出语义表示向量序列H＝[Hl1⊕Hr1⊕Hl2⊕Hr2⊕Hl3⊕Hr3⊕Hl4⊕Hr4]，其中，⊕代表拼接符合，Hl1,Hl2,Hl3和Hl4是前向LSTM网络输出的与词向量序列E中各词向量对应的语义表示向量；Hr1,Hr2,Hr3和Hr4是后向LSTM网络输出的与词向量序列E中各词向量对应的语义表示向量，Bi-LSTM网络由前向LSTM网络和后向LSTM网络组成。

可以理解的是，Hl1和Hr1均对应于词语“我”；Hl2和Hr2均对应于词语“爱”；Hl3和Hr3均对应于词语“北京”；Hl4和Hr4均对应于词语“天安门”。

语义表示向量序列H输入到序列标注模型，该序列标注模型也可以通过LSTM网络、Bi-LSTM网络等来实现。如图2中所示，序列标注模型结合标签集合LabelSet＝{O,M,B}对语义表示向量序列H进行序列标注的最终结果为：我/O爱/O北京/B天安门/M，也就是说，语句Z中包含的命名实体为：地名——北京，机构名——天安门。

下面对语言模型的训练过程进行说明。

前文提到，语言模型是根据第一领域即低资源领域对应的第一样本集以及第二领域即高资源领域对应的第二样本集进行无监督训练得到的。因此，在对语言模型进行训练的过程中，针对任一迭代轮次中，可以分别随机从第一样本集和第二样本集中选出一个语料样本，假设从第一样本集中选择出第一语料样本，从第二样本集中选择出第二语料样本，从而以第一语料样本和第二语料样本分别对语言模型进行训练，最终根据语言模型的输出概率计算获得第一语料样本对应的第一困惑度和第二语料样本对应的第二困惑度。继而根据第一困惑度和第二困惑度在反向传播过程中对语言模型进行参数调整。困惑度计算的过程采用现有技术实现，在此不赘述。

上述概括介绍了语言模型的训练过程，下面结合图3所示实施例对该训练过程的详细执行流程进行说明。

图3为一示例性实施例提供的语言模型训练方法的流程图，如图3所示，该方法可以包括如下步骤：

301、从第一领域对应的第一样本集中选出第一语料样本，从第二领域对应的第二样本集中选出第二语料样本。

302、通过输入层将第一语料样本转换为第一词向量序列，将第二语料样本转换为第二词向量序列。

其中，第一语料样本是随机从第一领域对应的第一样本集中选出的，第二语料样本是随机从第二领域对应的第二样本集中选出的。

如前文所述，语言模型包括输入层、隐层和输出层，因此，第一语料样本和第二语料样本首先经过输入层的处理：将第一语料样本中包含的各词语转换为词向量，从而得到第一词向量序列，以及，将第二语料样本中包含的各词语转换为词向量，从而得到第二词向量序列。

输入层可以实现为一个词向量矩阵，根据该词向量矩阵可以实现上述转换。

具体来说，对第一样本集和第二样本集中包含的各语料样本进行分词处理，可以得到若干词语，进而，可以根据每个词语的出现次数对该若干词语进行排序，比如按照出现次数由多到少进行排序，假设总共有N个词语，从而可以生成由顺序排序的N个词语构成的词语表。另外，针对每个词语，可以根据现有的词向量转换算法进行词向量转换，每个词语假设被表示为一个M维的行向量，从而最终会得到一个N*M维的词向量矩阵，其中，该词向量矩阵的第i行词向量对应于词语表中的第i个词语。

基于此，可以基于该词向量矩阵与词语表的对应关系，将输入文本中任一词语转换为对应的词向量。

303、通过隐层分别对第一词向量序列和第二词向量序列进行语义分析处理，以得到第一词向量序列对应的第一语义表示向量序列以及第二词向量序列对应的第二语义表示向量序列。

304、根据第一语义表示向量序列与第二语义表示向量序列之间的距离，确定与第一语义表示向量序列和第二语义表示向量序列对应的空间约束损失函数。

本实施例中，可以对不同领域的语义表示增加分布空间约束，使得作为隐层的神经网络学习得到的语义表示在不同领域是相似的或者说在空间分布上具有一致性，亦即有跨领域的特性。

而且，定义一种损失函数，称为空间约束损失函数，用于度量不同领域的语义表示的差异性。以第一语义表示向量序列和第二语义表示向量序列为例，该损失函数可以通过第一语义表示向量序列与第二语义表示向量序列之间的距离来度量这种差异性。该距离的计算方式在后续实施例中说明。

另外，值得说明的是，实际应用中，隐层可以包括一个或多个神经网络，比如可以包括一个Bi-LSTM网络，也可以包括级联的多个Bi-LSTM网络。

以神经网络被实现为Bi-LSTM网络为例，当包含多个Bi-LSTM网络时，前一个Bi-LSTM网络的输出作为后一个Bi-LSTM网络的输入，最后一个Bi-LSTM网络的输出被输入到输出层。

而且，当包含多个Bi-LSTM网络时，每个Bi-LSTM网络都会输出对应于第一语料样本和第二语料样本的两个语义表示向量序列，从而，可选地，可以针对每个Bi-LSTM网络输出的两个语义表示向量序列都计算两者间的距离，从而得到这两个语义表示向量序列对应的空间约束损失函数。如此，当包含N个Bi-LSTM网络时，将会输出N个空间约束损失函数。当然，也可以仅针对其中的部分Bi-LSTM网络的输出进行空间约束损失函数的计算。

305、通过输出层确定第一语义表示向量序列对应的第一困惑度以及第二语义表示向量序列对应的第二困惑度。

306、根据第一困惑度、第二困惑度以及空间约束损失函数对语言模型进行参数调整。

本实施例中，由于增加了上述分布空间约束，在对语言模型进行参数调整时，除了基于根据语言模型的输出概率计算得到的第一困惑度和第二困惑度，还基于上述空间约束损失函数。

可选地，可以将第一困惑度、第二困惑度以及空间约束损失函数叠加在一起作为完整的损失函数，在反向传播过程中对语言模型进行参数调整。

以第一领域为医疗领域，第二领域为新闻领域为例，首先使用大量新闻和医疗领域的无标注的文本通过上述训练过程训练语言模型，并在训练过程中对新闻和医疗领域文本的语义表示进行约束，使得这个语义表示可以在两个领域中是通用的。比如新闻领域文本“爱因斯坦的理论被证明是有效的”里的爱因斯坦，和医疗领域文本“弗洛伊德的潜意识理论被大家广泛接受”里的弗洛伊德在语言模型里的语义表示是相近的。然后依托于这个通用的语义表示(即可以跨领域的语言模型)，使用新闻领域的标注文本训练序列标注模型(可以识别[爱因斯坦]是人名)，这个训练好的序列标注模型就可以直接迁移到医疗领域上使用，即对医疗相关的文本数据进行命名实体识别。

为便于更加直观地理解语言模型的训练过程，下面结合图4示例性说明。

假设来自第一领域的第一语料样本表示为句子A，来自第二领域的第二语料样本表示为句子B，其中，句子A＝{wa1,wa2,…},句子B＝{wb1,wb2,…}，wa1,wa2是句子A中包含的词语，wb1,wb2是句子B中包含的词语。可以理解的是，句子A中包含的词语的数量与句子B中包含的词语的数量可能相同或不同。

句子A和句子B均输入语言模型的输入层，输入层表示为词向量矩阵，从而，通过该词向量矩阵可以将句子A中包含的各词语转换为词向量，将句子B中包含的各词语转换为词向量。

假设句子A对应的词向量序列为EA＝[ea1,ea2,…],句子B对应的词向量序列为EB＝[eb1,eb2,…]。

图4中假设语言模型的隐层由两个Bi-LSTM网络组成。

EA＝[ea1,ea2,…]和EB＝[eb1,eb2,…]分别输入到第一个Bi-LSTM网络，得到的语义表示向量序列分别表示为：HA_1＝[Hla1_1⊕Hra1_1⊕Hla2_1⊕Hra2_1⊕…],HB_1＝[Hlb1_1⊕Hrb1_1⊕Hlb2_1⊕Hrb2_1⊕…]。

其中，HA_1是由[Hla1_1,Hla2_1,…]和[Hra1_1,Hra2_1,…]拼接在一起得到的。其中，[Hla1_1,Hla2_1,…]是第一个Bi-LSTM网络中的前向LSTM网络对EA＝[ea1,ea2,…]进行处理得到的，Hla1_1和Hla2_1是分别对应于ea1和ea2的语义表示向量。[Hra1_1,Hra2_1,…]是第一个Bi-LSTM网络中的后向LSTM网络对EA＝[ea1,ea2,…]进行处理得到的，Hra1_1和Hra2_1是分别对应于ea1和ea2的语义表示向量。同理可以理解HB_1的含义。

进而计算HA_1与HB_1之间的距离，以确定HA_1与HB_1对应的空间约束损失函数

其中，|HA_1|表示HA_1中包含的向量个数，|HB_1|表示HB_1中包含的向量个数，distance表示距离度量符，用于实现对属于HA_1中的任一语义表示向量与属于HB_1中的任一语义表示向量之间的距离计算，该距离度量符比如可以对应于欧式距离、余弦距离等。

另外，HA_1与HB_1作为第二个Bi-LSTM网络的输入，继续经过第二个Bi-LSTM网络的处理，假设第二个Bi-LSTM网络输出的两个语义表示向量序列分别表示为HA_2与HB_2。这两个语义表示向量序列的含义以及计算得到对应的空间约束损失函数loss_reg_2的过程与HA_1、HB_1的含义以及空间约束损失函数loss_reg_1的计算过程类似，不再赘述。

第二个Bi-LSTM网络输出的HA_2与HB_2分别输入到输出层。如图4中所示意的，可以使用上述词向量矩阵作为输出层进行softmax的参数矩阵，以计算得到分别对应于句子A和句子B的第一困惑度和第二困惑度。

从而，可以使用第一困惑度、第二困惑度、loss_reg_1和loss_reg_2的加和结果在反向传播过程中对语言模型进行参数调整。

通过上述过程，经过大量语料样本的训练，可以得到训练好的语言模型，该语言模型继而可以用于对序列标注模型的训练。

图5为一示例性实施例提供的序列标注模型训练过程的原理示意图，如图5所示，该方法可以包括如下步骤：

501、从第二领域对应的第三样本集中选择第三语料样本。

第三语料样本是第三样本集中的任一个。

如前文所述，第二领域为高资源领域，由于第三样本集是用于训练序列标注模型的，而序列标注模型需要进行有监督训练，因此，第三样本集中的各语料样本是被进行标注过的。第二领域作为高资源领域，往往已经存在很多被标注的语料样本，因此可以容易地获得第三样本集。

可以理解的是，这里所说的标注，是指对语料样本中的各词语进行命名实体的标注。

502、根据语言模型获取第三语料样本对应的语义表示向量序列。

由前文对语言模型的介绍可知，第三语料样本经过语言模型的输入层的处理，将第三语料样本中包含的各词语转换为词向量，进而，将得到的词向量序列输入到隐层，经过隐层的语义分析处理后得到对应的语义表示向量序列，进而将语义表示向量序列输入到序列标注模型中对序列标注模型进行训练。

503、以第三语料样本对应的语义表示向量序列对序列标注模型进行训练。

为便于理解，结合图6对序列标注模型的训练过程进行示例性说明。

假设第三语料样本表示为语句X，语言模型中包括图中示意的词向量矩阵(对应于输入层)和两个Bi-LSTM网络(对应于隐层)。

语句X输入到语言模型的输入层后，根据词向量矩阵将语句X中的各个词语转换为对应的词向量，得到词向量序列EX。词向量序列EX输入到第一个Bi-LSTM网络后，输出的语义表示向量序列为HX_1，HX_1输入到第二个Bi-LSTM网络后输出语义表示向量序列HX_2，进而将HX_2输入到序列标注模型，得到命名实体识别结果。

以下将详细描述本发明的一个或多个实施例的数据处理装置。本领域技术人员可以理解，这些数据处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图7为本发明实施例提供的一种数据处理装置的结构示意图，如图7所示，该装置包括：接收模块11、识别模块12、处理模块13。

接收模块11，用于接收属于第一领域的语句。

识别模块12，用于根据语言模型获取所述语句对应的语义表示向量序列；将所述语句对应的语义表示向量序列输入到序列标注模型，以得到所述语句中包含的命名实体。

处理模块13，用于根据所述命名实体对所述语句进行相应处理。

可选地，所述处理模块13可以用于：以所述命名实体作为检索词进行检索；输出与所述检索词对应的检索结果。

可选地，所述处理模块13可以用于：根据所述命名实体确定用户意图；将所述语句提供至所述用户意图对应的服务进行相应处理。

可选地，所述语言模型包括输入层、隐层和输出层，所述输入层和所述输出层由设定的词向量矩阵构成。此时，所述识别模块12可以用于：通过所述输入层将所述语句转换为词向量序列；通过所述隐层对所述词向量序列进行语义分析处理，以得到所述语句对应的语义表示向量序列。

可选地，所述隐层由至少一层神经网络组成，所述神经网络为如下任一种：卷积神经网络、循环神经网络、双向循环神经网络、长短期记忆网络、双向长短期记忆网络。

可选地，所述装置还可以包括：第一训练模块，用于从所述第一样本集中选择第一语料样本，从所述第二样本集中选择第二语料样本；以所述第一语料样本和所述第二语料样本对所述语言模型进行训练，以获得所述第一语料样本对应的第一困惑度和所述第二语料样本对应的第二困惑度；根据所述第一困惑度和所述第二困惑度对所述语言模型进行参数调整。

可选地，所述第一训练模块具体可以用于：通过所述输入层将所述第一语料样本转换为第一词向量序列，将所述第二语料样本转换为第二词向量序列；通过所述隐层分别对所述第一词向量序列和所述第二词向量序列进行语义分析处理，以得到所述第一词向量序列对应的第一语义表示向量序列以及所述第二词向量序列对应的第二语义表示向量序列；根据所述第一语义表示向量序列与所述第二语义表示向量序列之间的距离，确定与所述第一语义表示向量序列和所述第二语义表示向量序列对应的空间约束损失函数；通过所述输出层确定所述第一语义表示向量序列对应的第一困惑度以及所述第二语义表示向量序列对应的第二困惑度；根据所述第一困惑度、所述第二困惑度以及所述空间约束损失函数对所述语言模型进行参数调整。

可选地，所述隐层由至少一层神经网络组成；由每层神经网络输出的两个语义表示向量序列之间的距离，确定所述两个语义表示向量序列对应的空间约束损失函数，所述两个语义表示向量序列分别对应于所述第一语料样本和所述第二语料样本。

可选地，所述装置还可以包括：第三训练模块，用于从所述第三样本集中选择第三语料样本；根据语言模型获取所述第三语料样本对应的语义表示向量序列；以所述第三语料样本对应的语义表示向量序列对所述序列标注模型进行训练。

图7所示装置可以执行前述各实施例提供的方法，本实施例未详细描述的部分，可参考前述实施例的相关说明，在此不再赘述。

在一个可能的设计中，上述图7所示的数据处理装置的结构可实现为一电子设备，该电子设备可以是终端设备也可以是服务器，如图8所示，该电子设备可以包括：处理器21、存储器22。其中，所述存储器22上存储有可执行代码，当所述可执行代码被所述处理器21执行时，使所述处理器21可以执行如前述各实施例中提供的数据处理方法。

实际上，该电子设备中也可以包括通信接口23，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器可以执行如前述各实施例中提供的数据处理方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，包括：

接收属于第一领域的语句；

根据语言模型获取所述语句对应的语义表示向量序列；

根据所述命名实体对所述语句进行相应处理；

2.根据权利要求1所述的方法，所述语言模型是根据所述第一领域对应的第一样本集和第二领域对应的第二样本集进行无监督训练得到的，所述序列标注模型是根据所述第二领域对应的第三样本集进行有监督训练得到的。

3.根据权利要求1所述的方法，包括：

以所述命名实体作为检索词进行检索；

输出与所述检索词对应的检索结果。

4.根据权利要求1所述的方法，包括：

根据所述命名实体确定用户意图；

将所述语句提供至所述用户意图对应的服务进行相应处理。

5.根据权利要求1所述的方法，所述语言模型包括输入层、隐层和输出层，所述输入层和所述输出层包括词向量矩阵；

通过所述输入层将所述语句转换为词向量序列；

通过所述隐层对所述词向量序列进行语义分析处理，以得到所述语句对应的语义表示向量序列。

6.根据权利要求5所述的方法，所述隐层由至少一层神经网络组成，所述神经网络为如下任一种：卷积神经网络、循环神经网络、双向循环神经网络、长短期记忆网络、双向长短期记忆网络。

7.根据权利要求5或6所述的方法，所述方法还包括：

从所述第一样本集中选择第一语料样本，从所述第二样本集中选择第二语料样本；

以所述第一语料样本和所述第二语料样本对所述语言模型进行训练，以获得所述第一语料样本对应的第一困惑度和所述第二语料样本对应的第二困惑度；

根据所述第一困惑度和所述第二困惑度对所述语言模型进行参数调整。

8.根据权利要求7所述的方法，所述语言模型的训练过程，包括：

通过所述输入层将所述第一语料样本转换为第一词向量序列，将所述第二语料样本转换为第二词向量序列；

通过所述隐层分别对所述第一词向量序列和所述第二词向量序列进行语义分析处理，以得到所述第一词向量序列对应的第一语义表示向量序列以及所述第二词向量序列对应的第二语义表示向量序列；

根据所述第一语义表示向量序列与所述第二语义表示向量序列之间的距离，确定与所述第一语义表示向量序列和所述第二语义表示向量序列对应的空间约束损失函数；

通过所述输出层确定所述第一语义表示向量序列对应的第一困惑度以及所述第二语义表示向量序列对应的第二困惑度；

所述参数调整的步骤，包括：

根据所述第一困惑度、所述第二困惑度以及所述空间约束损失函数对所述语言模型进行参数调整。

9.根据权利要求8所述的方法，所述隐层由至少一层神经网络组成；

所述空间约束损失函数的确定步骤，包括：

由每层神经网络输出的两个语义表示向量序列之间的距离，确定所述两个语义表示向量序列对应的空间约束损失函数，所述两个语义表示向量序列分别对应于所述第一语料样本和所述第二语料样本。

10.根据权利要求8所述的方法，所述方法还包括：

从所述第三样本集中选择第三语料样本；

根据语言模型获取所述第三语料样本对应的语义表示向量序列；

以所述第三语料样本对应的语义表示向量序列对所述序列标注模型进行训练。

11.一种数据处理装置，包括：

接收模块，用于接收属于第一领域的语句；

12.一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至10中任一项所述的数据处理方法。