CN108664589A

CN108664589A - 基于领域自适应的文本信息提取方法、装置、系统及介质

Info

Publication number: CN108664589A
Application number: CN201810431979.6A
Authority: CN
Inventors: 陈文亮; 卢奇; 张民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-16
Anticipated expiration: 2038-05-08
Also published as: CN108664589B

Abstract

本申请公开了一种基于领域自适应的文本信息提取方法，包括：对输入文本进行预处理，得到文本向量；根据第二领域与第一领域间的共有特征提取参数提取文本向量的共有特征，根据第一领域内的私有特征提取参数提取文本向量的私有特征；对进行领域模糊后的共有特征进行领域分类；根据分类结果以及第一领域的领域信息对共有特征提取参数进行分析修正；根据私有特征对文本向量进行相邻词语预测；根据预测结果以及文本中的相邻词语对私有特征提取参数进行分析修正。该方法可提升社交媒体等领域的文本分析提取能力。本申请还公开了基于领域自适应的文本信息提取装置、系统及可读存储介质，具有上述有益效果。

Description

基于领域自适应的文本信息提取方法、装置、系统及介质

技术领域

本申请涉及领域自适应领域，特别涉及一种基于领域自适应的文本信息提取方法、装置、系统及一种可读存储介质。

背景技术

目前大多数的文本特征信息的提取都是在大规模人工标注语料库的基础上用监督学习的方法训练得到的。在进行命名实体识别过程中，有些领域(比如新闻领域等正式文本)可以比较容易获得大规模标注的数据集，在大规模人工标注语料库的基础上训练得到识别系统；但是有些领域，比如社交媒体领域，语料库相对缺乏，例如有一份来源于新浪微博被用来监督学习和评估的语料，其规模仅有1890句，这样的语料大小不足以用来训练模型。由于缺乏大规模的社交媒体语料导致了该领域的特征提取以及命名实体识别存在很大的挑战。

另外，文本的非正式性是阻碍社交媒体等领域文本信息提取的另一个因素。图1展示了一个新浪微博中一个文本的示例，可以看到该文本是不合语法的，社交媒体领域提及的实体很少出现在正式文本中，并且包含错误的拼写和噪声，会干扰对实体的识别，出于这些原因，在正式文本上训练的识别系统，例如Newswire语料库，在处理非正式文本时会出现一些下降。

在这种情况下，目前大多采用从多个不同领域的多个数据集中学习，包括源领域标注数据，目标领域标注数据和目标领域未标注数据，利用领域间的相似性来调整来自不同领域的数据的学习率。但是由于不同领域间文书数据差异很大，尤其是对于社交媒体领域的源领域以及目标领域的数据，可迁移性较差，导致迁移后的社交媒体领域的文本正确率以及召回率低。

因此，如何提高领域迁移性，提升社交媒体等领域的文本分析提取能力，是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的是提供一种基于领域自适应的文本信息提取方法，该提取方法可以提高领域迁移性，提升社交媒体等领域文本分析提取能力；本申请的另一目的是提供一种基于领域自适应的文本信息提取装置、系统及一种可读存储介质，具有上述有益效果。

本申请提供一种文本信息提取方法，包括：

对进行领域模糊后的前一次提取的共有特征进行领域分类；

根据分类结果以及领域信息对共有特征提取参数进行分析修正；

根据前一次提取的私有特征对前一次处理得到的文本向量进行相邻词语预测；

根据预测结果以及所述文本中的相邻词语对私有特征提取参数进行分析修正；

对当前输入文本进行预处理，得到文本向量；其中，所述当前输入文本属于第一领域；

根据第二领域与所述第一领域间的修正后的共有特征提取参数提取所述文本向量的共有特征，根据所述第一领域内的修正后的私有特征提取参数提取所述文本向量的私有特征。

可选地，所述对当前输入文本进行预处理包括：

提取所述当前输入文本的字符信息以及词级信息，得到字符向量及词级向量。

可选地，所述提取所述当前输入文本的字符信息以及词级信息前还包括：

筛选出所述当前输入文本中长度小于阈值的输入文本；

则所述提取所述当前输入文本的字符信息以及词级信息具体为：提取筛选后输入文本的字符信息以及词级信息。

可选地，所述对进行领域模糊后的前一次提取的共有特征进行领域分类前还包括：

对所述前一次提取的共有特征进行简化处理，得到简化共有特征；

则所述对进行领域模糊后的前一次提取的共有特征进行领域分类具体为：对进行领域模糊后的简化共有特征进行领域分类。

本申请提供一种基于领域自适应的文本信息提取装置，包括：

领域分类单元，用于对进行领域模糊后的前一次提取的共有特征进行领域分类；

第一修正单元，用于根据分类结果以及领域信息对共有特征提取参数进行分析修正；

词语预测单元，用于根据前一次提取的私有特征对前一次处理得到的文本向量进行相邻词语预测；

第二修正单元，用于根据预测结果以及所述文本中的相邻词语对私有特征提取参数进行分析修正；

预处理单元，用于对对当前输入文本进行预处理，得到文本向量；其中，所述当前输入文本属于第一领域；

共有特征提取单元，用于根据第二领域与所述第一领域间的修正后的共有特征提取参数提取所述文本向量的共有特征；

私有特征提取单元，用于根据所述第一领域内的修正后的私有特征提取参数提取所述文本向量的私有特征。

可选地，所述预处理单元包括：

字符信息提取子单元，用于提取所述当前输入文本的字符信息，得到字符向量；

词级信息提取子单元，用于提取所述当前输入文本的词级信息，得到词级向量。

本申请提供一种基于领域自适应的文本信息提取系统，包括：

嵌入层，用于对当前输入文本进行预处理，得到文本向量；

与所述嵌入层的输出端连接的共有双向长短期记忆网络，用于根据分类结果以及领域信息对共有特征提取参数进行分析修正，并根据第二领域与所述第一领域间的修正后的共有特征提取参数提取所述文本向量的共有特征；

与所述嵌入层的输出端连接的私有双向长短期记忆网络，用于根据预测结果以及所述文本中的相邻词语对私有特征提取参数进行分析修正，并根据所述第一领域内的修正后的私有特征提取参数提取所述文本向量的私有特征；

领域对抗学习网络，用于对进行领域模糊后的前一次提取的共有特征进行领域分类；

双向语言模型，用于根据前一次提取的私有特征对前一次处理得到的文本向量进行相邻词语预测。

可选地，所述基于领域自适应的文本信息提取系统还包括：

BILSTM-CRF，用于依据所述前一次提取的共有特征以及所述前一次提取的私有特征计算各文本向量分别对应于不同标签的概率；筛选出最大概率对应的标签，将其作为所述前一次文本向量对应的标签。

可选地，所述嵌入层具体为：串联的字符嵌入层以及词级嵌入层。

本申请公开一种可读存储介质，所述可读存储介质上存储有程序，所述程序被处理器执行时实现所述基于领域自适应的文本信息提取方法的步骤。

为解决上述技术问题，本申请提供一种文本信息提取方法，该方法通过根据输入文本所属领域(即第一领域)以及参考领域(即第二领域)间的共有特征提取参数提取所述输入文本的共有特征，其中，共有特征指多领域间的共有的特征信息，对共有特征进行领域模糊后提取模糊后共有特征所属的领域信息，领域模糊指模糊文本所属领域特征，在对共有特征进行领域模糊后可以弱化不同领域间的差异性，提升可迁移性，弱化领域间差异后进行领域分类，根据分类结果继续对共有特征提取参数进行修正，可以不断优化对输入文本进行不同领域间共有特征提取的性能，提升分析能力；在提取共有特征的同时根据输入文本所属的第一领域内的私有特征提取参数提取私有特征提取，私有特征指输入文本所属领域所私有的特征信息，根据提取的私有特征对文本中的向量进行相邻词语的预测，根据预测结果与实际的相邻词语进行比较分析，对私有特征提取参数进行分析修正，从而可以不断优化对输入文本所属领域特征提取的能力。

本申请提供的领域自适应方法从共有以及私有两方面特征着手，通过不断弱化不同领域间的差异性从而提升共有特征提取的能力，通过不断强化私有领域中词语的预测能力，加强私有领域向量间的相互联系，从而提升私有特征提取的效率，通过对不同领域的有效的特征迁移，提升文本分析提取的能力。

本申请还公开了一种基于领域自适应的文本信息提取装置、系统及一种可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的微博文本示意图；

图2为本申请实施例提供的基于领域自适应的文本信息提取方法的流程图；

图3为本申请实施例提供的基于领域自适应的文本信息提取装置的结构框图；

图4为本申请实施例提供的基于领域自适应的文本信息提取系统的结构框图；

图5为本申请实施例提供的双向语言模型示意图；

图6为本申请实施例提供的神经网络模型示意图；

图7为本申请实施例提供的NER系统示意图；

图8为本申请实施例提供的源领域数据变化结果示意图；

图9为本申请实施例提供的目标领域数据变化结果示意图；

图10为本申请实施例提供的五种错误类型的分布示意图；

图11为本申请实施例提供的实体长度错误分析示意图。

具体实施方式

本申请的核心是提供一种基于领域自适应的文本信息提取方法，该方法可以提高领域迁移性，提升社交媒体等领域的文本分析提取能力；本申请的另一核心是提供一种基于领域自适应的文本信息提取装置、系统及一种可读存储介质，具有上述有益效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

领域自适应指利用一个领域已经学到的知识去改善另一个领域的泛化情况。在经典的机器学习问题中，我们往往假设训练集和测试集分布一致，在训练集上训练模型，在测试集上测试。然而在实际问题中，测试场景往往非可控，测试集和训练集分布有很大差异，这时候就会出现所谓过拟合问题：模型在测试集上效果不理想，当训练集和测试集分布不一致的情况下，通过在训练数据上按经验误差最小准则训练的模型在测试上性能不好，可以通过领域自适应进行测试集和训练集的自适应，实现测试集和训练集的差异最小化。

本申请基于领域自适应思想进行文本信息的提取，提出基于领域辨别的角度来研究领域自适应问题，目前社交媒体领域由于语料少，文本格式不正式等缺点很难对其进行准确的文本信息提取，也很难单纯从有限的语料中对提取过程进行改进，本申请中均以目标领域为社交媒体领域为例进行介绍，其它领域的文本信息提取均可参照下面的介绍。

图2为本申请实施例提供的基于领域自适应的文本信息提取方法的流程图；在此以将文本输入后以应用本申请提供的方法对流程进行介绍，该方法可以包括：

步骤s100：对输入文本进行预处理，得到文本向量。

其中，文本属于第一领域；输入的文本在在进行提取前需要将文本转换成向量形式，以向量形式进行分析提取的过程。在此对将文本进行向量转换的过程不做限定，可以参照现有技术的转换过程，比如可以只提取字符信息，也可以同时提取字符信息以及词级信息。只通过字符嵌入层，也可以同时通过串联的字符嵌入层以及词级嵌入层，为提高识别精度，优选地，可以同时提取输入文本的字符信息以及词级信息，得到字符向量及词级向量。通过同时分析字符向量以及词级向量对文本进行信息的提取。

步骤s200：根据第二领域与第一领域间的共有特征提取参数提取文本向量的共有特征，根据第一领域内的私有特征提取参数提取文本向量的私有特征。

进行共有特征以及私有特征提取的过程也可以参照现有方法中进行特征提取的部分，比如可以通过双向长期记忆网络。另外，共有特征的提取与私有特征的提取过程可以同时完成，即通过单独的特征提取装置分别提取共有特征以及私有特征，也可以分开进行，即通过预训练的共有特征提取装置提取共有特征，通过预训练的私有特征提取装置提取私有特征。

其中，第二领域指源领域，第一领域指目标领域。当第一领域指社交媒体领域时，第二领域可以选择与社交媒体领域较为接近的训练较为成熟的新闻领域，当然也可以选择其他领域，在此仅以第一领域为社交媒体领域，第二领域为新闻领域为例进行介绍，其他领域的文本提取均可参照下面的介绍。

步骤s210：对进行领域模糊后的共有特征进行领域分类。

领域模糊指模糊文本所属领域特征，使得无法区分源领域和目标领域，即弱化社交媒体领域的领域特征信息，与新闻媒体领域的领域信息进行模糊处理，对进行领域模糊后的共有特征进行领域分类时，分类效果越差，说明领域模糊效果越好，源领域与目标领域可迁移性越强。

步骤s211：根据分类结果以及第一领域的领域信息对共有特征提取参数进行分析修正。

根据领域分类的分类结果以及实际文本所属的领域进行比对分析，根据分析结果对共有特征提取参数进行不断修正，可以不断优化对输入文本进行不同领域间共有特征提取的性能，提升分析能力。随着输入文本量的增加，共有特征提取参数会越来越准确，每次根据修正后的参数提取的共有特征也越来越能反映各领域间的共有特性。

步骤s220：根据私有特征对文本向量进行相邻词语预测。

私有特征指输入文本所属领域所私有的特征信息，即社交媒体领域的私有特征，根据提取的私有特征对文本中的向量进行相邻词语的预测。具体的，进行相邻词语预测的过程具体可以为：在向量的前进方向上进行预测，得到隐藏表示；在向后移动方向上进行预测，得到隐藏代表。根据隐藏表示以及隐藏代表对与该向量相邻的词语进行预测。预测方向的种类在此不做限定，在此仅以上述情况为例进行介绍，通过其他方向进行词语预测的过程在此不再赘述。

步骤s221：根据预测结果以及文本中的相邻词语对私有特征提取参数进行分析修正。

根据预测结果与实际的相邻词语进行比较分析，对私有特征提取参数进行分析修正，从而可以不断优化对输入文本所属领域特征提取的能力，即提取社交媒体领域的专属特征的能力会越来越强。随着输入文本量的增加，私有特征提取参数会越来越准确，根据该参数提取的私有特征也越来越能反映该领域的专属特征。

根据前一次文本信息提取过程对共有特征提取参数以及私有特征提取参数进行修正，前一次指当前输入的文本的上一次文本输入过程，根据修正后的共有特征提取参数以及私有特征提取参数对当前输入的文本进行提取，通过不断输入文本不断修正提取参数，可以使得特征提取更为精确。

基于上述介绍，本申请提供的领域自适应方法从共有以及私有两方面特征着手，通过不断弱化不同领域间的差异性从而提升共有特征提取的能力，通过不断强化私有领域中词语的预测能力，加强私有领域向量间的相互联系，从而提升私有特征提取的效率，通过对不同领域的有效的特征迁移，基于领域对抗思想进行领域自适应迁移，可以提升文本分析提取的能力。

通过输入不同长度的文本进行试验获知领域对抗学习和语言模型倾向于预测相对较短(大概长度在5以下)的实体，因此优选地，对文本进行预处理时可以先筛选出长度小于阈值的输入文本，然后对长度小于阈值的文本进行预处理。在此对阈值的数值不做限定，阈值可以设置为3或者4或者5或者其他数值，在此不做限定。

在提取到共有特征后可以直接将共有特征送入领域模糊装置进行领域模糊处理，由于可能输出的共有特征数量较多，为简化计算过程，优选地，可以先对提取到的共有特征进行简化处理，得到简化共有特征后，对进行领域模糊后的简化共有特征进行领域分类。

下面对本申请提供的基于领域自适应的文本信息提取装置进行介绍，请参考图3，图3为本申请实施例提供的基于领域自适应的文本信息提取装置的结构框图；该装置可以包括：

领域分类单元311，用于对进行领域模糊后的前一次提取的共有特征进行领域分类；

第一修正单元312，用于根据分类结果以及领域信息对共有特征提取参数进行分析修正；

词语预测单元320，用于根据前一次提取的私有特征对前一次处理得到的文本向量进行相邻词语预测；

第二修正单元322，用于根据预测结果以及文本中的相邻词语对私有特征提取参数进行分析修正；

预处理单元300，用于对对当前输入文本进行预处理，得到文本向量；其中，当前输入文本属于第一领域；

共有特征提取单元310，用于根据第二领域与第一领域间的修正后的共有特征提取参数提取文本向量的共有特征；

私有特征提取单元320，用于根据第一领域内的修正后的私有特征提取参数提取文本向量的私有特征。

可选地，预处理单元300可以包括：

预处理单元包括：

字符信息提取子单元，用于提取当前输入文本的字符信息，得到字符向量；

词级信息提取子单元，用于提取当前输入文本的词级信息，得到词级向量。

可选地，基于领域自适应的文本信息提取装置可以还包括：筛选单元，用于筛选出输入文本中长度小于阈值的输入文本，筛选单元的输出端连接于预处理单元，则预处理单元具体可以用于提取筛选后输入文本的字符信息以及词级信息。

可选地，基于领域自适应的文本信息提取装置可以还包括：特征简化单元，用于对共有特征进行简化处理，得到简化共有特征，特征简化单元的输入端与共有特征提取单元连接，输出端与领域处理单元连接，则领域处理单元具体用于对进行领域模糊后的简化共有特征进行领域分类。

需要说明的是，本申请具体实施方式中的基于领域自适应的文本信息提取装置中的各个单元，其工作过程请参考图2对应的具体实施方式，在此不再赘述。

下面对本申请提供的基于领域自适应的文本信息提取系统进行介绍，具体对基于领域自适应的文本信息提取系统的介绍可参照上述基于领域自适应的文本信息提取方法的步骤，图4为本申请实施例提供的基于领域自适应的文本信息提取系统的结构框图；该系统可以包括：嵌入层400，与嵌入层的输出端连接的共有双向长短期记忆网络410，与嵌入层的输出端连接的私有双向长短期记忆网络420，领域对抗学习网络411以及双向语言模型421。

嵌入层400主要用于当前输入文本进行预处理，得到文本向量。嵌入层具体可以采用字符嵌入层与词级嵌入层串联，通过同时对字符以及词级进行分析，提高提取的准确率。

与嵌入层的输出端连接的共有双向长短期记忆网络410主要用于根据分类结果以及领域信息对共有特征提取参数进行分析修正，并根据第二领域与第一领域间的修正后的共有特征提取参数提取文本向量的共有特征。

与嵌入层的输出端连接的私有双向长短期记忆网络420主要用于根据预测结果以及文本中的相邻词语对私有特征提取参数进行分析修正，并根据第一领域内的修正后的私有特征提取参数提取文本向量的私有特征。

转换后将向量形式的文本输入至两个双向长短期记忆网络(BiLSTM)，它是采用长期短期记忆(LSTM)单元的双向循环神经网络(RNN)。其中，共有BiLSTM用于学习领域之间的共有特征，私有BiLSTM用于学习目标领域的私有特征。LSTM是一种复杂的RNN实现，可以捕获输入句子中的长距离信息。

LSTM存储单元定义如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

h_t＝o_ttanh(c_t)

BiLSTM是LSTM的延伸，本申请采用共有双向长短期记忆网络(Common BiLSTM)以及私有双向长短期记忆网络(Private BiLSTM)，分别用于捕获来自共有以及私有两个方向的特征信息。其中，双向长短期记忆网络的具体结构可参照现有技术。

其中，共有双向长短期记忆网络以及私有双向长短期记忆网络的训练方法具体可以为：

根据通过BiLSTM-CRF模型得到的BILSTM-CRF损失函数以及通过双向语言模型得到的双向语言模型损失函数设置私有双向长短期记忆网络的参数，根据BILSTM-CRF损失函数以及基于领域对抗学习得到的领域分类器损失值设置共有双向长短期记忆网络的参数。现有的语言模型多用于对词性进行标注，作为序列标签辅助目标，本申请利用语言模型的映射分析功能，通过对语言模型进行预训练，将其用于对NER中共有特征的提取上，可以使大量的目标领域的无标注数据与源领域学习到的知识完美配合，提升共有特征的提取效率。

将文本向量输入两网络中后，两网络分别输出共有特征以及私有特征。

领域对抗学习网络411主要用于对进行领域模糊后的共有特征进行领域分类。在共有BiLSTM基础上建立领域对抗学习网络，使用领域对抗学习来使共有BiLSTM的输出特征无法区分源领域和目标领域，从而提取文本的共有特征。领域对抗学习网络指基于领域对抗学习所构建的网络模型，其中网络模型中的具体模块可以自行选择，领域对抗学习的实现主要基于对目标领域进行领域模糊后进行领域分类，比如领域模糊可以通过梯度反转层来实现，领域分类可以通过普通的分类器来实现。在此由卷积神经网络(CNN)、梯度反转层以及领域分类器连接组成的网络为例。

第一层是卷积神经网络(CNN)，其实施方式可参照与用于文本分类的CNN。CNN编码器由三个卷积滤波器组成，其大小分别为3，4和5。对于每个滤波器，将BiLSTM的隐藏状态序列作为输入传递给滤波器，然后应用max-pooling来获取单个向量作为滤波器的输出，然后将滤波器的输出输入到非线性激活函数tanh以获得经变换的向量。然后，将来自三个滤波器的向量连接起来并通过梯度反转层(Gradient Reversal)馈送到领域分类器(DomainDiscriminator)。由于梯度反转层位于领域分类器之下，所以将领域分类错误最小化的梯度以相反的符号传递回句子编码器，通过这种方式鼓励句子编码器提取无法区分领域的特征。分类器被实现为具有单个隐藏层的全连接神经网络，其激活函数是Leaky ReLU。根据领域分类器的输出结果可以得到域分类器的损失函数：

其中，是领域分类器的输出，d_i是相对应的领域类别。

双向语言模型421主要用于根据私有特征对文本向量进行相邻词语预测。

现有的语言模型多用于对词性进行标注，作为序列标签辅助目标，本申请利用语言模型的映射分析功能，通过对语言模型进行预训练，将其用于对NER中共有特征的提取上，可以使大量的目标领域的无标注数据与源领域学习到的知识完美配合，提升共有特征的提取效率。

双向语言模型如图5所示，模型根据先前的隐藏表示预测序列中的下一个单词。预测是两个方向的，分别在前进方向以及后移动方向。在前进方向上，预测词w_i+1给出隐藏表示；在向后移动方向上，预测下一个词w_i-1给出隐藏代表。

根据提取的隐藏表示以及隐藏代表作为特征表示，进行下一个词语的预测。

根据特征进行词语预测的过程可参照现有技术，具体地，进行词语预测的过程可以为：

将隐藏的表示映射到一个新的空间。

其中，和是可以学习的参数，根据这些特征表示以预测下一个单词。

则根据上述公式，序列的最大似然值可以定义为：

双向语言模型的损失函数可以简单定义为和的和，其他定义方法在此不再赘述。具体的，损失函数

文本信息的提取主要应用于命名实体识别任务(NER)。命名实体识别任务中英文数据已被广泛研究。NER对于中文社交媒体领域而言，由于缺乏足够的人工标注语料，它仍然是一个相对较新的研究课题，并且仍然非常具有挑战性。

本申请提供的基于领域自适应的文本信息提取系统可以应用于NER系统，专注于中文社交媒体领域的NER任务，开展从新闻领域到社交媒体领域的领域自适应，在此通过图6所示的神经网络模型对基于领域自适应的文本信息提取系统应用于NER的模型训练过程进行介绍。

模型输入是一个字符嵌入层(Char Embedding)。虽然像字符嵌入和词级嵌入串联这样的更丰富的表示已被证明对整体NER准确性有益，为以便重点讨论模型的领域自适应性能本实施例中采用单纯的字符嵌入层作为输入。在嵌入层的顶部，是两个双向长短期记忆网络(BiLSTM)，分别为共有双向长短期记忆网络(Common BiLSTM)以及私有双向长短期记忆网络(Private BiLSTM)。

在两个BiLSTM的基础上，实现了一个CRF网络，用于识别命名实体。另外，两个辅助目标函数定义为：仅建立在共有BiLSTM上的领域对抗学习网络以及仅建立在私有BiLSTM上的语言模型网络。领域对抗学习网络是领域自适应生效的地方。

领域对抗学习网络的第一层是卷积神经网络(CNN)，CNN编码器由三个卷积滤波器组成，其大小分别为3，4和5。对于每个滤波器，将BiLSTM的隐藏状态序列作为输入传递给滤波器，然后应用max-pooling来获取单个向量作为滤波器的输出，然后将滤波器的输出输入到非线性激活函数tanh以获得经变换的向量。然后，将来自三个滤波器的向量连接起来并通过梯度反转层(Gradient Reversal)馈送到领域分类器(Domain Discriminator)。

梯度反转层位于领域分类器之下，将领域分类错误最小化的梯度以相反的符号传递回句子编码器，通过这种方式鼓励句子编码器提取无法区分领域的特征。分类器被实现为具有单个隐藏层的全连接神经网络，其激活函数是Leaky ReLU。

最后，NER模型的总体目标函数被定义为组件网络目标的加权总和：

Loss＝L_CRF+λ₁L_DA+λ₂L_LM

其中，DA指的是领域对抗学习网络，而LM指的是语言模型网络。λ₁和λ₂是用于辅助目标函数加权的参数。

另外，增加BiLSTM-CRF模型，用于依据共有特征信息以及私有特征信息计算各文本向量分别对应于不同标签的概率；筛选出最大概率对应的标签，将其作为文本向量对应的标签。标签比如：人名(PER)，组织(ORG)，政治地名(GPE)和地名(LOC)等类型，分别输出各向量对应不同标签的概率。

在两个BiLSTM表示的基础上实现了一个CRF网络，用于识别命名实体。在BiLSTM-CRF模型中，NER的任务被形式化为序列标签问题，即在给定输入句子X的情况下寻找最优标签序列Y。每个字符向量被分配给以下标签之一：B-TYPE，I-TYPE和O。这里的标签B-TYPE指的是当前字符处于指定类型的实体的开头位置；标签I-TYPE表示当前字符位于指定类型的实体内部，但不出现在开头；标签O说明当前字符不在任何实体内。

具体地，BiLSTM-CRF可视为双向LSTM和CRF的组合。与计算局部最优的最大熵马尔科夫模型相比，CRF能计算全局最优输出节点的条件概率并克服了最大熵马尔可夫模型标记偏置的缺点。在CRF中，给定长度为m的输入序列X的输出序列Y的概率可以形式化为：

其中，Ψ(Y|X)是势函数，可以只考虑两个相邻标签之间的相互作用：

Ψ(X,i,y_i-1,y_i)＝exp(s(X,i)_y+b_y'y)

其中b_y'y是表示标签(y'y)的转移分数，他是一个可训练参数。得分函数s(X,i)为在标记第i个字符时为每个标签分配分数：

h_i是位置i处Bi-LSTM的隐藏状态。在本申请提供的模型中，h_i指的是在相同位置上，共有特征的BiLSTM和私有特征的BiLSTM隐藏状态的拼接，即BiLSTM-CRF的损失函数公式可以为如下的形式：

在此仅以上述情况为例对BiLSTM-CRF损失函数进行介绍，其他方式来计算相邻标签之间的相互作用得到BiLSTM-CRF损失函数的方式均可参照本实施例的介绍，其他计算方式在此不再赘述，可参照现有技术。

根据各损失值预设占比对文本特征提取过程进行不断修正，根据大量文本数据对模型进行训练，可以得到最贴合实际的可以实现最优特征提取的双向长短期记忆网络。

将双向语言模型应用于命名实体识别任务中，该双向语言模型可以从未标注的目标端数据中学习私有特征，将起学习到的私有特征单纯地应用于私有双向长短期记忆网络(Private BiLSTM)，不会出现目标领域的无标注数据量稀释掉源领域学习到的知识的情况，可以实现源领域在一定程度上的最大化利用。基于该训练方法训练的NER模型向对于现有模型更贴合实际文本，可以显著提高社交媒体NER识别准确率。

在NER系统训练完成后，可以应用训练后的双向长短期记忆网络进行实体识别。图7所示为一种NER系统示意图，实体识别过程通过嵌入层对文本进行预处理，将文本转换成向量形式，共有双向长短期记忆网络用于对每个向量进行上下文分析，分别得到各向量间的共有特征信息；私有双向长短期记忆网络用于对每个向量进行上下文分析，分别得到各向量间的私有特征信息；BILSTM-CRF用于依据共有特征信息以及私有特征信息计算各向量分别对应于不同标签的概率；筛选出最大概率对应的标签，将其作为向量对应的标签。

经过500万微博语料对基于领域自适应的命名实体识别系统以及三个基线系统(包括BiLSTM-CRF-OOD、BiLSTM-CRF-ID以及BiLSTM-CRF-Merge)的训练，当Embedding维度设置为100，使用一层双向LSTM，其隐藏层(hidden)维度设置为200时，模型使用随机梯度下降和L2正则化。开始训练语言模型时，学习率设置为0.1；当开始训练阶段的时候，学习率设置为0.01。最后，经过实验测试将λ₁调整为0.07，λ₂设置为1。可以得到如下表1所示的实验结果。

表1

其中，BiLSTM-CRF+DA表示由BiLSTM-CRF和领域对抗学习组成的模型。BiLSTM-CRF+DA+LM是指将领域对抗学习和语言模型与BiLSTM-CRF相结合的模型。选取MSR训练集共计46,364个句子，并将样本用作源领域训练数据；整套微博培训数据(2,000微博帖子)被用作目标领域内训练数据。上表1显示了基于微博测试集的基准系统和本申请提供的模型在NER正确率，召回率和F1分数方面的测试结果。

通过比较三条基准线的结果，可以得到两个观察结果：

(1)使用源领域标注数据的BiLSTM-CRF-OOD显著滞后于使用目标领域标注数据的BiLSTM-CRF-ID，尽管源领域数据规模(句子数量)大约是目标领域标注数据的20倍。

(2)合并源领域和目标领域标注数据(BiLSTM-CRF-Merge)可以建立比单独使用目标领域标注数据更好的模型。

这两个观察结果表明源领域标注数据有助于提高目标领域的性能，但同时单独使用源领域数据来训练模型并不是一个好的想法。通过比较基准系统和本申请提供的模型，可以看到BiLSTM-CRF+DA的表现比BiLSTM-CRF-Merge在F1值上高出1.04％，这意味着领域对抗学习比简单的多领域数据组合更擅长捕捉多领域之间的信息。最后，添加语言模型作为辅助目标比BiLSTM-CRF+DA提高了3.24％，这表明语言模型在学习通用领域表征的有效性。

另外，为研究已标注的源领域和目标领域训练数据的大小如何影响模型的性能，进行了两个比较实验。一项实验改变了源领域训练数据的规模，同时将目标领域训练数据固定为2000个。源领域数据变化结果如图8所示，其中主要比较了三种模型：BiLSTM-CRF-Merge，BiLSTM-CRF+DA和BiLSTMCRF+DA+LM。另一个实验改变了标记的目标领域训练数据的大小，同时将源领域训练数据的大小固定为5000个句子。在这个实验中，为了提高训练效率，将源领域训练数据的大小设置为5000，目标领域数据变化结果如图9所示。

根据图8的结果，可以看到源领域训练数据的增加可以使BiLSTM-CRF+DA+LM受益，虽然使用了20,000个源领域训练数据时出现了小幅度下降。对比BiLSTM-CRF+DA和BiLSTM-CRF-Merge，发现随着源领域数据增加，领域对抗学习一直保持有效，但是其趋势似乎受限于BiLSTM-CRF-Merge，在20000到40000规模出现了同样的下降情况。对于BiLSTM-CRF-Merge，当源领域数据的规模达到20000时，性能开始平稳。这一观察结果表明BiLSTM-CRF+DA+LM比BiLSTM-CRF-Merge更好地使用源领域数据。

根据图9的结果，可以看到目标领域训练数据的增加提高了BiLSTM-CRF-Merge和BiLSTM-CRF+DA+LM的性能。值得注意的是，具有500个目标领域训练数据的BiLSTM-CRF+DA+LM的准确性已经高于BiLSTM-CRF-Merge用2000目标领域训练数据所获得的精度。这一观察表明通过语言模型从未标注数据中学习可以帮助减少对目标领域标注数据的需求。

虽然经过实验可以看出本申请提出的方案明显优于Baseline，但是社交媒体数据表现仍然滞后于正式文本(例如，NER在MSR上的最新性能达到了92.81％)为此，遵循He和Sun(2017)及其他版本中使用的方法从以下指标中对主要结果进行了错误分析，如下表2所示。

表2

其中，这些错误类型中CO为CONTAIN(一些正确答案包含预测结果)，BC为BE-CONTAINED(某个正确答案包含在预测结果中)，SPLIT(预测中存在差距)，CR为CROSS(一些正确答案和预测结果产生交叉)，NC为NOCROSS(正确结果和预测结果没有共同的词汇交集)。CA为CATEGORY(正确答案和预测结果拥有一个跨越相同的字符子序列，但具有不同的实体类型)。从表中可以看出，加入领域对抗学习和语言模型有助于减少所有错误类型，特别是BE-CONTAIN，CROSS和NO-CROSS。

图10显示了BiLSTM-CRF-Merge生成的五种错误类型的分布。从图中可以看出，NO-CROSS是最常见的错误类型，虽然它的百分比不像在现有技术中报告的那么高(47.2％：83.55％)。另外，还检查了BiLSTM-CRF+DA和BiLSTM-CRF+DA+LM与基线BiLSTM-CRF-Merge相比如何更改了每种错误类型的数量。

该比较如上表1所示，这些错误类型是CONTAIN(CO)，BECONTAIN(BC)，CROSS(CR)，NO-CROSS(NC)，CATEGORY(CA)。从表中可以看出，加入领域对抗学习和语言模型有助于减少所有错误类型，特别是BE-CONTAIN，CROSS和NO-CROSS。

在评估了测试集上BiLSTM-CRF，BiLSTM-CRF+DA和BiLSTM-CRF+DA+LM在不同实体长度下的正确和错误的预测数量后，实体长度错误分析示意图如图11所示，其中x坐标0，1，2表示[1，4]，[5，8]，[9，12]的范围。该范围是指在数字中测量的实体长度包含在实体中的字符。从图中可以看到使用领域对抗学习和语言模型就像预期的那样，能够改进预测精确度。另外，可以从结果推断领域对抗学习和语言模型倾向于预测相对较短的实体，因为长度大于5的实体的正确比例最少。因此，优选地，通过串联的字符嵌入层以及词级嵌入层对文本进行预处理时可以先筛选出长度小于阈值的文本，然后通过串联的字符嵌入层以及词级嵌入层对长度小于阈值的文本进行预处理。在此对阈值的数值不做限定，虽然在上述测试中长度大于5的实体的正确比例最少，但是上述测试过程并未涵盖所有长度的文本，只是对其中的一部分进行测试，阈值可以设置为3或者4或者5或者其他数值，在此不做限定。

通过上述实验可以获知本申请提供的系统面向中文社交媒体领域的跨领域命名实体识别，该系统的领域自适应能力建立在领域对抗学习和语言模型基础上，因此该系统可以从源领域标注数据、目标领域标注数据和目标领域无标注数据中进行学习，实验结果表明，本申请提供的方法以及系统可以显著的改善基线。

下面对本申请实施例提供的可读存储介质进行介绍，下文描述的可读存储介质与上文描述的基于领域自适应的文本信息提取方法可相互对应参照。

本申请公开的一种可读存储介质，其上存储有程序，程序被处理器执行时实现基于领域自适应的文本信息提取方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，设备，存储介质和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，设备，存储介质和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个移动终端中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该产品存储在一个存储介质中，包括若干指令用以使得一台移动终端(可以是手机，或者平板电脑等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、终端或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的基于领域自适应的文本信息方法、装置、系统、可读存储介质以及基于领域自适应的命名实体识别方法、装置、系统、可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种基于领域自适应的文本信息提取方法，其特征在于，包括：

对进行领域模糊后的前一次提取的共有特征进行领域分类；

2.如权利要求1所述的基于领域自适应的文本信息提取方法，其特征在于，所述对当前输入文本进行预处理包括：

3.如权利要求2所述的基于领域自适应的文本信息提取方法，其特征在于，所述提取所述当前输入文本的字符信息以及词级信息前还包括：

筛选出所述当前输入文本中长度小于阈值的输入文本；

4.如权利要求3所述的基于领域自适应的文本信息提取方法，其特征在于，所述对进行领域模糊后的前一次提取的共有特征进行领域分类前还包括：

5.一种基于领域自适应的文本信息提取装置，其特征在于，包括：

6.如权利要求5所述的基于领域自适应的文本信息提取装置，其特征在于，所述预处理单元包括：

7.一种基于领域自适应的文本信息提取系统，其特征在于，包括：

嵌入层，用于对当前输入文本进行预处理，得到文本向量；

8.如权利要求7所述的基于领域自适应的文本信息提取系统，其特征在于，还包括：

9.如权利要求7所述的基于领域自适应的文本信息提取系统，其特征在于，所述嵌入层具体为：串联的字符嵌入层以及词级嵌入层。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序，所述程序被处理器执行时实现如权利要求1至4任一项所述基于领域自适应的文本信息提取方法的步骤。