CN114492387B

CN114492387B - 基于句法结构的领域自适应方面术语抽取方法及系统

Info

Publication number: CN114492387B
Application number: CN202210401179.6A
Authority: CN
Inventors: 高翠芸; 董安国; 肖京; 王轩; 王磊; 张加佳; 赵盟盟
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-19
Anticipated expiration: 2042-04-18
Also published as: CN114492387A

Abstract

本发明公开一种基于句法结构的领域自适应方面术语抽取方法及系统，包括将源领域和目标领域中词的词性和句法依赖关系作为句法结构信息；计算源领域方面术语的平均词性特征和平均句法依赖关系特征并作为方面术语的平均句法结构特征；根据句法结构信息计算源领域和目标领域中每个词和平均句法结构特征的相似度；对基于Transformer的预训练模型进行基于句法结构相似度的再预训练；基于掩码语言模型MLM构建方面术语抽取模型并进行训练，训练过程中对术语抽取模型的交叉熵损失函数进行加权。本发明能学习到词语级领域不变表征，在细粒度的文本抽取任务中能取得不错的成效。

Description

基于句法结构的领域自适应方面术语抽取方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种基于句法结构的领域自适应方面术语抽取方法及系统。

背景技术

方面术语抽取是一项细粒度的分类任务，方面术语指一个文本中最细粒度的评价对象，例如在“the waiter was rude, but the food was delicious”中，“waiter”和“food”是两个方面术语。方面术语抽取任务旨在抽取文本中出现的所有方面。

用于进行方面术语抽取的有监督模型依赖于大量有标注的数据，但是其标注的代价往往十分昂贵。同时大多数监督学习方法都服从一个共同的假设:训练数据和测试数据来自相同的分布。若违反了这个假设，由于领域之间的差异，在源领域上训练的模型作用于目标领域时性能可能会剧烈下降。为了减轻对有标注数据的依赖，迁移学习中的领域自适应是解决问题的关键。领域自适应方法在有标注的源领域数据集上训练模型以达到在无标注的目标领域良好的泛化效果。

传统的领域自适应方法大多关注粗粒度的文本分类任务，这些方法的核心思想是对齐源领域和目标领域的特征分布。总的来说可以将传统领域自适应方法分为两类：一类是利用统计学方法来减小源领域和目标领域的差异；另一类则是利用对抗训练来模糊领域之间的差异。这些方法在粗粒度文本分类任务中取得了不错的成效，但是在细粒度的文本分类任务，如序列标注任务中表现不佳，究其原因，传统领域自适应方法只能学习到句子级领域不变表征但无法学习到词语级领域不变表征，因此难以应用到词语级文本分类任务。方面级情感分析的子任务方面术语抽取是一个词语级文本分类任务，因此传统领域自适应方法不适用。

发明内容

本发明针对上述问题，提供了一种基于句法结构的领域自适应方面术语抽取方法及系统，通过句法结构信息来获取源领域和目标领域之间的联系，实现领域自适应方面术语抽取。

本发明的第一方面，提供了一种基于句法结构的领域自适应方面术语抽取方法，方法包括如下步骤：

采用词性标注技术获取源领域和目标领域中每个词的词性，采用句法依赖关系解析技术获取所述源领域和目标领域中每个词的句法依赖关系，将所述词性和所述句法依赖关系作为句法结构信息；

根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征，将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征；

根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度；

对基于Transformer的预训练模型进行基于句法结构相似度的再预训练，再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域中与所述平均句法结构特征的相似度从高到低的前10%至20%中的词进行掩码；

基于所述掩码语言模型MLM构建方面术语抽取模型，利用梯度下降法对所述术语抽取模型进行训练，训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权；

将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。

本发明的进一步技术方案是：所述词性采取one-hot向量编码，所述句法依赖关系采取multi-hot向量编码。

本发明的进一步技术方案是：根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的相似度，其中，每个词x _i和所述平均句法结构特征

的相似度具体表达式为：

其中，c表示余弦相似度，

表示词x _i的词性，

表示源领域所有方面术语的平均词性特征，

，

表示源领域方面术语集合A中的元素x _j的词性，

表示词x _i的句法依赖关系，

表示源领域所有方面术语的平均句法结构特征，

，

表示源领域方面术语集合A中的元素x _j的句法依赖关系，A表示源领域的方面术语集合,N _A表示源领域中方面术语的总数量。

本发明的进一步技术方案是：所述对所述术语抽取模型的交叉熵损失函数进行加权的具体表达式为：

其中，D表示源领域数据集，T表示每个句子的长度，

表示源领域所有方面术语的平均句法结构特征，y _i为每个词的实际标注，

表示每个词的预测标注，

表示交叉熵损失函数。

本发明的进一步技术方案是：获取所述目标领域中每个词和平均句法结构特征的相似度，将所述相似度高于阈值并且词频高于阈值的词加入到相似词候选集中，当利用有标注的源领域对所述方面术语抽取模型进行训练时，每一轮都利用相似词候选集来替换源领域数据中的方面术语用于构造领域迁移数据集。

本发明的第二方面，提供了一种基于句法结构的领域自适应方面术语抽取系统，系统包括：

句法结构信息获取单元，用于采用词性标注技术获取源领域和目标领域中每个词的词性，采用句法依赖关系解析技术获取所述源领域和目标领域中每个词的句法依赖关系，将所述词性和所述句法依赖关系作为句法结构信息；

平均句法结构特征获取单元，用于根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征，将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征；

相似度获取单元，用于根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度；

再预训练单元，用于对基于Transformer的预训练模型进行基于句法结构相似度的再预训练，再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域中与所述平均句法结构特征的相似度从高到低的前10%至20%中的词进行掩码；

方面术语抽取模型训练单元，用于基于所述掩码语言模型MLM构建方面术语抽取模型，利用梯度下降法对所述术语抽取模型进行训练，训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权；

方面术语抽取单元，用于将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。

本发明的第三方面，提供了一种基于句法结构的领域自适应方面术语抽取系统，包括：处理器；以及存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行上述基于句法结构的领域自适应方面术语抽取方法。

本发明的第四方面，提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行上述基于句法结构的领域自适应方面术语抽取方法。

本发明提出了一种基于句法结构的领域自适应方面术语抽取方法及系统，使用句法结构相似度作为枢纽特征的领域自适应方法来处理方面术语抽取，即通过句法结构信息来获取源领域和目标领域之间的联系实现领域自适应方面术语抽取，另外，预训练模型中基于句法结构相似度的再预训练，MLM不再是随机的选择词进行替换，而是选取与平均句法结构特征相似度最高的词进行替换，对于每一个进行预训练的语料库的数据，计算每个词与平均后的方面术语的句法结构特征的相似度，并选取相似度从高到低的前10%~20%中的词进行替换，而替换策略则和MLM一致；对术语抽取模型的交叉熵损失函数进行基于句法结构相似度的加权，训练术语抽取模型时每个词的重要性不是相同的，与方面术语的句法结构相似的词被赋以更大的权重，这使得方面术语抽取模型可以更加关注于方面术语句法结构相似的词；基于句法结构相似度的retrieval-and-replace机制，从无标注的目标领域数据中选取与方面术语句法结构相似的词作为相似词候选集，替换源域数据集中的方面术语对术语抽取模型进行训练，利用有标注的源领域数据进行训练时也学习到了部分目标领域的知识，综上所述，本发明方法能学习到词语级领域不变表征，在细粒度的文本抽取任务中能取得不错的成效。

附图说明

图1是本发明实施例中基于句法结构的领域自适应方面术语抽取方法流程示意图；

图2是本发明实施例中SMLM模型方法示意图；

图3是本发明实施例中基于句法结构的领域自适应方面术语抽取系统结构示意图；

图4是本发明实施例中的计算机设备的架构。

具体实施方式

为进一步对本发明的技术方案作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的步骤。

本发明实施例针对基于句法结构的领域自适应方面术语抽取方法、系统及存储介质，提供了如下实施例：

基于本发明的实施例1

本实施例用于说明基于句法结构的领域自适应方面术语抽取方法，如图1所示，为本发明实施例的基于句法结构的领域自适应方面术语抽取方法流程图：

具体实施过程中，领域自适应的关键在于学习域不变特征，过往的方法大多用来解决句子级任务，本发明针对词语级分类任务，提出了使用句法结构相似度作为枢纽特征的领域自适应方法来处理方面术语抽取任务。在不同的领域中，方面术语的语义会呈现出很大的差异但是其句法结构往往是相似的，基于此，发明人通过句法结构信息来获取源领域和目标领域之间的联系，选择两项句法结构信息：词性和句法依赖关系。

进一步的，统一使用spacy进行句法解析，词性采取one-hot向量编码，句法依赖关系采取multi-hot向量编码。

为了计算每个词与方面术语之间的句法结构相似度，首先需要编码每个词的句法结构信息。选取词性和句法依赖关系来代表句法结构信息。词性采取词性标注(postagging)技术进行解析，句法依赖关系采取句法依赖关系(dependency relation)解析技术获取。词性采取one-hot向量编码，编码得到的特征使用b _pos表示；句法依赖关系采取multi-hot向量编码，编码得到的特征使用b _dep表示。句法依赖关系编码中，一个依赖连接的两个节点共享此依赖。所有词的句法结构信息编码完成以后计算方面术语的平均句法结构特征。

一个具体示例如下：餐厅领域的评论“The pizza here is also absolutelydelicious”中“pizza”一词的词性是“NN”、句法依赖关系是｛det, nsubj｝，电脑领域的评论中“The keyboard is in reasonable size”中的“keyboard”一词的词性和句法依赖关系则和前文中的“pizza”一致。

具体地，领域自适应中源领域的数据有标注，因此可以计算源领域所有方面术语的平均句法结构特征，

表示词x _i的词性，

表示源领域所有方面术语的平均词性特征，

，

表示源领域方面术语集合A中的元素x _j的词性，

表示词x _i的句法依赖关系，

表示源领域所有方面术语的平均句法结构特征，

，

根据所述句法结构信息计算所述源领域中每个词和所述平均句法结构特征的相似度；

具体地，每个词x _i和所述平均句法结构特征

的相似度(syntactic structuresimilarity)具体表达式为：

其中，c表示余弦相似度。

对基于Transformer的预训练模型进行基于句法结构相似度的再预训练，再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域的大规模未标注语料库中与所述平均句法结构特征的相似度从高到低的前10%~20%中的词进行掩码；

具体实施过程中，在领域上继续预训练预训练模型可以达到更好的效果。Transformer-based预训练模型，例如BERT，使用两个任务来进行预训练。一个是掩码语言模型(MLM)，另一个是下一句预测(NSP)。其中掩码语言模型是其关键，MLM以15%的概率随机选择训练序列中的词进行替换。这些被替换的词将会执行三种替换策略即80%的概率被替换成“[mask]”、10%的概率被替换成字典中的其他词、10%的概率保持不变，然后预测出所有被替换的单词。BERT模型在大规模的语料库上预训练以达到良好的泛化效果。为了让预训练模型学习到源领域和目标领域的方面术语信息，发明人提出了一个新的预训练任务基于句法结构相似度的MLM(SMLM)作为MLM的改编，SMLM如图2所示，不再是随机的选择词进行替换，而是选取源领域中与所述平均句法结构特征的相似度从高到低的前10%~20%中的词进行替换，图2所示为与平均后的方面术语的句法结构特征相似度最高的词进行替换。对于每一个进行预训练的语料库的序列，计算每个词与平均后的方面术语的句法结构特征的相似度，并选取相似度从高到低的前10%~20%中的词进行替换，更进一步的，在优选实施例为前15%中的词进行替换。而替换策略则和MLM一致。在大规模的无标注的包含源领域和目标领域的语料库上进行预训练，因此对目标领域起到迁移效果，Transformer-based预训练模型对于源领域和目标领域的方面术语信息有了更深的理解。

具体实施过程中，利用SMLM－based预训练模型来构建方面术语抽取模型，方面术语抽取本质上是一个词语级分类任务，因此只用在SMLM－based预训练模型上添加全连接层和softmax分类层即可，发明人给这个分类模型添加了一个类似注意力机制的模块。使用上述方面术语的平均句法结构特征来计算每个词的相似度，在对方面术语抽取模型进行优化时采取梯度下降法，同时使用每个词和平均句法结构特征的相似度来对分类模型的交叉熵损失进行加权，使得方面术语抽取模型更多地关注与方面术语句法结构相似的词。

对术语抽取模型的交叉熵损失函数进行加权的具体表达式为：

其中，D表示用于训练的源领域数据集，T表示每个句子的长度，y _i为每个词的实际标注，

表示每个词的预测标注，

表示交叉熵损失函数，

表示源领域所有方面术语的平均句法结构特征。

本发明的进一步技术方案是：获取所述源领域中每个词和所述平均句法结构特征的相似度后，将所述相似度高于阈值并且词频高于阈值的词加入到相似词候选集中，当利用有标注的源领域对所述方面术语抽取模型进行训练时，每一轮都利用相似词候选集来替换部分源领域数据中的方面术语。

具体实施过程中，发明人提出了一种基于句法结构相似度的retrieval-and-replace机制，上述说明了利用句法结构信息达成基于模型的领域自适应，发明人还提出利用句法结构相似度来达成基于数据的领域自适应。进行领域自适应时可以利用无标注的目标领域数据，使用源领域中的方面术语的平均句法结构特征来获取无标注的目标领域的每个词的句法结构相似度，将句法结构相似度以及词频均高于阈值的词加入到相似词候选集中，优选的，阈值范围为0.2~0.8，更进一步的，阈值在优选实施例为0.5。利用有标注的源领域数据对方面术语抽取模型进行训练时，每一轮都利用相似词候选集来替换源领域数据中的方面术语，以达到数据层面的领域自适应，利用有标注的源领域数据进行训练时也学习到了部分目标领域的知识。

具体实施过程中，本发明的评估指标使用

,

,

,TP为真阳率；FP为假阳率；FN为假阴率。

基于本发明的实施例2

以下，参照图3来描述根据本公开实施例1的方法对应的系统，一种基于句法结构的领域自适应方面术语抽取系统，系统100包括：句法结构信息获取单元101，用于域和目标领域中每个词的句法依赖关系，将所述词性和所述句法依赖关系作为句法结构信息；平均句法结构特征获取单元102，根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征，将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征；相似度获取单元103，根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度；再预训练单元104，用于对基于Transformer的预训练模型进行基于句法结构相似度的再预训练，再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域中与所述平均句法结构特征的相似度从高到低的前10%至20%中的词进行掩码；方面术语抽取模型训练单元105，用于基于所述掩码语言模型MLM构建方面术语抽取模型，利用梯度下降法对所述术语抽取模型进行训练，训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权；方面术语抽取单元106，用于将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。除了上述6个单元以外，系统100还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。

一种基于句法结构的领域自适应方面术语抽取系统100的具体工作过程参照上述基于句法结构的领域自适应方面术语抽取方法实施例1的描述，不再赘述。

基于本发明的实施例3

根据本发明实施例的装置也可以借助于图4所示的计算设备的架构来实现。图4示出了该计算设备的架构。如图4所示，计算机系统401、系统总线403、一个或多个CPU 404、输入/输出402、存储器405等。存储器405可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1方法的程序指令。图4所示的架构只是示例性的，在实现不同的设备时，根据实际需要调整图4中的一个或多个组件。

基于本发明的实施例4

本发明实施例也可以被实现为计算机可读存储介质。根据实施例4的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本发明实施例1的基于句法结构的领域自适应方面术语抽取方法。

综合上述提供的基于句法结构的领域自适应方面术语抽取方法、系统及存储介质的实施例，本发明使用句法结构相似度作为枢纽特征的领域自适应方法来处理方面术语抽取，即通过句法结构信息来获取源领域和目标领域之间的联系实现领域自适应方面术语抽取，另外，预训练模型中基于句法结构相似度的再预训练，MLM不再是随机的选择词进行替换，而是选取与平均句法结构特征相似度最高的词进行替换，对于每一个进行预训练的语料库的数据，计算每个词与平均后的方面术语的句法结构特征的相似度，并选取相似度从高到低的前10%至20%中的词进行替换，而替换策略则和MLM一致；对术语抽取模型的交叉熵损失函数进行基于句法结构相似度的加权，训练术语抽取模型时每个词的重要性不是相同的，与方面术语的句法结构相似的词被赋以更大的权重，这使得方面术语抽取模型可以更加关注于方面术语句法结构相似的词；基于句法结构相似度的retrieval-and-replace机制，从无标注的目标领域数据中选取与方面术语句法结构相似的词作为相似词候选集，替换源域数据集中的方面术语对术语抽取模型进行训练，利用有标注的源领域数据进行训练时也学习到了部分目标领域的知识，综上所述，本发明方法能学习到词语级领域不变表征，在细粒度的文本抽取任务中能取得不错的成效。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的步骤、方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种步骤、方法所固有的要素。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于句法结构的领域自适应方面术语抽取方法，其特征在于，所述方法包括以下步骤：

根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度，其中，每个词x _i和所述平均句法结构特征

的相似度具体表达式为：

其中，c表示余弦相似度，

表示词x _i的词性，

表示源领域所有方面术语的平均词性特征，

，

表示源领域方面术语集合A中的元素x _j的词性，

表示词x _i的句法依赖关系，

表示源领域所有方面术语的平均句法结构特征，

，

表示源领域方面术语集合A中的元素x _j的句法依赖关系，A表示源领域的方面术语集合，N _A表示源领域中方面术语的总数量；

2.根据权利要求1所述的基于句法结构的领域自适应方面术语抽取方法，其特征在于，所述词性采取one-hot向量编码，所述句法依赖关系采取multi-hot向量编码。

3.根据权利要求1所述的基于句法结构的领域自适应方面术语抽取方法，其特征在于，所述对所述术语抽取模型的交叉熵损失函数进行加权的具体表达式为：

其中，D表示源领域数据集，T表示每个句子的长度，

表示每个词的预测标注，

表示交叉熵损失函数。

4.根据权利要求1所述的基于句法结构的领域自适应方面术语抽取方法，其特征在于，获取所述目标领域中每个词和平均句法结构特征的相似度，将所述相似度高于阈值并且词频高于阈值的词加入到相似词候选集中，当利用有标注的源领域对所述方面术语抽取模型进行训练时，每一轮都利用相似词候选集来替换源领域数据中的方面术语用于构造领域迁移数据集。

5.一种基于句法结构的领域自适应方面术语抽取系统，其特征在于，所述系统包括：

相似度获取单元，用于根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度，其中，每个词x _i和所述平均句法结构特征

的相似度具体表达式为：