CN114492387B - 基于句法结构的领域自适应方面术语抽取方法及系统 - Google Patents

基于句法结构的领域自适应方面术语抽取方法及系统 Download PDF

Info

Publication number
CN114492387B
CN114492387B CN202210401179.6A CN202210401179A CN114492387B CN 114492387 B CN114492387 B CN 114492387B CN 202210401179 A CN202210401179 A CN 202210401179A CN 114492387 B CN114492387 B CN 114492387B
Authority
CN
China
Prior art keywords
syntactic
average
domain
term extraction
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210401179.6A
Other languages
English (en)
Other versions
CN114492387A (zh
Inventor
高翠芸
董安国
肖京
王轩
王磊
张加佳
赵盟盟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202210401179.6A priority Critical patent/CN114492387B/zh
Publication of CN114492387A publication Critical patent/CN114492387A/zh
Application granted granted Critical
Publication of CN114492387B publication Critical patent/CN114492387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于句法结构的领域自适应方面术语抽取方法及系统,包括将源领域和目标领域中词的词性和句法依赖关系作为句法结构信息;计算源领域方面术语的平均词性特征和平均句法依赖关系特征并作为方面术语的平均句法结构特征;根据句法结构信息计算源领域和目标领域中每个词和平均句法结构特征的相似度;对基于Transformer的预训练模型进行基于句法结构相似度的再预训练;基于掩码语言模型MLM构建方面术语抽取模型并进行训练,训练过程中对术语抽取模型的交叉熵损失函数进行加权。本发明能学习到词语级领域不变表征,在细粒度的文本抽取任务中能取得不错的成效。

Description

基于句法结构的领域自适应方面术语抽取方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于句法结构的领域自适应方面术语抽取方法及系统。
背景技术
方面术语抽取是一项细粒度的分类任务,方面术语指一个文本中最细粒度的评价对象,例如在“the waiter was rude, but the food was delicious”中,“waiter”和“food”是两个方面术语。方面术语抽取任务旨在抽取文本中出现的所有方面。
用于进行方面术语抽取的有监督模型依赖于大量有标注的数据,但是其标注的代价往往十分昂贵。同时大多数监督学习方法都服从一个共同的假设:训练数据和测试数据来自相同的分布。若违反了这个假设,由于领域之间的差异,在源领域上训练的模型作用于目标领域时性能可能会剧烈下降。为了减轻对有标注数据的依赖,迁移学习中的领域自适应是解决问题的关键。领域自适应方法在有标注的源领域数据集上训练模型以达到在无标注的目标领域良好的泛化效果。
传统的领域自适应方法大多关注粗粒度的文本分类任务,这些方法的核心思想是对齐源领域和目标领域的特征分布。总的来说可以将传统领域自适应方法分为两类:一类是利用统计学方法来减小源领域和目标领域的差异;另一类则是利用对抗训练来模糊领域之间的差异。这些方法在粗粒度文本分类任务中取得了不错的成效,但是在细粒度的文本分类任务,如序列标注任务中表现不佳,究其原因,传统领域自适应方法只能学习到句子级领域不变表征但无法学习到词语级领域不变表征,因此难以应用到词语级文本分类任务。方面级情感分析的子任务方面术语抽取是一个词语级文本分类任务,因此传统领域自适应方法不适用。
发明内容
本发明针对上述问题,提供了一种基于句法结构的领域自适应方面术语抽取方法及系统,通过句法结构信息来获取源领域和目标领域之间的联系,实现领域自适应方面术语抽取。
本发明的第一方面,提供了一种基于句法结构的领域自适应方面术语抽取方法,方法包括如下步骤:
采用词性标注技术获取源领域和目标领域中每个词的词性,采用句法依赖关系解析技术获取所述源领域和目标领域中每个词的句法依赖关系,将所述词性和所述句法依赖关系作为句法结构信息;
根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征,将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征;
根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度;
对基于Transformer的预训练模型进行基于句法结构相似度的再预训练,再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域中与所述平均句法结构特征的相似度从高到低的前10%至20%中的词进行掩码;
基于所述掩码语言模型MLM构建方面术语抽取模型,利用梯度下降法对所述术语抽取模型进行训练,训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权;
将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。
本发明的进一步技术方案是:所述词性采取one-hot向量编码,所述句法依赖关系采取multi-hot向量编码。
本发明的进一步技术方案是:根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的相似度,其中,每个词x i 和所述平均句法结构特征
Figure 86666DEST_PATH_IMAGE001
的相似度具体表达式为:
Figure 472648DEST_PATH_IMAGE002
其中,c表示余弦相似度,
Figure 721227DEST_PATH_IMAGE003
表示词x i 的词性,
Figure 818234DEST_PATH_IMAGE004
表示源领域所有方面术语的平均词性特征,
Figure 101448DEST_PATH_IMAGE005
Figure 189489DEST_PATH_IMAGE006
表示源领域方面术语集合A中的元素x j 的词性,
Figure 128626DEST_PATH_IMAGE007
表示词x i 的句法依赖关系,
Figure 593106DEST_PATH_IMAGE008
表示源领域所有方面术语的平均句法结构特征,
Figure 730826DEST_PATH_IMAGE009
Figure 927452DEST_PATH_IMAGE010
表示源领域方面术语集合A中的元素x j 的句法依赖关系,A表示源领域的方面术语集合,N A 表示源领域中方面术语的总数量。
本发明的进一步技术方案是:所述对所述术语抽取模型的交叉熵损失函数进行加权的具体表达式为:
Figure 150623DEST_PATH_IMAGE011
其中,D表示源领域数据集,T表示每个句子的长度,
Figure 153214DEST_PATH_IMAGE001
表示源领域所有方面术语的平均句法结构特征,y i 为每个词的实际标注,
Figure 145441DEST_PATH_IMAGE012
表示每个词的预测标注,
Figure 280012DEST_PATH_IMAGE013
表示交叉熵损失函数。
本发明的进一步技术方案是:获取所述目标领域中每个词和平均句法结构特征的相似度,将所述相似度高于阈值并且词频高于阈值的词加入到相似词候选集中,当利用有标注的源领域对所述方面术语抽取模型进行训练时,每一轮都利用相似词候选集来替换源领域数据中的方面术语用于构造领域迁移数据集。
本发明的第二方面,提供了一种基于句法结构的领域自适应方面术语抽取系统,系统包括:
句法结构信息获取单元,用于采用词性标注技术获取源领域和目标领域中每个词的词性,采用句法依赖关系解析技术获取所述源领域和目标领域中每个词的句法依赖关系,将所述词性和所述句法依赖关系作为句法结构信息;
平均句法结构特征获取单元,用于根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征,将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征;
相似度获取单元,用于根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度;
再预训练单元,用于对基于Transformer的预训练模型进行基于句法结构相似度的再预训练,再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域中与所述平均句法结构特征的相似度从高到低的前10%至20%中的词进行掩码;
方面术语抽取模型训练单元,用于基于所述掩码语言模型MLM构建方面术语抽取模型,利用梯度下降法对所述术语抽取模型进行训练,训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权;
方面术语抽取单元,用于将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。
本发明的第三方面,提供了一种基于句法结构的领域自适应方面术语抽取系统,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述基于句法结构的领域自适应方面术语抽取方法。
本发明的第四方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行上述基于句法结构的领域自适应方面术语抽取方法。
本发明提出了一种基于句法结构的领域自适应方面术语抽取方法及系统,使用句法结构相似度作为枢纽特征的领域自适应方法来处理方面术语抽取,即通过句法结构信息来获取源领域和目标领域之间的联系实现领域自适应方面术语抽取,另外,预训练模型中基于句法结构相似度的再预训练,MLM不再是随机的选择词进行替换,而是选取与平均句法结构特征相似度最高的词进行替换,对于每一个进行预训练的语料库的数据,计算每个词与平均后的方面术语的句法结构特征的相似度,并选取相似度从高到低的前10%~20%中的词进行替换,而替换策略则和MLM一致;对术语抽取模型的交叉熵损失函数进行基于句法结构相似度的加权,训练术语抽取模型时每个词的重要性不是相同的,与方面术语的句法结构相似的词被赋以更大的权重,这使得方面术语抽取模型可以更加关注于方面术语句法结构相似的词;基于句法结构相似度的retrieval-and-replace机制,从无标注的目标领域数据中选取与方面术语句法结构相似的词作为相似词候选集,替换源域数据集中的方面术语对术语抽取模型进行训练,利用有标注的源领域数据进行训练时也学习到了部分目标领域的知识,综上所述,本发明方法能学习到词语级领域不变表征,在细粒度的文本抽取任务中能取得不错的成效。
附图说明
图1是本发明实施例中基于句法结构的领域自适应方面术语抽取方法流程示意图;
图2是本发明实施例中SMLM模型方法示意图;
图3是本发明实施例中基于句法结构的领域自适应方面术语抽取系统结构示意图;
图4是本发明实施例中的计算机设备的架构。
具体实施方式
为进一步对本发明的技术方案作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的步骤。
本发明实施例针对基于句法结构的领域自适应方面术语抽取方法、系统及存储介质,提供了如下实施例:
基于本发明的实施例1
本实施例用于说明基于句法结构的领域自适应方面术语抽取方法,如图1所示,为本发明实施例的基于句法结构的领域自适应方面术语抽取方法流程图:
采用词性标注技术获取源领域和目标领域中每个词的词性,采用句法依赖关系解析技术获取所述源领域和目标领域中每个词的句法依赖关系,将所述词性和所述句法依赖关系作为句法结构信息;
具体实施过程中,领域自适应的关键在于学习域不变特征,过往的方法大多用来解决句子级任务,本发明针对词语级分类任务,提出了使用句法结构相似度作为枢纽特征的领域自适应方法来处理方面术语抽取任务。在不同的领域中,方面术语的语义会呈现出很大的差异但是其句法结构往往是相似的,基于此,发明人通过句法结构信息来获取源领域和目标领域之间的联系,选择两项句法结构信息:词性和句法依赖关系。
进一步的,统一使用spacy进行句法解析,词性采取one-hot向量编码,句法依赖关系采取multi-hot向量编码。
为了计算每个词与方面术语之间的句法结构相似度,首先需要编码每个词的句法结构信息。选取词性和句法依赖关系来代表句法结构信息。词性采取词性标注(postagging)技术进行解析,句法依赖关系采取句法依赖关系(dependency relation)解析技术获取。词性采取one-hot向量编码,编码得到的特征使用b pos 表示;句法依赖关系采取multi-hot向量编码,编码得到的特征使用b dep 表示。句法依赖关系编码中,一个依赖连接的两个节点共享此依赖。所有词的句法结构信息编码完成以后计算方面术语的平均句法结构特征。
一个具体示例如下:餐厅领域的评论“The pizza here is also absolutelydelicious”中“pizza”一词的词性是“NN”、句法依赖关系是{det, nsubj},电脑领域的评论中“The keyboard is in reasonable size”中的“keyboard”一词的词性和句法依赖关系则和前文中的“pizza”一致。
根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征,将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征;
具体地,领域自适应中源领域的数据有标注,因此可以计算源领域所有方面术语的平均句法结构特征,
Figure 990480DEST_PATH_IMAGE014
表示词x i 的词性,
Figure 531182DEST_PATH_IMAGE015
表示源领域所有方面术语的平均词性特征,
Figure 643495DEST_PATH_IMAGE016
Figure 181924DEST_PATH_IMAGE017
表示源领域方面术语集合A中的元素x j 的词性,
Figure 379687DEST_PATH_IMAGE018
表示词x i 的句法依赖关系,
Figure 927343DEST_PATH_IMAGE019
表示源领域所有方面术语的平均句法结构特征,
Figure 894162DEST_PATH_IMAGE009
Figure 134650DEST_PATH_IMAGE010
表示源领域方面术语集合A中的元素x j 的句法依赖关系,A表示源领域的方面术语集合,N A 表示源领域中方面术语的总数量。
根据所述句法结构信息计算所述源领域中每个词和所述平均句法结构特征的相似度;
具体地,每个词x i 和所述平均句法结构特征
Figure 52665DEST_PATH_IMAGE020
的相似度(syntactic structuresimilarity)具体表达式为:
Figure 404012DEST_PATH_IMAGE021
其中,c表示余弦相似度。
对基于Transformer的预训练模型进行基于句法结构相似度的再预训练,再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域的大规模未标注语料库中与所述平均句法结构特征的相似度从高到低的前10%~20%中的词进行掩码;
具体实施过程中,在领域上继续预训练预训练模型可以达到更好的效果。Transformer-based预训练模型,例如BERT,使用两个任务来进行预训练。一个是掩码语言模型(MLM),另一个是下一句预测(NSP)。其中掩码语言模型是其关键,MLM以15%的概率随机选择训练序列中的词进行替换。这些被替换的词将会执行三种替换策略即80%的概率被替换成“[mask]”、10%的概率被替换成字典中的其他词、10%的概率保持不变,然后预测出所有被替换的单词。BERT模型在大规模的语料库上预训练以达到良好的泛化效果。为了让预训练模型学习到源领域和目标领域的方面术语信息,发明人提出了一个新的预训练任务基于句法结构相似度的MLM(SMLM)作为MLM的改编,SMLM如图2所示,不再是随机的选择词进行替换,而是选取源领域中与所述平均句法结构特征的相似度从高到低的前10%~20%中的词进行替换,图2所示为与平均后的方面术语的句法结构特征相似度最高的词进行替换。对于每一个进行预训练的语料库的序列,计算每个词与平均后的方面术语的句法结构特征的相似度,并选取相似度从高到低的前10%~20%中的词进行替换,更进一步的,在优选实施例为前15%中的词进行替换。而替换策略则和MLM一致。在大规模的无标注的包含源领域和目标领域的语料库上进行预训练,因此对目标领域起到迁移效果,Transformer-based预训练模型对于源领域和目标领域的方面术语信息有了更深的理解。
基于所述掩码语言模型MLM构建方面术语抽取模型,利用梯度下降法对所述术语抽取模型进行训练,训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权;
具体实施过程中,利用SMLM-based预训练模型来构建方面术语抽取模型,方面术语抽取本质上是一个词语级分类任务,因此只用在SMLM-based预训练模型上添加全连接层和softmax分类层即可,发明人给这个分类模型添加了一个类似注意力机制的模块。使用上述方面术语的平均句法结构特征来计算每个词的相似度,在对方面术语抽取模型进行优化时采取梯度下降法,同时使用每个词和平均句法结构特征的相似度来对分类模型的交叉熵损失进行加权,使得方面术语抽取模型更多地关注与方面术语句法结构相似的词。
对术语抽取模型的交叉熵损失函数进行加权的具体表达式为:
Figure 22075DEST_PATH_IMAGE022
Figure 433465DEST_PATH_IMAGE023
其中,D表示用于训练的源领域数据集,T表示每个句子的长度,y i 为每个词的实际标注,
Figure 74662DEST_PATH_IMAGE024
表示每个词的预测标注,
Figure 964121DEST_PATH_IMAGE025
表示交叉熵损失函数,
Figure 702269DEST_PATH_IMAGE020
表示源领域所有方面术语的平均句法结构特征。
本发明的进一步技术方案是:获取所述源领域中每个词和所述平均句法结构特征的相似度后,将所述相似度高于阈值并且词频高于阈值的词加入到相似词候选集中,当利用有标注的源领域对所述方面术语抽取模型进行训练时,每一轮都利用相似词候选集来替换部分源领域数据中的方面术语。
具体实施过程中,发明人提出了一种基于句法结构相似度的retrieval-and-replace机制,上述说明了利用句法结构信息达成基于模型的领域自适应,发明人还提出利用句法结构相似度来达成基于数据的领域自适应。进行领域自适应时可以利用无标注的目标领域数据,使用源领域中的方面术语的平均句法结构特征来获取无标注的目标领域的每个词的句法结构相似度,将句法结构相似度以及词频均高于阈值的词加入到相似词候选集中,优选的,阈值范围为0.2~0.8,更进一步的,阈值在优选实施例为0.5。利用有标注的源领域数据对方面术语抽取模型进行训练时,每一轮都利用相似词候选集来替换源领域数据中的方面术语,以达到数据层面的领域自适应,利用有标注的源领域数据进行训练时也学习到了部分目标领域的知识。
将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。
具体实施过程中,本发明的评估指标使用
Figure 284561DEST_PATH_IMAGE026
,
Figure 678633DEST_PATH_IMAGE027
,
Figure 106203DEST_PATH_IMAGE028
,TP为真阳率;FP为假阳率;FN为假阴率。
基于本发明的实施例2
以下,参照图3来描述根据本公开实施例1的方法对应的系统,一种基于句法结构的领域自适应方面术语抽取系统,系统100包括:句法结构信息获取单元101,用于域和目标领域中每个词的句法依赖关系,将所述词性和所述句法依赖关系作为句法结构信息;平均句法结构特征获取单元102,根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征,将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征;相似度获取单元103,根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度;再预训练单元104,用于对基于Transformer的预训练模型进行基于句法结构相似度的再预训练,再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域中与所述平均句法结构特征的相似度从高到低的前10%至20%中的词进行掩码;方面术语抽取模型训练单元105,用于基于所述掩码语言模型MLM构建方面术语抽取模型,利用梯度下降法对所述术语抽取模型进行训练,训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权;方面术语抽取单元106,用于将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。除了上述6个单元以外,系统100还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
一种基于句法结构的领域自适应方面术语抽取系统100的具体工作过程参照上述基于句法结构的领域自适应方面术语抽取方法实施例1的描述,不再赘述。
基于本发明的实施例3
根据本发明实施例的装置也可以借助于图4所示的计算设备的架构来实现。图4示出了该计算设备的架构。如图4所示,计算机系统401、系统总线403、一个或多个CPU 404、输入/输出402、存储器405等。存储器405可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1方法的程序指令。图4所示的架构只是示例性的,在实现不同的设备时,根据实际需要调整图4中的一个或多个组件。
基于本发明的实施例4
本发明实施例也可以被实现为计算机可读存储介质。根据实施例4的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本发明实施例1的基于句法结构的领域自适应方面术语抽取方法。
综合上述提供的基于句法结构的领域自适应方面术语抽取方法、系统及存储介质的实施例,本发明使用句法结构相似度作为枢纽特征的领域自适应方法来处理方面术语抽取,即通过句法结构信息来获取源领域和目标领域之间的联系实现领域自适应方面术语抽取,另外,预训练模型中基于句法结构相似度的再预训练,MLM不再是随机的选择词进行替换,而是选取与平均句法结构特征相似度最高的词进行替换,对于每一个进行预训练的语料库的数据,计算每个词与平均后的方面术语的句法结构特征的相似度,并选取相似度从高到低的前10%至20%中的词进行替换,而替换策略则和MLM一致;对术语抽取模型的交叉熵损失函数进行基于句法结构相似度的加权,训练术语抽取模型时每个词的重要性不是相同的,与方面术语的句法结构相似的词被赋以更大的权重,这使得方面术语抽取模型可以更加关注于方面术语句法结构相似的词;基于句法结构相似度的retrieval-and-replace机制,从无标注的目标领域数据中选取与方面术语句法结构相似的词作为相似词候选集,替换源域数据集中的方面术语对术语抽取模型进行训练,利用有标注的源领域数据进行训练时也学习到了部分目标领域的知识,综上所述,本发明方法能学习到词语级领域不变表征,在细粒度的文本抽取任务中能取得不错的成效。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于句法结构的领域自适应方面术语抽取方法,其特征在于,所述方法包括以下步骤:
采用词性标注技术获取源领域和目标领域中每个词的词性,采用句法依赖关系解析技术获取所述源领域和目标领域中每个词的句法依赖关系,将所述词性和所述句法依赖关系作为句法结构信息;
根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征,将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征;
根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度,其中,每个词x i 和所述平均句法结构特征
Figure 756130DEST_PATH_IMAGE001
的相似度具体表达式为:
Figure 142112DEST_PATH_IMAGE002
其中,c表示余弦相似度,
Figure 266057DEST_PATH_IMAGE003
表示词x i 的词性,
Figure 458004DEST_PATH_IMAGE004
表示源领域所有方面术语的平均词性特征,
Figure 741218DEST_PATH_IMAGE005
Figure 406423DEST_PATH_IMAGE006
表示源领域方面术语集合A中的元素x j 的词性,
Figure 142298DEST_PATH_IMAGE007
表示词x i 的句法依赖关系,
Figure 934674DEST_PATH_IMAGE008
表示源领域所有方面术语的平均句法结构特征,
Figure 337973DEST_PATH_IMAGE009
Figure 675545DEST_PATH_IMAGE010
表示源领域方面术语集合A中的元素x j 的句法依赖关系,A表示源领域的方面术语集合,N A 表示源领域中方面术语的总数量;
对基于Transformer的预训练模型进行基于句法结构相似度的再预训练,再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域中与所述平均句法结构特征的相似度从高到低的前10%至20%中的词进行掩码;
基于所述掩码语言模型MLM构建方面术语抽取模型,利用梯度下降法对所述术语抽取模型进行训练,训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权;
将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。
2.根据权利要求1所述的基于句法结构的领域自适应方面术语抽取方法,其特征在于,所述词性采取one-hot向量编码,所述句法依赖关系采取multi-hot向量编码。
3.根据权利要求1所述的基于句法结构的领域自适应方面术语抽取方法,其特征在于,所述对所述术语抽取模型的交叉熵损失函数进行加权的具体表达式为:
Figure 898716DEST_PATH_IMAGE011
其中,D表示源领域数据集,T表示每个句子的长度,
Figure 229203DEST_PATH_IMAGE001
表示源领域所有方面术语的平均句法结构特征,y i 为每个词的实际标注,
Figure 221430DEST_PATH_IMAGE012
表示每个词的预测标注,
Figure 700209DEST_PATH_IMAGE013
表示交叉熵损失函数。
4.根据权利要求1所述的基于句法结构的领域自适应方面术语抽取方法,其特征在于,获取所述目标领域中每个词和平均句法结构特征的相似度,将所述相似度高于阈值并且词频高于阈值的词加入到相似词候选集中,当利用有标注的源领域对所述方面术语抽取模型进行训练时,每一轮都利用相似词候选集来替换源领域数据中的方面术语用于构造领域迁移数据集。
5.一种基于句法结构的领域自适应方面术语抽取系统,其特征在于,所述系统包括:
句法结构信息获取单元,用于采用词性标注技术获取源领域和目标领域中每个词的词性,采用句法依赖关系解析技术获取所述源领域和目标领域中每个词的句法依赖关系,将所述词性和所述句法依赖关系作为句法结构信息;
平均句法结构特征获取单元,用于根据领域自适应中源领域的数据标注计算源领域所有方面术语的平均词性特征和平均句法依赖关系特征,将所述平均词性特征和所述平均句法依赖关系特征作为源领域所有方面术语的平均句法结构特征;
相似度获取单元,用于根据所述句法结构信息计算所述源领域和目标领域中每个词和所述平均句法结构特征的句法结构相似度,其中,每个词x i 和所述平均句法结构特征
Figure 535310DEST_PATH_IMAGE001
的相似度具体表达式为:
Figure 279275DEST_PATH_IMAGE002
其中,c表示余弦相似度,
Figure 266954DEST_PATH_IMAGE003
表示词x i 的词性,
Figure 70962DEST_PATH_IMAGE004
表示源领域所有方面术语的平均词性特征,
Figure 658938DEST_PATH_IMAGE005
Figure 206594DEST_PATH_IMAGE006
表示源领域方面术语集合A中的元素x j 的词性,
Figure 547314DEST_PATH_IMAGE007
表示词x i 的句法依赖关系,
Figure 787803DEST_PATH_IMAGE008
表示源领域所有方面术语的平均句法结构特征,
Figure 331916DEST_PATH_IMAGE009
Figure 683263DEST_PATH_IMAGE010
表示源领域方面术语集合A中的元素x j 的句法依赖关系,A表示源领域的方面术语集合,N A 表示源领域中方面术语的总数量;
再预训练单元,用于对基于Transformer的预训练模型进行基于句法结构相似度的再预训练,再预训练过程中所述预训练模型中的掩码语言模型MLM掩码策略是选取包含源领域和目标领域中与所述平均句法结构特征的相似度从高到低的前10%至20%中的词进行掩码;
方面术语抽取模型训练单元,用于基于所述掩码语言模型MLM构建方面术语抽取模型,利用梯度下降法对所述术语抽取模型进行训练,训练过程中使用所述源领域中每个词和所述平均句法结构特征的相似度对所述术语抽取模型的交叉熵损失函数进行加权;
方面术语抽取单元,用于将待处理语句文本输入训练好的所述方面术语抽取模型中即可输出方面术语抽取结果。
6.一种基于句法结构的领域自适应方面术语抽取系统,其特征在于,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-4中任一项所述的基于句法结构的领域自适应方面术语抽取方法。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处
理器执行时实现如权利要求1-4中任一项所述的基于句法结构的领域自适应方面术语抽取方法。
CN202210401179.6A 2022-04-18 2022-04-18 基于句法结构的领域自适应方面术语抽取方法及系统 Active CN114492387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210401179.6A CN114492387B (zh) 2022-04-18 2022-04-18 基于句法结构的领域自适应方面术语抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210401179.6A CN114492387B (zh) 2022-04-18 2022-04-18 基于句法结构的领域自适应方面术语抽取方法及系统

Publications (2)

Publication Number Publication Date
CN114492387A CN114492387A (zh) 2022-05-13
CN114492387B true CN114492387B (zh) 2022-07-19

Family

ID=81489601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210401179.6A Active CN114492387B (zh) 2022-04-18 2022-04-18 基于句法结构的领域自适应方面术语抽取方法及系统

Country Status (1)

Country Link
CN (1) CN114492387B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455638A (zh) * 2013-09-26 2013-12-18 中国科学院自动化研究所 一种结合推理和半自动学习的行为知识提取方法和装置
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN111488734A (zh) * 2020-04-14 2020-08-04 西安交通大学 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN112200664A (zh) * 2020-10-29 2021-01-08 上海畅圣计算机科技有限公司 基于ernie模型和dcnn模型的还款预测方法
CN112347787A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 方面级别情感分类方法、装置、设备及可读存储介质
CN107957991B (zh) * 2017-12-05 2021-06-01 湖南星汉数智科技有限公司 一种基于句法依赖的实体属性信息抽取方法及装置
CN113627150A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487803B2 (en) * 2020-01-30 2022-11-01 Walmart Apollo, Llc Systems and methods for keyword categorization

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455638A (zh) * 2013-09-26 2013-12-18 中国科学院自动化研究所 一种结合推理和半自动学习的行为知识提取方法和装置
CN107957991B (zh) * 2017-12-05 2021-06-01 湖南星汉数智科技有限公司 一种基于句法依赖的实体属性信息抽取方法及装置
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN111488734A (zh) * 2020-04-14 2020-08-04 西安交通大学 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN112200664A (zh) * 2020-10-29 2021-01-08 上海畅圣计算机科技有限公司 基于ernie模型和dcnn模型的还款预测方法
CN112347787A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 方面级别情感分类方法、装置、设备及可读存储介质
CN113627150A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Syntax-BERT:Improving Pre-Trained Transformers with Syntax Trees;Jiangang Bai 等;《https://arxiv.org/pdf/2103.04350.pdf》;20210307;1-10 *
基于BERT预训练模型的中文主观题自动评分算法;徐超;《中国优秀硕士学位论文全文数据库 (社会科学Ⅱ辑)》;20210415;H127-38 *

Also Published As

Publication number Publication date
CN114492387A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
Wu et al. Neural metaphor detecting with CNN-LSTM model
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN112926324B (zh) 融合词典与对抗迁移的越南语事件实体识别方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110210032A (zh) 文本处理方法及装置
CN113535953B (zh) 一种基于元学习的少样本分类方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
Gupta et al. Evaluating neural morphological taggers for Sanskrit
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114781651A (zh) 基于对比学习的小样本学习鲁棒性提升方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN116720498A (zh) 一种文本相似度检测模型的训练方法、装置及其相关介质
CN114492387B (zh) 基于句法结构的领域自适应方面术语抽取方法及系统
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN116127978A (zh) 基于医学文本的嵌套命名实体抽取方法
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant