CN114610852B - 一种基于课程学习的细粒度中文句法分析方法及装置 - Google Patents
一种基于课程学习的细粒度中文句法分析方法及装置 Download PDFInfo
- Publication number
- CN114610852B CN114610852B CN202210500644.1A CN202210500644A CN114610852B CN 114610852 B CN114610852 B CN 114610852B CN 202210500644 A CN202210500644 A CN 202210500644A CN 114610852 B CN114610852 B CN 114610852B
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- pseudo
- fine
- grained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供了一种基于课程学习的细粒度中文句法分析方法及装置,涉及自然语言分析技术领域。包括以下步骤:预设基础模型,获取无标注的原始目标领域文本;将无标注的原始目标领域文本作为模型输入,获得伪标注数据;通过构建自动标注效果度量指标,以及距离度量指标,对伪标注数据的质量进行优化,获得细粒度高质量伪数据;将细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。
Description
技术领域
本发明涉及自然语言分析技术领域,特别是指一种基于课程学习的细粒度中文句法分析方法及装置。
背景技术
句法分析是自然语言处理中最重要的基础任务之一,旨在使用计算机自动分析自然语言的文本,并从文本中抽取出句法结构(主谓宾结构)和词汇间的依存关系(并列,从属等),使得计算机能够根据自动分析的结果,进行一定程度的运算和推理,实现深层次的文本理解,并为自然语言处理的各项下游应用提供基础性支撑。
依存句法分析的目标是给定输入句子,构建一棵依存句法树,捕捉句子内部词语之间的修饰或搭配关系,从而刻画句子的句法和语义结构。近几年来,随着深度学习的在自然语言处理领域的快速发展,依存句法分析准确率有了显著提高。目前,依存句法的应用主要集中在新闻这一领域(源领域),其拥有数据量大,文本正式等特点,而在诸如小说、新媒体、医疗以及科技等相关领域(目标领域)中,依存句法分析的效果仍然受到限制,这是由于这些领域数据量少,同时和标准的用于训练的新闻领域差异过大所导致。
当前已有不少工作表明,领域迁移的方法可以帮助提升跨领域依存句法分析的结果。这些方法可以分为两大类,分别从外部生成目标领域的伪数据以及从内部提升模型效果。而这些方法大多无法很好的控制伪数据的质量,同时也没有办法很好的模型去适用这些数据,从而限制了效果的提升。
当前已有不少工作表明,领域迁移的方法可以帮助提升跨领域依存句法分析的结果。这些方法可以分为两大类,第一是针对数据量稀少的问题,通过已有的句法分析模型为构造目标领域自动化低成本地构造伪数据,从而达到提升目标领域效果的目的;第二则是让模型学习更通用的特征,从模型自身层面提升在目标领域的效果。
总体而言,目前跨领域中文句法分析仍存在较多问题,现有的相关技术仍需要改进与提升。第一是由于目前没有一个很好的指标来度量伪数据的质量,导致产生的低质量数据对模型效果的提升产生负面影响;第二是从特征层面提升句法分析模型在目标领域的效果,但是针对共性少的领域其提升受限,同时无法很好的和伪数据进行结合。
发明内容
针对现有技术中产生的低质量数据对模型效果的提升产生负面影响,以及针对共性少的领域其提升受限,同时无法很好的和伪数据进行结合的问题,本发明提出了一种基于课程学习的细粒度中文句法分析方法及装置。
为解决上述技术问题,本发明提供如下技术方案:
一方面,提供了一种基于课程学习的细粒度中文句法分析方法,包括以下步骤:
S1:预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
S2:通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
S3:通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
S4:将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,步骤S2中,通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据,包括:
S21:
对利用所述基础模型获得的伪标注数据进行自动标注,为每个自动标注过程中的标注单元都分配一个概率;
S22:将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,步骤S22中,将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤伪数据,包括:
S223:针对所述原始目标领域文本D中每个未标注的文本,过滤所有存在整体句子核心词概率或整体句子核心词的句法关系概率小于预设阈值的伪标注文本,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,步骤S3中,构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据,包括:
S31:使用字典外词OOV作为过滤后伪数据的距离的度量指标;
目标领域中过滤后伪数据和源领域之间的距离,为两者相干关系的差异的大小;通过迭代,使生成的过滤后伪数据与源领域的差异逐步增大;在第轮迭代中,针对未标注目标领域文本,统计出其中OOV词汇数目,如果 ,且符合概率一致性的条件,则将其加入该轮次生成的新的伪数据中;若否,则略过该数据,进行下一个数据比较。
可选地,S32还包括,在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
可选地,步骤S4中,将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析,包括:
S41:采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
S42:结合参数生成网络PGN,为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征;
S43:使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,步骤S4还包括:当需要同时学习多个领域之间的通用特征时,结合获得的细粒度高质量伪数据,通过多迭代的方式,在第i轮学习中,将源领域数据与目标领域的细粒度高质量伪数据,用于训练模型,在下一轮学习中用其来初始化模型,完成多个领域学习过程中由简到难的课程学习。
一方面,提供了一种基于课程学习的细粒度中文句法分析装置,该装置应用于电子设备,该装置包括:
标注效果度量指标模块,用于构建伪数据的自动标注效果度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据;
距离度量指标模块,用于构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据;
分析模型构建模块,用于将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种基于课程学习的细粒度中文句法分析方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种基于课程学习的细粒度中文句法分析方法。
本发明实施例的上述技术方案至少具有如下有益效果:
上述方案中,本发明提出一种基于课程学习的细粒度中文句法分析方法。主要解决当前中文句法分析中存在的跨领域效果低问题。现有的方法都存在伪数据质量低,以及领域跨度大导致通用特征提取困难等问题。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的流程图;
图2是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的流程图;
图3是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的中文依存句法伪数据示意图;
图4是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的细粒度子领域划分示意图;
图5是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的基于课程学习的中文句法模型图;
图6是本发明实施例提供的一种基于课程学习的细粒度中文句法分析装置框图;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种基于课程学习的细粒度中文句法分析方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的基于课程学习的细粒度中文句法分析方法流程图,该方法的处理流程可以包括如下的步骤:
S101:预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
S102:通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
S103:通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
S104:将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,步骤S102中,构建伪数据的自动标注效果度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤伪数据,包括:
S122:将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,步骤S122中,将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤伪数据,包括:
S1223:针对所述原始目标领域文本D中每个未标注的文本,过滤所有存在整体句子核心词概率或整体句子核心词的句法关系概率小于预设阈值的伪标注文本,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,步骤S103中,构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据,包括:
S131:使用字典外词(Out-Of-Vocabulary,OOV)作为过滤后伪数据的距离的度量指标;
目标领域中过滤后伪数据和源领域之间的距离,为两者相干关系的差异的大小;通过迭代,使生成的过滤后伪数据与源领域的差异逐步增大;在第轮迭代中,针对未标注目标领域文本,统计出其中OOV词汇数目,如果 ,且符合概率一致性的条件,则将其加入该轮次生成的新的伪数据中;若否,则略过该数据,进行下一个数据比较。
可选地,步骤S132还包括,在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
可选地,步骤S104中,将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析,包括:
S141:采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
S142:结合参数生成网络(Parameter Generator Network,PGN),为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征;
S143:使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,步骤S104还包括:当需要同时学习多个领域之间的通用特征时,结合获得的细粒度高质量伪数据,通过多迭代的方式,在第i轮学习中,将源领域数据与目标领域的细粒度高质量伪数据,用于训练模型,在下一轮学习中用其来初始化模型,完成多个领域学习过程中由简到难的课程学习。
本发明实施例中,本发明提出一种基于课程学习的细粒度中文句法分析方法。主要解决当前中文句法分析中存在的跨领域效果低问题。现有的方法都存在伪数据质量低,以及领域跨度大导致通用特征提取困难等问题。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。
本发明实施例提供了一种基于课程学习的细粒度中文句法分析方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图2所示的基于课程学习的细粒度中文句法分析方法流程图,该方法的处理流程可以包括如下的步骤:
S203:将所述概率作为自动标注效果的度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
一种可行的实施方式中,本发明通过构建伪数据的自动标注效果度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤伪数据。
一种可行的实施方式中,通过为每个自动标注过程中的标注单元都分配一个概率,其标注结果如图3所示,将概率作为自动标注效果的度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤伪数据,包括:
S204:使用字典外词OOV作为过滤后伪数据的距离的度量指标;
一种可行的实施方式中,为了进一步调高伪数据质量,并减小源领域和目标领域之间的不一致性,让模型能更好的学习不同领域之间的共同关系,我们进一步提出了使用OOV单词来度量目标领域伪数据和源领域之间的距离,即差异的大小,其原理如图4所示,通过构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据。
一种可行的实施方式中,通过衡量迭代过滤后伪数据和源领域的相干关系,获得伪数据,包括:
目标领域中过滤后伪数据和源领域之间的距离,为两者相干关系的差异的大小;通过迭代,使生成的过滤后伪数据与源领域的差异逐步增大;在第轮迭代中,针对未标注目标领域文本,统计出其中OOV词汇数目,如果 ,且符合概率一致性的条件,则将其加入该轮次生成的新的伪数据中;若否,则略过该数据,进行下一个数据比较。
一种可行的实施方式中,为了进一步保证OOV单词的质量,需要在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
一种可行的实施方式中,在每一轮迭代中,将新的伪数据用于训练所述新的模型;利用来得到下一轮次的新的伪数据;通过这种迭代式生成的方式,获得细粒度高质量伪数据。其中,初始的预设模型的训练数据是新模型的子集。
本发明实施例中,通过上述的步骤201-步骤206,首先解决的是伪数据质量低的问题。本发明基于中文文本以及领域特性提出了多种质量度量指标。充分利用在自动标注过程中每个标注单元的概率,将其作为自动标注效果的一个度量指标,通过高质量以及一致性的过滤,一定程度上保证伪数据的质量。同时使用字典外词(Out-Of-Vocabulary,OOV)作为距离的度量指标,用于衡量伪数据和源领域的相干关系,OOV越多他们之间的相似程度越少,从而控制模型学习的难易层度。最终通过这种迭代式生成的方式,可以得到一组高质量且跨度小的细粒度高质量伪数据。
S207:采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
本发明实施例中,预训练模型为加入了adapter的BERT模型。针对模型特征编码部分,我们采用预训练模型对文本特征进行编码。预训练词表示已成为自然语言处理各个模型中最基础的一个部分,它主要是针对一段对话文本,将文本转换成为向量形式的深度学习特征表示,能为自然语言处理的各类任务带来巨大的性能提升,因此预训练词表示输入是保障依存图分析模型性能的基础。然而利用基于预训练词表示的高阶特征虽然能提供强大的性能,但在一定程度会存在预训练词表示导致的参数效率过低问题。例如我们针对不同的任务一级不同的训练方式,需要通过微调的方式对BERT所有参数(数量大于100M)进行单独优化,因此每一个模型均需要维护一个新的BERT参数拷贝,从而造成参数效率的低下问题。本发明的任务涉及逐步从多个细粒度的子领域中提取共同特征,通过引入高阶特征抽取,结合适配器(Adapter)模块,可以保留一个公共预训练词表示模块,即仅保留一份预训练词表示参数,大大提升参数效率。
S208:结合参数生成网络PGN,为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征。
一种可行的实施方式中,结合参数生成网络(Parameter Generator Network,PGN),为每个适配器生成其对应于每个子领域的特征,同时又结合对抗网络进行训练,让模型学习每个领域之间的通用特征。
其中, 表示插入了适配器的BERT模型,表示参数生成网络;表示特征的子领域,是编码后的高层特征表示,是针对特定领域进行提取的高层特征表示, 是通过PGN生成的特定领域的适配器参数。之后,我们再利用梯度反转的方法,让辨别器分辨各个细粒度领域,同时让模型学习各个细粒度子领域通用的特征去欺骗辨别器:
S209:使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
一种可行的实施方式中,通过将细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。本发明以步骤206中所得的细粒度高质量伪数据作为训练数据,并利用课程学习的方法,以获得基于课程学习的细粒度中文句法分析模型。当前自然语言处理的主流模型,采用深度学习的方法,以Biaffine为基本框架,取得了突破性进展。本发明采用类似的方法,分别从编码特征表示和Biaffine解码着手,利用现有的高性能预训练表示以及对抗学习模块,结合课程学习方法逐步的从细粒度高质量伪数据中训练一个高准确率高性能的中文句法分析模型,其具体如图5所示。
一种可行的实施方式中,上述模型虽然能取得较高的性能,但是在同时学习多个领域情况下可能存在困难。针对这一问题,当需要同时学习多个领域之间的通用特征时,结合获得的细粒度高质量伪数据,通过多迭代的方式,在第i轮学习中,将源领域数据与目标领域的细粒度高质量伪数据,用于训练模型,在下一轮学习中用其来初始化模型,完成多个领域学习过程中由简到难的课程学习,进一步提升跨领域中文句法分析的效果。
本发明实施例中,本发明提出一种基于课程学习的细粒度中文句法分析方法。主要解决当前中文句法分析中存在的跨领域效果低问题。现有的方法都存在伪数据质量低,以及领域跨度大导致通用特征提取困难等问题。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。
图6是根据一示例性实施例示出的一种基于课程学习的细粒度中文句法分析装置框图。参照图6,该装置300包括:
预设模块310,用于预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
标注效果度量指标模块320,用于通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
距离度量指标模块330,用于通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
分析模型构建模块340,用于将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
将所述概率作为自动标注效果的度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
针对所述原始目标领域文本D中每个未标注的文本,过滤所有存在整体句子核心词的句法关系概率或整体句子核心词的句法关系概率小于预设阈值的伪标注文本,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,距离度量指标模块330,还用于使用字典外词OOV作为过滤后伪数据的距离的度量指标;
可选地,距离度量指标模块330,还用于目标领域中过滤后伪数据和源领域之间的距离,为两者相干关系的差异的大小;通过迭代,使生成的过滤后伪数据与源领域的差异逐步增大;在第轮迭代中,针对未标注目标领域文本,统计出其中OOV词汇数目,如果 ,且符合概率一致性的条件,则将其加入该轮次生成的新的伪数据中;若否,则略过该数据,进行下一个数据比较。
可选地,距离度量指标模块330,还用于在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
可选地,步骤S104中,将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析,包括:
采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
结合参数生成网络PGN,为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征;
使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,分析模型构建模块340,还用于当需要同时学习多个领域之间的通用特征时,结合获得的细粒度高质量伪数据,通过多迭代的方式,在第i轮学习中,将源领域数据与目标领域的细粒度高质量伪数据,用于训练模型,在下一轮学习中用其来初始化模型,完成多个领域学习过程中由简到难的课程学习。
本发明实施例中,提出一种基于课程学习的细粒度中文句法分析方法。主要解决当前中文句法分析中存在的跨领域效果低问题。现有的方法都存在伪数据质量低,以及领域跨度大导致通用特征提取困难等问题。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。
图7是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现下述基于课程学习的细粒度中文句法分析方法的步骤:
S2:构建伪数据的自动标注效果度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据;
S3:构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据;
S4:将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于课程学习的细粒度中文句法分析方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于课程学习的细粒度中文句法分析方法,其特征在于,包括以下步骤:
S1:预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
S2:通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
所述步骤S2中,通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据,包括:
S21:对利用所述基础模型获得的伪标注数据进行自动标注,为每个自动标注过程中的标注单元都分配一个概率;
S22:将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据;
S3:通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
所述步骤S3中,通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据,包括:
S31:使用字典外词OOV作为过滤后伪数据的距离的度量指标;
S4:将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
2.根据权利要求1所述的方法,其特征在于,所述步骤S22中,将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述步骤S32还包括,在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
6.根据权利要求1所述的方法,其特征在于,所述步骤S4中,将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析,包括:
S41:采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
S42:结合参数生成网络PGN,为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征;
S43:使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
8.一种基于课程学习的细粒度中文句法分析装置,其特征在于,所述装置适用于上述权利要求1-7中任意一项的方法,装置包括:
预设模块,用于预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
标注效果度量指标模块,用于通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
将所述概率作为自动标注效果的度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据;
距离度量指标模块,用于通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
距离度量指标模块,还用于使用字典外词OOV作为过滤后伪数据的距离的度量指标;
分析模型构建模块,用于将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500644.1A CN114610852B (zh) | 2022-05-10 | 2022-05-10 | 一种基于课程学习的细粒度中文句法分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500644.1A CN114610852B (zh) | 2022-05-10 | 2022-05-10 | 一种基于课程学习的细粒度中文句法分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114610852A CN114610852A (zh) | 2022-06-10 |
CN114610852B true CN114610852B (zh) | 2022-09-13 |
Family
ID=81869630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210500644.1A Active CN114610852B (zh) | 2022-05-10 | 2022-05-10 | 一种基于课程学习的细粒度中文句法分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114610852B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514151A (zh) * | 2012-06-29 | 2014-01-15 | 富士通株式会社 | 依存句法分析方法、装置及辅助分类器训练方法 |
CN111653147A (zh) * | 2020-07-29 | 2020-09-11 | 河南中医药大学 | 一种大学生对中医药专业课程学习迁移测试平台 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853710B (zh) * | 2013-11-21 | 2016-06-08 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
CN103678565B (zh) * | 2013-12-09 | 2017-02-15 | 国家计算机网络与信息安全管理中心 | 一种基于自引导方式的领域自适应句子对齐系统 |
US11151130B2 (en) * | 2017-02-04 | 2021-10-19 | Tata Consultancy Services Limited | Systems and methods for assessing quality of input text using recurrent neural networks |
CN110781369A (zh) * | 2018-07-11 | 2020-02-11 | 天津大学 | 一种基于依存句法和泛化因果网络进行情感原因挖掘方法 |
KR102588185B1 (ko) * | 2018-09-28 | 2023-10-13 | 한국전자통신연구원 | 지식 그래프 기반 문장 분석 방법 |
CN110851597A (zh) * | 2019-10-28 | 2020-02-28 | 青岛聚好联科技有限公司 | 一种基于同类实体替换的语句标注的方法及装置 |
CN111144119B (zh) * | 2019-12-27 | 2024-03-29 | 北京联合大学 | 一种改进知识迁移的实体识别方法 |
-
2022
- 2022-05-10 CN CN202210500644.1A patent/CN114610852B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514151A (zh) * | 2012-06-29 | 2014-01-15 | 富士通株式会社 | 依存句法分析方法、装置及辅助分类器训练方法 |
CN111653147A (zh) * | 2020-07-29 | 2020-09-11 | 河南中医药大学 | 一种大学生对中医药专业课程学习迁移测试平台 |
Also Published As
Publication number | Publication date |
---|---|
CN114610852A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489555B (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN112528034B (zh) | 一种基于知识蒸馏的实体关系抽取方法 | |
CN104615589A (zh) | 训练命名实体识别模型的方法、命名实体识别方法及装置 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN116151132B (zh) | 一种编程学习场景的智能代码补全方法、系统及储存介质 | |
CN110414003B (zh) | 建立文本生成模型的方法、装置、介质和计算设备 | |
CN114896971B (zh) | 一种特定前后缀否定词识别方法、装置及存储介质 | |
CN115293139A (zh) | 一种语音转写文本纠错模型的训练方法和计算机设备 | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 | |
CN117057414A (zh) | 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统 | |
CN114610852B (zh) | 一种基于课程学习的细粒度中文句法分析方法及装置 | |
CN115860015B (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
CN116562295A (zh) | 一种面向桥梁领域文本的增强语义命名实体识别方法 | |
CN116595189A (zh) | 基于两阶段的零样本关系三元组抽取方法及系统 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN116029300A (zh) | 一种强化中文实体语义特征的语言模型训练方法和系统 | |
CN115392255A (zh) | 一种面向桥梁检测文本的少样本机器阅读理解方法 | |
CN116266268A (zh) | 基于对比学习与语义感知的语义解析方法及装置 | |
CN112416754B (zh) | 一种模型评测方法、终端、系统及存储介质 | |
CN114139535A (zh) | 一种关键词造句方法、装置、计算机设备及可读介质 | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
CN115906838A (zh) | 文本抽取方法、装置、电子设备以及存储介质 | |
CN114996424B (zh) | 一种基于深度学习的弱监督跨域问答对生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |