CN114610852B - 一种基于课程学习的细粒度中文句法分析方法及装置 - Google Patents

一种基于课程学习的细粒度中文句法分析方法及装置 Download PDF

Info

Publication number
CN114610852B
CN114610852B CN202210500644.1A CN202210500644A CN114610852B CN 114610852 B CN114610852 B CN 114610852B CN 202210500644 A CN202210500644 A CN 202210500644A CN 114610852 B CN114610852 B CN 114610852B
Authority
CN
China
Prior art keywords
data
quality
pseudo
fine
grained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210500644.1A
Other languages
English (en)
Other versions
CN114610852A (zh
Inventor
张梅山
曹议丹
江沛杰
孙越恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210500644.1A priority Critical patent/CN114610852B/zh
Publication of CN114610852A publication Critical patent/CN114610852A/zh
Application granted granted Critical
Publication of CN114610852B publication Critical patent/CN114610852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种基于课程学习的细粒度中文句法分析方法及装置,涉及自然语言分析技术领域。包括以下步骤:预设基础模型,获取无标注的原始目标领域文本;将无标注的原始目标领域文本作为模型输入,获得伪标注数据;通过构建自动标注效果度量指标,以及距离度量指标,对伪标注数据的质量进行优化,获得细粒度高质量伪数据;将细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。

Description

一种基于课程学习的细粒度中文句法分析方法及装置
技术领域
本发明涉及自然语言分析技术领域,特别是指一种基于课程学习的细粒度中文句法分析方法及装置。
背景技术
句法分析是自然语言处理中最重要的基础任务之一,旨在使用计算机自动分析自然语言的文本,并从文本中抽取出句法结构(主谓宾结构)和词汇间的依存关系(并列,从属等),使得计算机能够根据自动分析的结果,进行一定程度的运算和推理,实现深层次的文本理解,并为自然语言处理的各项下游应用提供基础性支撑。
依存句法分析的目标是给定输入句子,构建一棵依存句法树,捕捉句子内部词语之间的修饰或搭配关系,从而刻画句子的句法和语义结构。近几年来,随着深度学习的在自然语言处理领域的快速发展,依存句法分析准确率有了显著提高。目前,依存句法的应用主要集中在新闻这一领域(源领域),其拥有数据量大,文本正式等特点,而在诸如小说、新媒体、医疗以及科技等相关领域(目标领域)中,依存句法分析的效果仍然受到限制,这是由于这些领域数据量少,同时和标准的用于训练的新闻领域差异过大所导致。
当前已有不少工作表明,领域迁移的方法可以帮助提升跨领域依存句法分析的结果。这些方法可以分为两大类,分别从外部生成目标领域的伪数据以及从内部提升模型效果。而这些方法大多无法很好的控制伪数据的质量,同时也没有办法很好的模型去适用这些数据,从而限制了效果的提升。
当前已有不少工作表明,领域迁移的方法可以帮助提升跨领域依存句法分析的结果。这些方法可以分为两大类,第一是针对数据量稀少的问题,通过已有的句法分析模型为构造目标领域自动化低成本地构造伪数据,从而达到提升目标领域效果的目的;第二则是让模型学习更通用的特征,从模型自身层面提升在目标领域的效果。
总体而言,目前跨领域中文句法分析仍存在较多问题,现有的相关技术仍需要改进与提升。第一是由于目前没有一个很好的指标来度量伪数据的质量,导致产生的低质量数据对模型效果的提升产生负面影响;第二是从特征层面提升句法分析模型在目标领域的效果,但是针对共性少的领域其提升受限,同时无法很好的和伪数据进行结合。
发明内容
针对现有技术中产生的低质量数据对模型效果的提升产生负面影响,以及针对共性少的领域其提升受限,同时无法很好的和伪数据进行结合的问题,本发明提出了一种基于课程学习的细粒度中文句法分析方法及装置。
为解决上述技术问题,本发明提供如下技术方案:
一方面,提供了一种基于课程学习的细粒度中文句法分析方法,包括以下步骤:
S1:预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
S2:通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
S3:通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
S4:将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,步骤S2中,通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据,包括:
S21:
对利用所述基础模型获得的伪标注数据进行自动标注,为每个自动标注过程中的标注单元都分配一个概率;
S22:将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,步骤S22中,将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤伪数据,包括:
S221:选中所述无标注的原始目标领域文本
Figure 14273DEST_PATH_IMAGE001
中的一个未标注目标领域文本
Figure 116221DEST_PATH_IMAGE002
,则待分析句子中的第
Figure 794065DEST_PATH_IMAGE003
个词表示为
Figure 6871DEST_PATH_IMAGE004
S222:针对所述待分析句子中的第
Figure 322446DEST_PATH_IMAGE005
个词
Figure 657612DEST_PATH_IMAGE004
,识别其核心词
Figure 793059DEST_PATH_IMAGE006
以及与核心词的句法关系
Figure 370408DEST_PATH_IMAGE007
,分别计算所述核心词的概率
Figure 540490DEST_PATH_IMAGE008
,以及所述核心词的句法关系的概率
Figure 984240DEST_PATH_IMAGE009
S223:针对所述原始目标领域文本D中每个未标注的文本,过滤所有存在整体句子核心词概率
Figure 669300DEST_PATH_IMAGE010
或整体句子核心词的句法关系概率
Figure 489488DEST_PATH_IMAGE011
小于预设阈值的伪标注文本,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,步骤S3中,构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据,包括:
S31:使用字典外词OOV作为过滤后伪数据的距离的度量指标;
S32:通过衡量迭代过滤后伪数据和源领域的相干关系,获得新的伪数据
Figure 12611DEST_PATH_IMAGE012
S33:构建一个新的模型
Figure 892842DEST_PATH_IMAGE013
,将所述新的伪数据
Figure 65198DEST_PATH_IMAGE012
用于训练所述新的模型,获得下一轮次的细粒度高质量伪数据。
可选地,S32中,通过衡量迭代过滤后伪数据和源领域的相干关系,获得伪数据集
Figure 689077DEST_PATH_IMAGE012
,包括:
目标领域中过滤后伪数据和源领域之间的距离,为两者相干关系的差异的大小;通过迭代,使生成的过滤后伪数据与源领域的差异逐步增大;在第
Figure 66707DEST_PATH_IMAGE014
轮迭代中,针对未标注目标领域文本
Figure 117839DEST_PATH_IMAGE015
,统计出其中OOV词汇数目
Figure 777491DEST_PATH_IMAGE016
,如果
Figure 939482DEST_PATH_IMAGE017
Figure 938662DEST_PATH_IMAGE018
,且符合概率一致性的条件,则将其加入该轮次生成的新的伪数据
Figure 405370DEST_PATH_IMAGE019
中;若否,则略过该数据,进行下一个数据比较。
可选地,S32还包括,在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
可选地,步骤S33中,构建一个新的模型
Figure 755580DEST_PATH_IMAGE013
,将所述新的伪数据
Figure 518000DEST_PATH_IMAGE012
用于训练所述新的模型,获得下一轮次的细粒度高质量伪数据,包括:
在每一轮迭代中,将所述新的伪数据
Figure 637266DEST_PATH_IMAGE012
用于训练所述新的模型
Figure 528736DEST_PATH_IMAGE013
;利用
Figure 835084DEST_PATH_IMAGE013
来得到下一轮次的新的伪数据
Figure 135615DEST_PATH_IMAGE020
;通过这种迭代式生成的方式,获得细粒度高质量伪数据。
可选地,步骤S4中,将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析,包括:
S41:采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
S42:结合参数生成网络PGN,为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征;
S43:使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,步骤S4还包括:当需要同时学习多个领域之间的通用特征时,结合获得的细粒度高质量伪数据,通过多迭代的方式,在第i轮学习中,将源领域数据与目标领域的细粒度高质量伪数据
Figure 374966DEST_PATH_IMAGE021
,用于训练模型
Figure 673224DEST_PATH_IMAGE022
,在下一轮学习中用其来初始化模型
Figure 230982DEST_PATH_IMAGE023
,完成多个领域学习过程中由简到难的课程学习。
一方面,提供了一种基于课程学习的细粒度中文句法分析装置,该装置应用于电子设备,该装置包括:
预设模块,用于预设基础模型
Figure 335204DEST_PATH_IMAGE024
以及无标注的原始目标领域文本
Figure 163483DEST_PATH_IMAGE001
标注效果度量指标模块,用于构建伪数据的自动标注效果度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据;
距离度量指标模块,用于构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据;
分析模型构建模块,用于将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种基于课程学习的细粒度中文句法分析方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种基于课程学习的细粒度中文句法分析方法。
本发明实施例的上述技术方案至少具有如下有益效果:
上述方案中,本发明提出一种基于课程学习的细粒度中文句法分析方法。主要解决当前中文句法分析中存在的跨领域效果低问题。现有的方法都存在伪数据质量低,以及领域跨度大导致通用特征提取困难等问题。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的流程图;
图2是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的流程图;
图3是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的中文依存句法伪数据示意图;
图4是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的细粒度子领域划分示意图;
图5是本发明实施例提供的一种基于课程学习的细粒度中文句法分析方法的基于课程学习的中文句法模型图;
图6是本发明实施例提供的一种基于课程学习的细粒度中文句法分析装置框图;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种基于课程学习的细粒度中文句法分析方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的基于课程学习的细粒度中文句法分析方法流程图,该方法的处理流程可以包括如下的步骤:
S101:预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
S102:通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
S103:通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
S104:将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,步骤S102中,构建伪数据的自动标注效果度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤伪数据,包括:
S121:利用所述基础模型
Figure 898220DEST_PATH_IMAGE024
得到伪标注数据T,对所述数据T进行自动标注,为每个自动标注过程中的标注单元都分配一个概率;
S122:将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,步骤S122中,将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤伪数据,包括:
S1221:选中所述无标注的原始目标领域文本
Figure 241477DEST_PATH_IMAGE001
中的一个未标注目标领域文本
Figure 585608DEST_PATH_IMAGE002
,则待分析句子中的第
Figure 268394DEST_PATH_IMAGE005
个词表示为
Figure 174033DEST_PATH_IMAGE004
S1222:针对所述待分析句子中的第
Figure 207848DEST_PATH_IMAGE005
个词
Figure 355670DEST_PATH_IMAGE004
,识别其核心词
Figure 158541DEST_PATH_IMAGE006
以及与核心词的句法关系
Figure 235082DEST_PATH_IMAGE007
,分别计算所述核心词的概率
Figure 552930DEST_PATH_IMAGE025
,以及所述核心词的句法关系的概率
Figure 504444DEST_PATH_IMAGE026
S1223:针对所述原始目标领域文本D中每个未标注的文本,过滤所有存在整体句子核心词概率
Figure 896242DEST_PATH_IMAGE010
或整体句子核心词的句法关系概率
Figure 143684DEST_PATH_IMAGE011
小于预设阈值的伪标注文本,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,步骤S103中,构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据,包括:
S131:使用字典外词(Out-Of-Vocabulary,OOV)作为过滤后伪数据的距离的度量指标;
S132:通过衡量迭代过滤后伪数据和源领域的相干关系,获得新的伪数据
Figure 417670DEST_PATH_IMAGE012
S133:构建一个新的模型
Figure 376137DEST_PATH_IMAGE013
,将所述新的伪数据
Figure 153600DEST_PATH_IMAGE012
用于训练所述新的模型,获得下一轮次的细粒度高质量伪数据。
可选地,S132中,通过衡量迭代过滤后伪数据和源领域的相干关系,获得伪数据集
Figure 306363DEST_PATH_IMAGE012
,包括:
目标领域中过滤后伪数据和源领域之间的距离,为两者相干关系的差异的大小;通过迭代,使生成的过滤后伪数据与源领域的差异逐步增大;在第
Figure 598805DEST_PATH_IMAGE014
轮迭代中,针对未标注目标领域文本
Figure 626541DEST_PATH_IMAGE015
,统计出其中OOV词汇数目
Figure 992932DEST_PATH_IMAGE016
,如果
Figure 644493DEST_PATH_IMAGE017
Figure 96334DEST_PATH_IMAGE018
,且符合概率一致性的条件,则将其加入该轮次生成的新的伪数据
Figure 429226DEST_PATH_IMAGE019
中;若否,则略过该数据,进行下一个数据比较。
可选地,步骤S132还包括,在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
可选地,步骤S133中,构建一个新的模型
Figure 488273DEST_PATH_IMAGE013
,将所述新的伪数据
Figure 982839DEST_PATH_IMAGE012
用于训练所述新的模型,获得下一轮次的细粒度高质量伪数据,包括:
在每一轮迭代中,将所述新的伪数据
Figure 984294DEST_PATH_IMAGE012
用于训练所述新的模型
Figure 120877DEST_PATH_IMAGE013
;利用
Figure 461859DEST_PATH_IMAGE013
来得到下一轮次的新的伪数据
Figure 688179DEST_PATH_IMAGE020
;通过这种迭代式生成的方式,获得细粒度高质量伪数据。
可选地,步骤S104中,将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析,包括:
S141:采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
S142:结合参数生成网络(Parameter Generator Network,PGN),为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征;
S143:使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,步骤S104还包括:当需要同时学习多个领域之间的通用特征时,结合获得的细粒度高质量伪数据,通过多迭代的方式,在第i轮学习中,将源领域数据与目标领域的细粒度高质量伪数据
Figure 380192DEST_PATH_IMAGE021
,用于训练模型
Figure 789307DEST_PATH_IMAGE022
,在下一轮学习中用其来初始化模型
Figure 47113DEST_PATH_IMAGE023
,完成多个领域学习过程中由简到难的课程学习。
本发明实施例中,本发明提出一种基于课程学习的细粒度中文句法分析方法。主要解决当前中文句法分析中存在的跨领域效果低问题。现有的方法都存在伪数据质量低,以及领域跨度大导致通用特征提取困难等问题。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。
本发明实施例提供了一种基于课程学习的细粒度中文句法分析方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图2所示的基于课程学习的细粒度中文句法分析方法流程图,该方法的处理流程可以包括如下的步骤:
S201:预设基础模型
Figure 149062DEST_PATH_IMAGE024
,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
S202:对利用所述基础模型
Figure 826905DEST_PATH_IMAGE024
获得的伪标注数据进行自动标注,为每个自动标注过程中的标注单元都分配一个概率;
S203:将所述概率作为自动标注效果的度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
一种可行的实施方式中,本发明通过构建伪数据的自动标注效果度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤伪数据。
一种可行的实施方式中,通过为每个自动标注过程中的标注单元都分配一个概率,其标注结果如图3所示,将概率作为自动标注效果的度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤伪数据,包括:
选中所述无标注的原始目标领域文本
Figure 836450DEST_PATH_IMAGE001
中的一个未标注目标领域文本
Figure 417604DEST_PATH_IMAGE002
,则待分析句子中的第j个词表示为
Figure 424874DEST_PATH_IMAGE004
针对所述待分析句子中的第j个词
Figure 888216DEST_PATH_IMAGE004
,识别其核心词
Figure 403249DEST_PATH_IMAGE006
以及与核心词的句法关系
Figure 573330DEST_PATH_IMAGE007
,分别计算所述核心词的概率
Figure 79398DEST_PATH_IMAGE025
,以及所述核心词的句法关系的概率
Figure 702140DEST_PATH_IMAGE026
针对所述原始目标领域文本D中每个未标注的文本,过滤所有存在整体句子核心词概率
Figure 20864DEST_PATH_IMAGE010
或整体句子核心词的句法关系概率
Figure 107769DEST_PATH_IMAGE011
小于预设阈值的伪标注文本,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
一种可行的实施方式中,通过针对D中每个未标注的文本,过滤所有存在整体句子核心词的句法关系概率
Figure 722421DEST_PATH_IMAGE010
或整体句子核心词的句法关系概率
Figure 894776DEST_PATH_IMAGE011
小于阈值的伪标注文本,并以此提高伪标注数据的质量。
S204:使用字典外词OOV作为过滤后伪数据的距离的度量指标;
一种可行的实施方式中,为了进一步调高伪数据质量,并减小源领域和目标领域之间的不一致性,让模型能更好的学习不同领域之间的共同关系,我们进一步提出了使用OOV单词来度量目标领域伪数据和源领域之间的距离,即差异的大小,其原理如图4所示,通过构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据。
S205:通过衡量迭代过滤后伪数据和源领域的相干关系,获得新的伪数据
Figure 253076DEST_PATH_IMAGE012
一种可行的实施方式中,通过衡量迭代过滤后伪数据和源领域的相干关系,获得伪数据,包括:
目标领域中过滤后伪数据和源领域之间的距离,为两者相干关系的差异的大小;通过迭代,使生成的过滤后伪数据与源领域的差异逐步增大;在第
Figure 161864DEST_PATH_IMAGE014
轮迭代中,针对未标注目标领域文本
Figure 212997DEST_PATH_IMAGE015
,统计出其中OOV词汇数目
Figure 810331DEST_PATH_IMAGE016
,如果
Figure 972322DEST_PATH_IMAGE017
Figure 470038DEST_PATH_IMAGE018
,且符合概率一致性的条件,则将其加入该轮次生成的新的伪数据
Figure 488809DEST_PATH_IMAGE019
中;若否,则略过该数据,进行下一个数据比较。
一种可行的实施方式中,为了进一步保证OOV单词的质量,需要在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
S206:构建一个新的模型
Figure 839019DEST_PATH_IMAGE013
,将所述新的伪数据
Figure 539122DEST_PATH_IMAGE019
用于训练所述新的模型,获得细粒度高质量伪数据。
一种可行的实施方式中,在每一轮迭代中,将新的伪数据
Figure 658388DEST_PATH_IMAGE019
用于训练所述新的模型
Figure 284279DEST_PATH_IMAGE013
;利用
Figure 918522DEST_PATH_IMAGE013
来得到下一轮次的新的伪数据
Figure 422316DEST_PATH_IMAGE020
;通过这种迭代式生成的方式,获得细粒度高质量伪数据。其中,初始的预设模型
Figure 396088DEST_PATH_IMAGE024
的训练数据是新模型
Figure 491083DEST_PATH_IMAGE013
的子集。
本发明实施例中,通过上述的步骤201-步骤206,首先解决的是伪数据质量低的问题。本发明基于中文文本以及领域特性提出了多种质量度量指标。充分利用在自动标注过程中每个标注单元的概率,将其作为自动标注效果的一个度量指标,通过高质量以及一致性的过滤,一定程度上保证伪数据的质量。同时使用字典外词(Out-Of-Vocabulary,OOV)作为距离的度量指标,用于衡量伪数据和源领域的相干关系,OOV越多他们之间的相似程度越少,从而控制模型学习的难易层度。最终通过这种迭代式生成的方式,可以得到一组高质量且跨度小的细粒度高质量伪数据。
S207:采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
本发明实施例中,预训练模型为加入了adapter的BERT模型。针对模型特征编码部分,我们采用预训练模型对文本特征进行编码。预训练词表示已成为自然语言处理各个模型中最基础的一个部分,它主要是针对一段对话文本,将文本转换成为向量形式的深度学习特征表示,能为自然语言处理的各类任务带来巨大的性能提升,因此预训练词表示输入是保障依存图分析模型性能的基础。然而利用基于预训练词表示的高阶特征虽然能提供强大的性能,但在一定程度会存在预训练词表示导致的参数效率过低问题。例如我们针对不同的任务一级不同的训练方式,需要通过微调的方式对BERT所有参数(数量大于100M)进行单独优化,因此每一个模型均需要维护一个新的BERT参数拷贝,从而造成参数效率的低下问题。本发明的任务涉及逐步从多个细粒度的子领域中提取共同特征,通过引入高阶特征抽取,结合适配器(Adapter)模块,可以保留一个公共预训练词表示模块,即仅保留一份预训练词表示参数,大大提升参数效率。
S208:结合参数生成网络PGN,为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征。
一种可行的实施方式中,结合参数生成网络(Parameter Generator Network,PGN),为每个适配器生成其对应于每个子领域的特征,同时又结合对抗网络进行训练,让模型学习每个领域之间的通用特征。
具体地,给定一个句子
Figure 326139DEST_PATH_IMAGE027
,其特征编码可以表示为:
Figure 368045DEST_PATH_IMAGE028
其中,
Figure 196323DEST_PATH_IMAGE029
表示插入了适配器的BERT模型,
Figure 727799DEST_PATH_IMAGE030
表示参数生成网络;
Figure 507274DEST_PATH_IMAGE031
表示特征的子领域,
Figure 415187DEST_PATH_IMAGE032
是编码后的高层特征表示,
Figure 363551DEST_PATH_IMAGE033
是针对特定领域
Figure 269190DEST_PATH_IMAGE031
进行提取的高层特征表示,
Figure 37426DEST_PATH_IMAGE034
是通过PGN生成的特定领域
Figure 185249DEST_PATH_IMAGE031
的适配器参数。之后,我们再利用梯度反转的方法,让辨别器分辨各个细粒度领域,同时让模型学习各个细粒度子领域通用的特征去欺骗辨别器:
Figure 784857DEST_PATH_IMAGE035
其中,
Figure 595818DEST_PATH_IMAGE036
表示模型对抗学习损失函数,
Figure 116930DEST_PATH_IMAGE037
表示辨别器将句子X中的数据正确识别到领域
Figure 101066DEST_PATH_IMAGE031
的概率。
S209:使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
一种可行的实施方式中,通过将细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。本发明以步骤206中所得的细粒度高质量伪数据作为训练数据,并利用课程学习的方法,以获得基于课程学习的细粒度中文句法分析模型。当前自然语言处理的主流模型,采用深度学习的方法,以Biaffine为基本框架,取得了突破性进展。本发明采用类似的方法,分别从编码特征表示和Biaffine解码着手,利用现有的高性能预训练表示以及对抗学习模块,结合课程学习方法逐步的从细粒度高质量伪数据中训练一个高准确率高性能的中文句法分析模型,其具体如图5所示。
一种可行的实施方式中,上述模型虽然能取得较高的性能,但是在同时学习多个领域情况下可能存在困难。针对这一问题,当需要同时学习多个领域之间的通用特征时,结合获得的细粒度高质量伪数据,通过多迭代的方式,在第i轮学习中,将源领域数据与目标领域的细粒度高质量伪数据
Figure 256979DEST_PATH_IMAGE021
,用于训练模型
Figure 504420DEST_PATH_IMAGE022
,在下一轮学习中用其来初始化模型
Figure 309565DEST_PATH_IMAGE023
,完成多个领域学习过程中由简到难的课程学习,进一步提升跨领域中文句法分析的效果。
本发明实施例中,本发明提出一种基于课程学习的细粒度中文句法分析方法。主要解决当前中文句法分析中存在的跨领域效果低问题。现有的方法都存在伪数据质量低,以及领域跨度大导致通用特征提取困难等问题。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。
图6是根据一示例性实施例示出的一种基于课程学习的细粒度中文句法分析装置框图。参照图6,该装置300包括:
预设模块310,用于预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
标注效果度量指标模块320,用于通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
距离度量指标模块330,用于通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
分析模型构建模块340,用于将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,标注效果度量指标模块320,还用于利用所述基础模型
Figure 35076DEST_PATH_IMAGE024
得到伪标注数据T,对所述数据T进行自动标注,为每个自动标注过程中的标注单元都分配一个概率;
将所述概率作为自动标注效果的度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,标注效果度量指标模块320,还用于选中所述无标注的原始目标领域文本
Figure 609277DEST_PATH_IMAGE001
中的一个未标注目标领域文本
Figure 526155DEST_PATH_IMAGE002
,则待分析句子中的第j个词表示为
Figure 756279DEST_PATH_IMAGE004
针对所述待分析句子中的第j个词
Figure 285480DEST_PATH_IMAGE004
,识别其核心词
Figure 714188DEST_PATH_IMAGE006
以及与核心词的句法关系
Figure 801967DEST_PATH_IMAGE007
,分别计算所述核心词的概率
Figure 519388DEST_PATH_IMAGE008
,以及所述核心词的句法关系的概率
Figure 649018DEST_PATH_IMAGE026
针对所述原始目标领域文本D中每个未标注的文本,过滤所有存在整体句子核心词的句法关系概率
Figure 135494DEST_PATH_IMAGE010
或整体句子核心词的句法关系概率
Figure 161219DEST_PATH_IMAGE011
小于预设阈值的伪标注文本,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
可选地,距离度量指标模块330,还用于使用字典外词OOV作为过滤后伪数据的距离的度量指标;
通过衡量迭代过滤后伪数据和源领域的相干关系,获得新的伪数据
Figure 864470DEST_PATH_IMAGE012
构建一个新的模型
Figure 735474DEST_PATH_IMAGE013
,将所述新的伪数据
Figure 873194DEST_PATH_IMAGE012
用于训练所述新的模型,获得细粒度高质量伪数据。
可选地,距离度量指标模块330,还用于目标领域中过滤后伪数据和源领域之间的距离,为两者相干关系的差异的大小;通过迭代,使生成的过滤后伪数据与源领域的差异逐步增大;在第
Figure 804241DEST_PATH_IMAGE014
轮迭代中,针对未标注目标领域文本
Figure 994789DEST_PATH_IMAGE015
,统计出其中OOV词汇数目
Figure 466222DEST_PATH_IMAGE016
,如果
Figure 661711DEST_PATH_IMAGE017
Figure 29238DEST_PATH_IMAGE018
,且符合概率一致性的条件,则将其加入该轮次生成的新的伪数据
Figure 739705DEST_PATH_IMAGE019
中;若否,则略过该数据,进行下一个数据比较。
可选地,距离度量指标模块330,还用于在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
可选地,距离度量指标模块330,还用于在每一轮迭代中,将所述新的伪数据
Figure 462766DEST_PATH_IMAGE019
用于训练所述新的模型
Figure 840657DEST_PATH_IMAGE013
;利用
Figure 113507DEST_PATH_IMAGE013
来得到下一轮次的新的伪数据
Figure 780112DEST_PATH_IMAGE020
;通过这种迭代式生成的方式,获得细粒度高质量伪数据。
可选地,步骤S104中,将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析,包括:
采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
结合参数生成网络PGN,为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征;
使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
可选地,分析模型构建模块340,还用于当需要同时学习多个领域之间的通用特征时,结合获得的细粒度高质量伪数据,通过多迭代的方式,在第i轮学习中,将源领域数据与目标领域的细粒度高质量伪数据
Figure 796609DEST_PATH_IMAGE021
,用于训练模型
Figure 465226DEST_PATH_IMAGE022
,在下一轮学习中用其来初始化模型
Figure 705714DEST_PATH_IMAGE023
,完成多个领域学习过程中由简到难的课程学习。
本发明实施例中,提出一种基于课程学习的细粒度中文句法分析方法。主要解决当前中文句法分析中存在的跨领域效果低问题。现有的方法都存在伪数据质量低,以及领域跨度大导致通用特征提取困难等问题。本发明提出的基于课程学习的细粒度中文句法分析方法,可以度量和提升伪数据的质量,同时将目标领域划分为更加细粒度的子领域,结合课程学习的方法进一步提升模型的跨领域效果。
图7是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现下述基于课程学习的细粒度中文句法分析方法的步骤:
S1:预设基础模型
Figure 594036DEST_PATH_IMAGE024
以及无标注的原始目标领域文本
Figure 414224DEST_PATH_IMAGE001
S2:构建伪数据的自动标注效果度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据;
S3:构建过滤后伪数据的距离度量指标,获得细粒度高质量伪数据;
S4:将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于课程学习的细粒度中文句法分析方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于课程学习的细粒度中文句法分析方法,其特征在于,包括以下步骤:
S1:预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
S2:通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
所述步骤S2中,通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据,包括:
S21:对利用所述基础模型获得的伪标注数据进行自动标注,为每个自动标注过程中的标注单元都分配一个概率;
S22:将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据;
S3:通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
所述步骤S3中,通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据,包括:
S31:使用字典外词OOV作为过滤后伪数据的距离的度量指标;
S32:通过衡量迭代过滤后伪数据和源领域的相干关系,获得新的伪数据
Figure 801950DEST_PATH_IMAGE001
S33:构建一个新的模型
Figure 537825DEST_PATH_IMAGE002
,将所述新的伪数据
Figure 2305DEST_PATH_IMAGE003
为输入训练所述新的模型,获得下一轮次的细粒度高质量伪数据;
S4:将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
2.根据权利要求1所述的方法,其特征在于,所述步骤S22中,将所述概率作为自动标注效果的度量指标,对伪标注数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据,包括:
S221:选中所述无标注的原始目标领域文本
Figure 608866DEST_PATH_IMAGE004
中的一个未标注目标领域文本
Figure 133389DEST_PATH_IMAGE005
,则待分析句子中的第j个词表示为
Figure 340248DEST_PATH_IMAGE006
S222:针对所述待分析句子中的第j个词
Figure 546101DEST_PATH_IMAGE006
,识别其核心词
Figure 335066DEST_PATH_IMAGE007
以及与核心词的句法关系
Figure 968172DEST_PATH_IMAGE008
,分别计算所述核心词的概率
Figure 209798DEST_PATH_IMAGE009
,以及所述核心词的句法关系的概率
Figure 953763DEST_PATH_IMAGE011
S223:针对所述原始目标领域文本D中每个未标注的文本,过滤所有存在整体句子核心词概率
Figure 862813DEST_PATH_IMAGE012
或整体句子核心词的句法关系概率
Figure 650509DEST_PATH_IMAGE013
小于预设阈值的伪标注文本,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据。
3.根据权利要求1所述的方法,其特征在于,所述S32中,通过衡量迭代过滤后伪数据和源领域的相干关系,获得伪数据集
Figure 645010DEST_PATH_IMAGE003
,包括:
目标领域中过滤后伪数据和源领域之间的距离,为两者相干关系的差异的大小;通过迭代,使生成的过滤后伪数据与源领域的差异逐步增大;在第
Figure 927087DEST_PATH_IMAGE014
轮迭代中,针对未标注目标领域文本
Figure 690644DEST_PATH_IMAGE005
,统计出其中OOV词汇数目
Figure 665553DEST_PATH_IMAGE015
,如果
Figure 85033DEST_PATH_IMAGE016
Figure 233118DEST_PATH_IMAGE014
,且符合概率一致性的条件,则将其加入该轮次生成的新的伪数据
Figure 38131DEST_PATH_IMAGE003
中。
4.根据权利要求3所述的方法,其特征在于,所述步骤S32还包括,在每一轮迭代中根据概率统计生成高质量的OOV字典,根据字典来过滤OOV单词。
5.根据权利要求4所述的方法,其特征在于,所述步骤S33中,构建一个新的模型
Figure 246259DEST_PATH_IMAGE017
,将所述新的伪数据
Figure 887456DEST_PATH_IMAGE018
用于训练所述新的模型,获得下一轮次的细粒度高质量伪数据,包括:
在每一轮迭代中,将所述新的伪数据
Figure 573652DEST_PATH_IMAGE018
用于训练所述新的模型
Figure 249484DEST_PATH_IMAGE017
;利用
Figure 566196DEST_PATH_IMAGE017
来得到下一轮次的新的伪数据
Figure 757006DEST_PATH_IMAGE019
;通过这种迭代式生成的方式,获得细粒度高质量伪数据。
6.根据权利要求1所述的方法,其特征在于,所述步骤S4中,将所述细粒度高质量伪数据作为训练数据,采用预训练模型,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析,包括:
S41:采用预训练模型对文本特征进行编码,逐步从多个细粒度高质量伪数据的子领域中提取共同特征;结合适配器模块,保留一个公共预训练词表示模块;
S42:结合参数生成网络PGN,为每个适配器生成其对应于每个子领域的特征;结合对抗网络进行训练,使预训练模型学习每个领域之间的通用特征;
S43:使预训练模型通过LSTM神经网络以及Biaffine机制,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
7.根据权利要求6所述的方法,其特征在于,所述步骤S4还包括:当需要同时学习多个领域之间的通用特征时,结合获得的细粒度高质量伪数据,通过多迭代的方式,在第i轮学习中,将源领域数据与目标领域的细粒度高质量伪数据
Figure 436773DEST_PATH_IMAGE020
,用于训练模型
Figure 29429DEST_PATH_IMAGE021
,在下一轮学习中用其来初始化模型
Figure 517042DEST_PATH_IMAGE022
,完成多个领域学习过程中由简到难的课程学习。
8.一种基于课程学习的细粒度中文句法分析装置,其特征在于,所述装置适用于上述权利要求1-7中任意一项的方法,装置包括:
预设模块,用于预设基础模型,获取无标注的原始目标领域文本;将所述无标注的原始目标领域文本作为模型输入,获得伪标注数据;
标注效果度量指标模块,用于通过构建自动标注效果度量指标,对基础模型中伪标注数据的质量进行高质量以及一致性过滤,获得过滤后伪数据;
标注效果度量指标模块,还用于利用所述基础模型
Figure 195148DEST_PATH_IMAGE023
得到伪标注数据
Figure 160830DEST_PATH_IMAGE024
,对所述数据
Figure 607992DEST_PATH_IMAGE024
进行自动标注,为每个自动标注过程中的标注单元都分配一个概率;
将所述概率作为自动标注效果的度量指标,对伪数据的质量进行高质量以及一致性的过滤,获得过滤后伪数据;
距离度量指标模块,用于通过构建距离度量指标,对过滤后伪数据的质量进行优化,获得细粒度高质量伪数据;
距离度量指标模块,还用于使用字典外词OOV作为过滤后伪数据的距离的度量指标;
通过衡量迭代过滤后伪数据和源领域的相干关系,获得新的伪数据
Figure 266506DEST_PATH_IMAGE018
构建一个新的模型
Figure 431908DEST_PATH_IMAGE017
,将所述新的伪数据
Figure 716128DEST_PATH_IMAGE018
用于训练所述新的模型,获得细粒度高质量伪数据;
分析模型构建模块,用于将所述细粒度高质量伪数据作为训练数据,通过课程学习方法,获得细粒度中文句法分析模型,完成基于课程学习的细粒度中文句法分析。
CN202210500644.1A 2022-05-10 2022-05-10 一种基于课程学习的细粒度中文句法分析方法及装置 Active CN114610852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210500644.1A CN114610852B (zh) 2022-05-10 2022-05-10 一种基于课程学习的细粒度中文句法分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210500644.1A CN114610852B (zh) 2022-05-10 2022-05-10 一种基于课程学习的细粒度中文句法分析方法及装置

Publications (2)

Publication Number Publication Date
CN114610852A CN114610852A (zh) 2022-06-10
CN114610852B true CN114610852B (zh) 2022-09-13

Family

ID=81869630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210500644.1A Active CN114610852B (zh) 2022-05-10 2022-05-10 一种基于课程学习的细粒度中文句法分析方法及装置

Country Status (1)

Country Link
CN (1) CN114610852B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514151A (zh) * 2012-06-29 2014-01-15 富士通株式会社 依存句法分析方法、装置及辅助分类器训练方法
CN111653147A (zh) * 2020-07-29 2020-09-11 河南中医药大学 一种大学生对中医药专业课程学习迁移测试平台

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853710B (zh) * 2013-11-21 2016-06-08 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN103678565B (zh) * 2013-12-09 2017-02-15 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
US11151130B2 (en) * 2017-02-04 2021-10-19 Tata Consultancy Services Limited Systems and methods for assessing quality of input text using recurrent neural networks
CN110781369A (zh) * 2018-07-11 2020-02-11 天津大学 一种基于依存句法和泛化因果网络进行情感原因挖掘方法
KR102588185B1 (ko) * 2018-09-28 2023-10-13 한국전자통신연구원 지식 그래프 기반 문장 분석 방법
CN110851597A (zh) * 2019-10-28 2020-02-28 青岛聚好联科技有限公司 一种基于同类实体替换的语句标注的方法及装置
CN111144119B (zh) * 2019-12-27 2024-03-29 北京联合大学 一种改进知识迁移的实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514151A (zh) * 2012-06-29 2014-01-15 富士通株式会社 依存句法分析方法、装置及辅助分类器训练方法
CN111653147A (zh) * 2020-07-29 2020-09-11 河南中医药大学 一种大学生对中医药专业课程学习迁移测试平台

Also Published As

Publication number Publication date
CN114610852A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN112528034B (zh) 一种基于知识蒸馏的实体关系抽取方法
CN104615589A (zh) 训练命名实体识别模型的方法、命名实体识别方法及装置
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN116151132B (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN110414003B (zh) 建立文本生成模型的方法、装置、介质和计算设备
CN114896971B (zh) 一种特定前后缀否定词识别方法、装置及存储介质
CN115293139A (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN115658846A (zh) 一种适用于开源软件供应链的智能搜索方法及装置
CN117057414A (zh) 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统
CN114610852B (zh) 一种基于课程学习的细粒度中文句法分析方法及装置
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN116562295A (zh) 一种面向桥梁领域文本的增强语义命名实体识别方法
CN116595189A (zh) 基于两阶段的零样本关系三元组抽取方法及系统
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN116029300A (zh) 一种强化中文实体语义特征的语言模型训练方法和系统
CN115392255A (zh) 一种面向桥梁检测文本的少样本机器阅读理解方法
CN116266268A (zh) 基于对比学习与语义感知的语义解析方法及装置
CN112416754B (zh) 一种模型评测方法、终端、系统及存储介质
CN114139535A (zh) 一种关键词造句方法、装置、计算机设备及可读介质
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN115906838A (zh) 文本抽取方法、装置、电子设备以及存储介质
CN114996424B (zh) 一种基于深度学习的弱监督跨域问答对生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant