CN113204958A - 文档摘要生成方法、装置、存储介质及电子设备 - Google Patents

文档摘要生成方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113204958A
CN113204958A CN202110578625.6A CN202110578625A CN113204958A CN 113204958 A CN113204958 A CN 113204958A CN 202110578625 A CN202110578625 A CN 202110578625A CN 113204958 A CN113204958 A CN 113204958A
Authority
CN
China
Prior art keywords
document
training
sample
deep learning
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110578625.6A
Other languages
English (en)
Inventor
喻银根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjiu Sharing Network Technology Group Co ltd
Original Assignee
Tianjiu Sharing Network Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjiu Sharing Network Technology Group Co ltd filed Critical Tianjiu Sharing Network Technology Group Co ltd
Priority to CN202110578625.6A priority Critical patent/CN113204958A/zh
Publication of CN113204958A publication Critical patent/CN113204958A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种文档摘要生成方法、装置、存储介质及电子设备。该方法包括:统计文本文档的词频数据特征,并获取文本文档中的词性特征、以及词的句法依存特征;将词频数据特征、词性特征以及词的句法依存特征添加到文本文档的词向量特征中,得到目标向量特征;将目标向量特征输入训练完成的深度学习模型中,得到深度学习模型输出的文档摘要。这样,通过加入能够体现语义的词频数据特征、词性特征以及所述词的句法依存特征,增强了模型对语义的理解程度,进而提升了文档摘要的通顺性。

Description

文档摘要生成方法、装置、存储介质及电子设备
技术领域
本公开涉及自然语言处理领域,具体地,涉及一种文档摘要生成方法、装置、存储介质及电子设备。
背景技术
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段。而文档摘要生成是自然语言处理、信息抽取的一项子任务,其目的是从文档文本数据中提取核心内容,并把这些核心内容组装为文档摘要。同时,在项目孵化的过程中存在着大量繁杂的项目文档,利用摘要生成算法提取不同领域的项目文档中的核心内容并组装成文档摘要,可以很大程度上减少人工审阅的工作。
相关技术中的文档摘要生成方案是从原文中获取关键词和关键句组成摘要,虽然在语法、句法上有一定的保证,但是也面临着内容选择错误、连贯性差、灵活性差等问题。还有一种方案是通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要,但是也存在着语义理解不充分、摘要语句不通顺、摘要准确度不够高等问题。
发明内容
本公开的目的是提供一种文档摘要生成方法、装置、存储介质及电子设备,以解决上述问题。
为了实现上述目的,本公开第一方面提供一种文档摘要生成方法,包括:
统计所述文本文档的词频数据特征,并获取所述文本文档中的词性特征、以及词的句法依存特征;
将所述词频数据特征、词性特征以及所述词的句法依存特征添加到所述文本文档的词向量特征中,得到目标向量特征;
将所述目标向量特征输入训练完成的深度学习模型中,得到所述深度学习模型输出的文档摘要。
可选地,所述获取所述文本文档中的词性特征、以及词的句法依存特征包括:
基于stanza工具对所述文本文档进行处理,以得到所述stanza工具返回的所述文本文档的单个句子中的每个词的词性特征、以及词的句法依存特征。
可选地,所述深度学习模型的训练包括:
获取训练文档样本,所述训练样本文档包括未标注文本以及标注文本;
根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练。
可选地,所述根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练,包括:
统计所述训练文档样本的词频数据样本特征,并获取所述训练文档样本中的词性样本特征、以及词的句法依存样本特征;
将所述词频数据样本特征、词性样本特征以及所述词的句法依存样本特征添加到所述文本文档样本的词向量特征中,得到目标向量样本特征;
对所述目标向量样本特征的数据点进行扰动变换,并通过求取每一次变换后的向量样本特征对应的模型输出与所述目标向量样本特征对应的模型输出之间的KL散度,确定使得所述KL散度最大化的目标扰动量;
将所述目标扰动量作为虚拟对抗扰动,根据所述虚拟对抗扰动以及添加所述虚拟对抗扰动后的向量样本特征,对所述深度学习模型的参数进行更新,使得添加所述虚拟对抗扰动后的向量样本特征对应的模型输出与所述目标向量样本特征对应的模型输出之间的KL散度最小化。
可选地,所述根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练,还包括:
通过损失函数计算损失值,所述损失函数包括第一损失函数以及第二损失函数,所述第一损失函数用于计算虚拟对抗训练产生的第一损失值,所述第二损失函数模型验证产生的第二损失值;
根据所述第一损失值和所述第二损失值更新所述深度学习模型的参数,使得所述第一损失值和所述第二损失值之和最小化。
本公开第二方面提供一种文档摘要生成装置,所述装置包括:
获取模块,被配置为统计所述文本文档的词频数据特征,并获取所述文本文档中的词性特征、以及词的句法依存特征;
添加模块,被配置为将所述词频数据特征、词性特征以及所述词的句法依存特征添加到所述文本文档的词向量特征中,得到目标向量特征;
输出模块,被配置为将所述目标向量特征输入训练完成的深度学习模型中,得到所述深度学习模型输出的文档摘要。
可选地,所述获取模块还包括:
返回子模块,被配置为基于stanza工具对所述文本文档进行处理,以得到所述stanza工具返回的所述文本文档的单个句子中的每个词的词性特征、以及词的句法依存特征。
可选地,所述深度学习模型的训练包括:
获取训练文档样本,所述训练样本文档包括未标注文本以及标注文本;
根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
通过上述技术方案,至少能够达到以下技术效果:
通过统计所述文本文档的词频数据特征,并获取所述文本文档中的词性特征、以及词的句法依存特征,并将所述词频数据特征、词性特征以及所述词的句法依存特征添加到所述文本文档的词向量特征中,得到目标向量特征最后将所述目标向量特征输入训练完成的深度学习模型中,得到所述深度学习模型输出的文档摘要。这样,通过加入能够体现语义的词频数据特征、词性特征以及所述词的句法依存特征,增强了模型对语义的理解程度,进而提升了文档摘要的通顺性
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种文档摘要生成方法的流程图。
图2是根据一示例性实施例示出的一种文档摘要生成装置的框图。
图3是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本公开实施例提供一种文档摘要生成的方法,如图1所示,该方法包括:
在步骤S101中,统计文本文档的词频数据特征,并获取文本文档中的词性特征、以及词的句法依存特征。
在步骤S102中,将词频数据特征、词性特征以及词的句法依存特征添加到文本文档的词向量特征中,得到目标向量特征。
在步骤S103中,将目标向量特征输入训练完成的深度学习模型中,得到深度学习模型输出的文档摘要。
示例地,该深度学习模型可以是用CBOW模型并结合摘要的特点来针对词频数据特征、词性特征以及词的句法依存特征等词向量特征进行训练得到的。
采用上述方法,通过统计所述文本文档的词频数据特征,并获取所述文本文档中的词性特征、以及词的句法依存特征,并将所述词频数据特征、词性特征以及所述词的句法依存特征添加到所述文本文档的词向量特征中,得到目标向量特征最后将所述目标向量特征输入训练完成的深度学习模型中,得到所述深度学习模型输出的文档摘要。这样,通过加入能够体现语义的词频数据特征、词性特征以及所述词的句法依存特征,增强了模型对语义的理解程度,进而提升了文档摘要的通顺性,也就是说本公开实施例提供的技术方案能够通过改进词向量的生成方式来充分理解语义并使得生成的摘要语句更加通顺。
在一种可能的实施方式中,所述获取所述文本文档中的词性特征、以及词的句法依存特征包括:
基于stanza工具对所述文本文档进行处理,以得到所述stanza工具返回的所述文本文档的单个句子中的每个词的词性特征、以及词的句法依存特征。
值得说明的是,stanza工具可以针对输入的文本文档返回词性特征和词的句法依存特征。例如,返回的词性特征可以为noun(名词)、verb(动词)、num(数量词)、adjp(形容词短语)等,返回词的句法依存特征可以为nsubj(名词主语)、obj(宾语)、det(冠词)、advcl(状语从句修饰词)等。
在一种可能的实施方式中,所述深度学习模型的训练包括:
获取训练文档样本,所述训练样本文档包括未标注文本以及标注文本;
根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练。
示例地,通过人工选取的方式获取一批文档样本,对所述文档样本进行摘要标注作为标注文本,另外选取一批文档样本不做任何处理作为未标注文本,将两批文档样本进行混合作为训练文档样本并进行半监督的虚拟对抗训练。
这里,由于对模型的训练使用了半监督的学习方式,能够使得训练完成的深度学习模型具有较强的的泛化能力,即该深度学习模型能很好的适用于整个样本空间。而虚拟对抗训练是一种有效的数据增强技术,不需要先前的领域知识。在虚拟对抗训练中,不使用标签信息,仅使用模型输出生成扰动,产生扰动使得扰动输入的输出不同于原始输入的模型输出。可以减少算法对有效标注样本的依赖。本公开实施例使用虚拟对抗训练,降低了半监督学习对有效标注样本的依赖性,使得对深度学习模型的训练可以采用更多的无标注样本进行半监督训练,提升了深度学习模型的泛化能力。
在一种可能的实施方式中,所述根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练,包括:
统计所述训练文档样本的词频数据样本特征,并获取所述训练文档样本中的词性样本特征、以及词的句法依存样本特征;
将所述词频数据样本特征、词性样本特征以及所述词的句法依存样本特征添加到所述文本文档样本的词向量特征中,得到目标向量样本特征;
对所述目标向量样本特征的数据点进行扰动变换,并通过求取每一次变换后的向量样本特征对应的模型输出与所述目标向量样本特征对应的模型输出之间的KL散度,确定使得所述KL散度最大化的目标扰动量;
将所述目标扰动量作为虚拟对抗扰动,根据所述虚拟对抗扰动以及添加所述虚拟对抗扰动后的向量样本特征,对所述深度学习模型的参数进行更新,使得添加所述虚拟对抗扰动后的向量样本特征对应的模型输出与所述目标向量样本特征对应的模型输出之间的KL散度最小化。
下面对虚拟对抗训练的基本过程进行说明:首先从输入数据点x开始,通过添加小的扰动r来变换x,其中变换的数据点为T(x)=X+r,将T(x)作为扰动输入,模型对应该扰动输入T(x)的输出应该与非扰动输入的输出不同,且两个输出之间的KL差异应该是最大的,同时确保r的L2范数很小。因此,可以从所有的扰动r中,确定对抗方向上的虚拟对抗扰动rv-adv,,具体参照如下计算式(1)和(2):
ΔKL(r,x(n),θ)≡KL[p(y|x(n),θ)||p(y|x(n)+r,θ)](1)
Figure BDA0003085376000000071
其中,x为输入数据点,r为扰动变换后的数据点,θ为模型参数,n为输入数据点的数据标签,计算式(1)用于求取输入数据点x和扰动变换后的数据点r对应的模型输出p(y|x(n),θ)以及p(y|x(n)+r,θ)之间的KL差异,即ΔKL(r,x(n),θ),计算式2用于求取最大KL差异对应的扰动rv-adv
最后在找到虚拟对抗扰动和变换输入之后,通过更新模型的权重,使得KL散度最小化,这将使模型对不同的扰动具有鲁棒性。具体地,可以通过梯度下降最小化计算式(3)所述的损失函数计算得到的损失值:
Figure BDA0003085376000000072
在一种可能的实施方式中,所述根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练,还包括:
通过损失函数计算损失值,所述损失函数包括第一损失函数以及第二损失函数,所述第一损失函数用于计算虚拟对抗训练产生的第一损失值,所述第二损失函数模型验证产生的第二损失值;
根据所述第一损失值和所述第二损失值更新所述深度学习模型的参数,使得所述第一损失值和所述第二损失值之和最小化。
示例地,利用标注文本来建立深度学习网络模型,并通过损失函数计算损失值,求出计算虚拟对抗训练产生的第一损失值和第二损失值,更新深度学习模型的参数联合损失最小化,联合损失最小化min(total_loss),其中,
total_loss=Model_loss+vat_loss (4)
其中,vat_loss可以是上述计算式(3)计算得到的损失值(即所述第一损失值),Model_loss可以是对深度学习模型进行模型验证过程中计算得到的模型损失值(即所述第二损失值)。
图2是根据本公开一示例性实施例示出一种文档摘要生成装置的框图,所述文档摘要生成装置200包括:
获取模块201,用于为统计所述文本文档的词频数据特征,并获取所述文本文档中的词性特征、以及词的句法依存特征;
添加模块202,用于将所述词频数据特征、词性特征以及所述词的句法依存特征添加到所述文本文档的词向量特征中,得到目标向量特征;
编码模块203,用于将所述目标向量特征输入训练完成的深度学习模型中,得到所述深度学习模型输出的文档摘要。
采用上述装置,通过统计所述文本文档的词频数据特征,并获取所述文本文档中的词性特征、以及词的句法依存特征,并将所述词频数据特征、词性特征以及所述词的句法依存特征添加到所述文本文档的词向量特征中,得到目标向量特征最后将所述目标向量特征输入训练完成的深度学习模型中,得到所述深度学习模型输出的文档摘要。这样,通过加入能够体现语义的词频数据特征、词性特征以及所述词的句法依存特征,增强了模型对语义的理解程度,进而提升了文档摘要的通顺性
可选地,所述获取模块具体被配置为基于stanza工具对所述文本文档进行处理,以得到所述stanza工具返回的所述文本文档的单个句子中的每个词的词性特征、以及词的句法依存特征。
可选地,所述深度学习模型的训练包括:
获取训练文档样本,所述训练样本文档包括未标注文本以及标注文本;
根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练。
可选地,所述根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练,包括:
统计所述训练文档样本的词频数据样本特征,并获取所述训练文档样本中的词性样本特征、以及词的句法依存样本特征;
将所述词频数据样本特征、词性样本特征以及所述词的句法依存样本特征添加到所述文本文档样本的词向量特征中,得到目标向量样本特征;
对所述目标向量样本特征的数据点进行扰动变换,并通过求取每一次变换后的向量样本特征对应的模型输出与所述目标向量样本特征对应的模型输出之间的KL散度,确定使得所述KL散度最大化的目标扰动量;
将所述目标扰动量作为虚拟对抗扰动,根据所述虚拟对抗扰动以及添加所述虚拟对抗扰动后的向量样本特征,对所述深度学习模型的参数进行更新,使得添加所述虚拟对抗扰动后的向量样本特征对应的模型输出与所述目标向量样本特征对应的模型输出之间的KL散度最小化。
可选地,所述根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练,还包括:
通过损失函数计算损失值,所述损失函数包括第一损失函数以及第二损失函数,所述第一损失函数用于计算虚拟对抗训练产生的第一损失值,所述第二损失函数模型验证产生的第二损失值;
根据所述第一损失值和所述第二损失值更新所述深度学习模型的参数,使得所述第一损失值和所述第二损失值之和最小化。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述方法实施例提供的方法的步骤。
图3是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图3,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的文档摘要生成方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法实施例提供的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的文档摘要生成方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的文档摘要生成方法的代码部分。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种文档摘要生成方法,其特征在于,所述方法包括:
统计所述文本文档的词频数据特征,并获取所述文本文档中的词性特征、以及词的句法依存特征;
将所述词频数据特征、词性特征以及所述词的句法依存特征添加到所述文本文档的词向量特征中,得到目标向量特征;
将所述目标向量特征输入训练完成的深度学习模型中,得到所述深度学习模型输出的文档摘要。
2.根据权利要求1所述的方法,其特征在于,所述获取所述文本文档中的词性特征、以及词的句法依存特征包括:
基于stanza工具对所述文本文档进行处理,以得到所述stanza工具返回的所述文本文档的单个句子中的每个词的词性特征、以及词的句法依存特征。
3.根据权利要求1或2所述的方法,其特征在于,所述深度学习模型的训练包括:
获取训练文档样本,所述训练样本文档包括未标注文本以及标注文本;
根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练。
4.根据权利要3所述的方法,其特征在于,所述根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练,包括:
统计所述训练文档样本的词频数据样本特征,并获取所述训练文档样本中的词性样本特征、以及词的句法依存样本特征;
将所述词频数据样本特征、词性样本特征以及所述词的句法依存样本特征添加到所述文本文档样本的词向量特征中,得到目标向量样本特征;
对所述目标向量样本特征的数据点进行扰动变换,并通过求取每一次变换后的向量样本特征对应的模型输出与所述目标向量样本特征对应的模型输出之间的KL散度,确定使得所述KL散度最大化的目标扰动量;
将所述目标扰动量作为虚拟对抗扰动,根据所述虚拟对抗扰动以及添加所述虚拟对抗扰动后的向量样本特征,对所述深度学习模型的参数进行更新,使得添加所述虚拟对抗扰动后的向量样本特征对应的模型输出与所述目标向量样本特征对应的模型输出之间的KL散度最小化。
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练,还包括:
通过损失函数计算损失值,所述损失函数包括第一损失函数以及第二损失函数,所述第一损失函数用于计算虚拟对抗训练产生的第一损失值,所述第二损失函数模型验证产生的第二损失值;
根据所述第一损失值和所述第二损失值更新所述深度学习模型的参数,使得所述第一损失值和所述第二损失值之和最小化。
6.一种文档摘要生成装置,其特征在于,包括:
获取模块,被配置为统计所述文本文档的词频数据特征,并获取所述文本文档中的词性特征、以及词的句法依存特征;
添加模块,被配置为将所述词频数据特征、词性特征以及所述词的句法依存特征添加到所述文本文档的词向量特征中,得到目标向量特征;
输出模块,被配置为将所述目标向量特征输入训练完成的深度学习模型中,得到所述深度学习模型输出的文档摘要。
7.根据权利要求6所述的装置,其特征在于,所述获取模块包括:
返回子模块,被配置为基于stanza工具对所述文本文档进行处理,以得到所述stanza工具返回的所述文本文档的单个句子中的每个词的词性特征、以及词的句法依存特征。
8.根据权利要求6所述的装置,其特征在于,所述深度学习模型的训练包括:
获取训练文档样本,所述训练样本文档包括未标注文本以及标注文本;
根据所述训练文档样本对所述深度学习模型进行半监督的虚拟对抗训练。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
CN202110578625.6A 2021-05-26 2021-05-26 文档摘要生成方法、装置、存储介质及电子设备 Withdrawn CN113204958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110578625.6A CN113204958A (zh) 2021-05-26 2021-05-26 文档摘要生成方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110578625.6A CN113204958A (zh) 2021-05-26 2021-05-26 文档摘要生成方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN113204958A true CN113204958A (zh) 2021-08-03

Family

ID=77023290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110578625.6A Withdrawn CN113204958A (zh) 2021-05-26 2021-05-26 文档摘要生成方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113204958A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779199A (zh) * 2021-09-13 2021-12-10 北京有竹居网络技术有限公司 用于文档和摘要的一致性检测的方法、设备、装置和介质
CN114091577A (zh) * 2021-11-02 2022-02-25 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779199A (zh) * 2021-09-13 2021-12-10 北京有竹居网络技术有限公司 用于文档和摘要的一致性检测的方法、设备、装置和介质
CN113779199B (zh) * 2021-09-13 2022-12-27 北京有竹居网络技术有限公司 用于文档和摘要的一致性检测的方法、设备、装置和介质
WO2023035883A1 (zh) * 2021-09-13 2023-03-16 北京有竹居网络技术有限公司 用于文档和摘要的一致性检测的方法、设备和介质
CN114091577A (zh) * 2021-11-02 2022-02-25 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
McDonald et al. Multilingual dependency analysis with a two-stage discriminative parser
US20130325436A1 (en) Large Scale Distributed Syntactic, Semantic and Lexical Language Models
CN113204958A (zh) 文档摘要生成方法、装置、存储介质及电子设备
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN110874528B (zh) 文本相似度的获取方法及装置
CN111488742B (zh) 用于翻译的方法和装置
CN110096599B (zh) 知识图谱的生成方法及装置
CN111291565A (zh) 一种用于命名实体识别的方法与装置
CN111694967A (zh) 属性抽取方法、装置、电子设备及介质
CN112633007A (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
WO2023088278A1 (zh) 用于验证表述的真实性的方法、设备、装置和介质
KR20170065417A (ko) 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템
Björkelund et al. How to train dependency parsers with inexact search for joint sentence boundary detection and parsing of entire documents
Novák Pronoun prediction with linguistic features and example weighing
Dietrich et al. Multilingual extraction and mapping of dictionary entry names in business schema integration
Duh et al. Lexicon acquisition for dialectal Arabic using transductive learning
CN113723058B (zh) 文本摘要与关键词抽取方法、装置、设备及介质
Cunha et al. Event Extraction for Portuguese: A QA-Driven Approach Using ACE-2005
US20220207238A1 (en) Methods and system for the extraction of properties of variables using automatically detected variable semantics and other resources
Savkov et al. A web-based morphological tagger for Bulgarian
RU2812301C2 (ru) Способ и сервер для выполнения контекстно-зависимого перевода
Yang SEARCH TERM IDENTIFICATION FOR CONCEPT LOCATION LEVERAGING WORD RELATIONS
Agić et al. Combining part-of-speech tagger and inflectional lexicon for Croatian
Murakami et al. An ontology for language service composability
Gupta et al. Automatic Ranking of Machine Translation Outputs Using Linguistic Factors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210803