CN111831814B - 摘要生成模型的预训练方法、装置、电子设备和存储介质 - Google Patents
摘要生成模型的预训练方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111831814B CN111831814B CN202010501240.5A CN202010501240A CN111831814B CN 111831814 B CN111831814 B CN 111831814B CN 202010501240 A CN202010501240 A CN 202010501240A CN 111831814 B CN111831814 B CN 111831814B
- Authority
- CN
- China
- Prior art keywords
- masked
- sentence
- text
- characters
- corresponding original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000000873 masking effect Effects 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims description 49
- 230000015654 memory Effects 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 18
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了摘要生成模型的预训练方法、装置、电子设备和存储介质,涉及深度学习和自然语言处理技术领域。具体实现方案为:获取训练数据集,其中,数据集中包括多个原始文本及对应的多个文本标题;分别根据多个文本标题中的每一个文本标题,将对应的每一个原始文本进行掩码处理,以生成多个掩码后的文本;将多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本;以及根据多个预测文本与对应的多个原始文本的差异,对初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。由此,能够保证预训练模型的目的和语料与摘要生成模型一致,从而为生成可靠、准确的摘要生成模型提供了条件。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及深度学习和自然语言处理技术领域,尤其涉及摘要生成模型的预训练方法、装置、电子设备和存储介质。
背景技术
随着互联网的发展,网络信息呈爆炸式的增长,如何快速有效地获取网络信息已成为一个重要的研究问题。文本摘要正是在这样的一个背景下发展起来的,随着信息检索和自然语言处理技术的发展,文本摘要已成为近年来的研究热点。
文本摘要目的是将给定的文本或者文本集合转换为简洁(较短的)、连贯、流畅的文本(“摘要”),同时尽可能地保留原文中的关键信息。通常可以采用抽取式和生成式的方法生成文本摘要。然而,针对小样本的情况,即用于目标任务训练的有监督数据量较小的情况,在采样生成式生成文本摘要的过程中,容易出现过拟合、泛化差等问题,从而导致摘要生成模型的训练效果较差。
相关技术中,一般是通过将预训练模型做微调,生成摘要生成模型,以解决上述问题。具体地,使用大规模非标注化语料,对摘要生成模型做初始化处理生成预训练模型,然后再在小样本数据上进行训练。然而,在通过上述方式进行训练时,通常采用的预训练语料与文本摘要所属的领域并不相同,从而再根据生成的预训练模型,训练得到的摘要生成模型的准确性和可靠性较差。
发明内容
提供了一种摘要生成模型的预训练方法、装置、电子设备和存储介质。
根据第一方面,提供了一种摘要生成模型的预训练方法,包括:获取训练数据集,其中,所述数据集中包括多个原始文本及对应的多个文本标题;分别根据所述多个文本标题中的每一个文本标题,将对应的每一个所述原始文本进行掩码处理,以生成多个掩码后的文本;将所述多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本;以及根据所述多个预测文本与对应的所述多个原始文本的差异,对所述初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。
根据第二方面,提供了一种摘要生成模型的预训练装置,包括:获取模块,用于获取训练数据集,其中,所述数据集中包括多个原始文本及对应的多个文本标题;掩码处理模块,用于分别根据所述多个文本标题中的每一个文本标题,将对应的每一个所述原始文本进行掩码处理,以生成多个掩码后的文本;生成模块,用于将所述多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本;以及修正模块,用于根据所述多个预测文本与对应的所述多个原始文本的差异,对所述初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的摘要生成模型的预训练方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的摘要生成模型的预训练方法。
根据第五方面,一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请第一方面所述的摘要生成模型的预训练方法的步骤。
根据本申请的技术,解决了现有技术中,使用大规模非标注化语料,对摘要生成模型做初始化处理生成预训练模型,然后再在小样本数据上进行训练,通常采用的预训练语料与文本摘要所属的领域并不相同,从而再根据生成的预训练模型,训练得到的摘要生成模型的准确性和可靠性较差的技术问题,能够保证预训练模型的目的和语料与摘要生成模型一致,从而为生成可靠、准确的摘要生成模型提供了条件。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的摘要生成模型的预训练方法的流程示意图;
图2为本申请实施例提供的一种摘要生成模型的预训练方法的流程示意图;
图3为本申请实施例提供的另一种摘要生成模型的预训练方法的流程示意图;
图4为本申请实施例提供的又一种摘要生成模型的预训练方法的流程示意图;
图5为本申请实施例提供的再一种摘要生成模型的预训练方法的流程示意图;
图6为本申请实施例提供的还一种摘要生成模型的预训练方法的流程示意图;
图7为本申请实施例提供的一种摘要生成模型的预训练装置的结构示意图;
图8为本申请实施例提供的另一种摘要生成模型的预训练装置的结构示意图;
图9为本申请实施例提供的又一种摘要生成模型的预训练装置的结构示意图;
图10为用来实现本申请实施例的摘要生成模型的预训练方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的摘要生成模型的预训练方法、装置、电子设备和存储介质。
本申请针对相关技术中,使用大规模非标注化语料,对摘要生成模型做初始化处理生成预训练模型,然后再在小样本数据上进行训练,通常采用的预训练语料与文本摘要所属的领域并不相同,从而再根据生成的预训练模型,训练得到的摘要生成模型的准确性和可靠性较差的问题,提出一种摘要生成模型的预训练方法。
本申请提供的摘要生成模型的预训练方法,首先获取训练数据集,其中,数据集中包括多个原始文本及对应的多个文本标题,其次分别根据多个文本标题中的每一个文本标题,将对应的每一个原始文本进行掩码处理,以生成多个掩码后的文本,然后将多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本,最后根据多个预测文本与对应的多个原始文本的差异,对初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。由此,通过采用包含标题的文本数据作为训练语料,并且根据标题将文本进行了掩码处理,以确保摘要生成模型可以识别到标题与文本间的关系,并且由于标题与摘要类似,都是对文本主题的概括,从而保证了预训练模型的目的和语料与摘要生成模型一致,从而为生成可靠、准确的摘要生成模型提供了条件。
图1为本申请实施例提供的一种摘要生成模型的预训练方法的流程示意图。
需要说明的是,本申请实施例的摘要生成模型的预训练方法的执行主体为摘要生成模型的预训练装置,摘要生成模型的预训练装置可以被配置在电子设备中,以实现根据文本标题对摘要生成模型进行预训练。其中,电子设备可以是任意能够进行数据处理的终端设备或服务器等,本申请对此不作限制。
如图1所示,摘要生成模型的预训练方法,可以包括以下步骤:
步骤101,获取训练数据集。其中,数据集中包括多个原始文本及对应的多个文本标题。
具体而言,可预先从文本数据库中选取出带有文本标题的原始文本,并将选取出的原始文本与其对应的文本标题作为训练数据集存储在存储单元中,以便于在对摘要生成模型进行预训练时调用。
举例而言,作为一种可能的实施方式,原始文本可为新闻数据,文本标题可为新闻标题。其中,可预先通过网络爬虫从各大新闻站点大量的新闻数据中抓取带有标题、正文的目标新闻数据,并对目标数据进行清洗,即去除目标新闻数据的HTML(Hyper Text MarkupLanguage,超文本标记语言)标签,以及去除掉目标新闻数据中无有效正文的新闻数据,进而将清洗后的新闻数据及其对应的新闻标题作为训练数据集存储在存储单元中,以便于在对摘要生成模型进行预训练时调用。
步骤102,分别根据多个文本标题中的每一个文本标题,将对应的每一个原始文本进行掩码处理,以生成多个掩码后的文本。
具体而言,文本标题往往表达了文本中的最关键信息,这对摘要生成任务而言是非常重要的,并且,文本标题与文本摘要所属的领域也相同。因此,本申请中可选用文本标题作为训练语料,即通过文本标题对其对应的原始文本进行掩码处理,以生成对应的掩码后的文本,从而确保训练语料与文本摘要所属的领域相同,进而提升摘要生成模型的训练效果。
步骤103,将多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本。
具体而言,在生成多个掩码后的文本后,可将多个掩码后的文本分别输入初始摘要生成模型,以通过初试摘要生成模型预测对应的原始文本中被掩码的内容,从而生成多个预测文本。
步骤104,根据多个预测文本与对应的多个原始文本的差异,对初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。
具体而言,在获取到训练数据集后,可先分别根据训练数据集中多个文本标题中的每一个文本标题,将对应的每一个原始文本进行掩码处理,以生成多个掩码后的文本,从而将掩码后的文本作为训练语料,由于掩码后的文本中是根据对应标题掩码后得到的,即掩码后的文本可以反映标题与文本的关系,从而使得训练语料与文本摘要所属的领域相同。
然后利用初始摘要生成模型,通过深度学习的方式,对多个掩码后的文本进行自然语言处理,以预测出多个原始文本中被掩码的内容,从而生成多个预测文本,进而训练语要生成模型重要信息识别的能力。最后再将生成的多个预测文本与对应的多个原始文本进行比对,以判断初始摘要生成模型预测的多个原始文本中被掩码的内容的准确度,并在多个预测文本与对应的多个原始文本存在差异时,根据存在的差异对初始摘要生成模型进行相应的修正,以使生成的预训练模型可以很好的学习到文本与标题间的关系,从而保证了生成的预训练模型识别重要信息的能力。
由此,通过深度学习的方式训练摘要生成模型时,采用包含标题的文本数据作为训练语料,并且根据标题将文本进行了掩码处理,以确保摘要生成模型可以识别到标题与文本间的关系,并且由于标题与摘要类似,都是对文本主题的概括,从而保证了预训练模型的目的和语料与摘要生成模型一致,从而为生成可靠、准确的摘要生成模型提供了条件。
基于上述实施例,为了使原始文本中被掩码的内容更加接近于重要信息,从而使得摘要生成模型更加倾向于对重要信息的预测,作为一种可能的实施方式,可根据文本标题,确定对应的原始文本的每个句子被掩码的概率,以根据该概率对原始文本进行掩码处理,从而生成多个掩码后的文本。
下面结合图2对本公开一个实施例中根据标题对文本进行掩码的过程进行说明,如图2所示,上述过程,可包括:
步骤201,获取多个文本标题中任一文本标题,与对应的原始文本中第i个句子间的第i个第一相似度。其中,i为大于或等于1,且小于或等于N的正整数,N为对应的原始文本中包含的句子数量。
具体而言,可基于原始文本中每个句子与对应的文本标题的重叠度,比如,根据每个句子中的字、或者词语文本标题的重叠度,计算文本标题与对应的原始文本中的每个句子的第一相似度。
步骤202,根据第i个第一相似度,确定对应的原始文本的第i个句子被掩码的第一概率。
作为一种可能的实施方式,在获取到第i个第一相似度后,还可获取文本标题与对应的原始文本中每个句子间的第一相似度的总和,进而获取第i个第一相似度与第一相似度的比值,以获取对应的原始文本的第i个句子被选中的概率,即确定对应的原始文本的第i个句子被掩码的第一概率,即
作为另一种可能的实施方式,还可通过其他的方式根据第i个第一相似度,确定对应的原始文本的第i个句子被选中的概率,即被掩码的第一概率,本申请对确定原始文本的每个句子被选中的概率的方式不作限制。
步骤203,根据对应的原始文本的每个句子被掩码的第一概率,将对应的原始文本进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
具体而言,在确定出对应的原始文本的第i个句子被掩码的第一概率后,将i在1到N之间取值,即可确定出对应的原始文本的每个句子被掩码的第一概率。然后,根据对应的原始文本的每个句子被掩码的第一概率,对对应的原始文本的每个句子做加权无放回抽样,最后根据抽中的句子将对应的原始文本进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
由此,以文本标题与对应的原始文本中的每个句子的相似度为权重,随机抽取对应的原始文本中的句子,并将抽中的句子进行掩码处理,以生成掩码后的文本,使得摘要生成模型更加倾向于对重要信息的预测,从而将重要信息识别融入到摘要生成模型中,大大提升了摘要生成模型的训练效果。
进一步而言,为了避免丢失对重要信息的识别、且降低模型的运算难度,在根据对应的原始文本的每个句子被掩码的概率对原始文本进行掩码处理时,并不会对整个句子都进行掩码处理,而是随机对句子中的字符进行掩码处理。
下面结合图3对本公开一个实施例中根据标题随机对句子中的字符进行掩码过程进行说明,如图3所示,上述过程,包括:
步骤301,获取对应的原始文本中包含的总字符数量M。其中,M为大于1的正整数。
步骤302,根据总字符数量M,确定对应的原始文本中待掩码的字符数量K。其中,K为大于或等于1、且小于M的正整数。
具体而言,在实际应用中,可保持原始文本中待掩码的字符数量K为该原始文本的总字符数量M的x%,其中,x可根据实际情况进行标定。例如,x可为15,即K=M*15%。
步骤303,根据对应的原始文本的每个句子被掩码的第一概率,将对应的原始文本中K个字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
具体而言,在获取到对应的原始文本中包含的总字符数量M,并根据总字符数量M,确定对应的原始文本中待掩码的字符数量K后,可根据对应的原始文本的每个句子被掩码的第一概率,对对应的原始文本的每个句子做加权无放回抽样,然后再在抽中的句子中选取K个字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
由此,以文本标题与对应的原始文本中的每个句子的相似度为权重,随机抽取对应的原始文本中的句子,并对句子中的部分字符进行掩码处理,以生成掩码后的文本,从而不仅能够使摘要生成模型更加倾向于对重要信息的预测,以将重要信息识别融入到摘要生成模型中,大大提升了摘要生成模型的训练效果,而且能够降低运算难度。
基于上述实施例,为了使本领域技术人员能够更清楚地了解本申请,下面结合具体实施例来详细说明如何根据对应的原始文本的每个句子被掩码的第一概率,将对应的原始文本中K个字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
在本申请的一个实施例中,结合图4对本公开一个实施例中根据随机数和第一概率对对应的原始文本中K个字符进行掩码的过程进行说明,如图4所示,上述过程,可包括:
步骤401,根据对应的原始文本的每个句子被掩码的第一概率,从对应的原始文本中抽取待掩码的句子。
其中,可根据对应的原始文本的每个句子被掩码的第一概率,对对应的原始文本的每个句子做加权无放回抽样,以从对应的原始文本中抽取出待掩码的句子。
步骤402,从待掩码的句子中获取任一字符作为待掩码的初始目标字符。
具体而言,对抽取出的待掩码的句子,基于均一分布在待掩码的句子中的随机一个位置p获取任一字符,并将其作为待掩码的初始目标字符。
步骤403,获取随机数Y。
其中,可基于伯努利分布获取随机数Y。其中,Y可为大于或等于1、且小于或等于3的正整数。其中,将随机数设置在一个恰当的范围内,以限定与目标字符一起被掩码的词组单元,从而不仅简化了掩码的过程,而且保证了摘要生成模型即可以学习到字符的语义,与可以学习到词组单元的语义,从而提高了摘要生成模型的稳定性和可靠性性,也提升了摘要生成模型的训练效果。
步骤404,根据随机数Y,确定待掩码的实际目标字符。其中,待掩码的实际目标字符中包含初始目标字符、及与初始目标字符相邻、且位于初始目标字符之后的Y-1个字符。
具体而言,在获取到随机数Y之后,可将位置p上的初始目标字符,以及与初始目标字符相邻、且位于初始目标字符之后的Y-1个字符确定为待掩码的实际目标字符,即将位置p、p+1、…、p+Y-1上的字符确定为待掩码的实际目标字符。
步骤405,如果待掩码的实际目标字符的数量小于K、且小于Q,则继续从待掩码的句子中获取待掩码的初始目标字符,直至待掩码的句子中待掩码的实际目标字符的数量等于Q,或者等于K。其中,Q为待掩码的句子中包含的总字符数量的二分之一。
当确定出的待掩码的实际目标字符的数量小于K、且小于待掩码的句子中包含的总字符数量的二分之一时,则重复上述步骤404,直到待掩码的句子中待掩码的实际目标字符的数量等于待掩码的句子中包含的总字符数量的二分之一,或者等于原始文本中待掩码的字符数量。
步骤406,将待掩码的句子中待掩码的实际目标字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
具体而言,确定出待掩码的句子中待掩码的实际目标字符后,可对待掩码的句子中待掩码的实际目标字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
由此,以文本标题与对应的原始文本中的每个句子的相似度为权重,随机抽取对应的原始文本中的句子,并根据随机数确定与目标字符一起被掩码的词组单元,从而不仅简化了掩码的过程,而且能够使摘要生成模型更加倾向于对重要信息的预测,以将重要信息识别融入到摘要生成模型中,大大提升了摘要生成模型的训练效果,并且,能够降低运算难度。
进一步而言,为了使原始文本中被掩码的内容进一步接近于重要信息,从而使摘要生成模型更加倾向于对重要信息的预测,在本申请的另一个实施例中,在根据原始文本的各个句子被掩码的第一概率,从对应的原始文本中选择出句子后,还可根据选中的句子中的每个字符与标题间的相似度,再从选中的句子中选择目标字符。
对应的,结合图5对本公开一个实施例中根据第一概率和第二相似度对对应的原始文本中的目标字符进行掩码的过程进行说明,如图5所示,上述过程,可包括:
步骤501,根据对应的原始文本的每个句子被掩码的第一概率,从对应的原始文本中抽取待掩码的句子。
其中,可根据对应的原始文本的每个句子被掩码的第一概率,对对应的原始文本的每个句子做加权无放回抽样,以从对应的原始文本中抽取出待掩码的句子。
步骤502,获取待掩码的句子中每个字符与任一文本标题间的第二相似度。
其中,可基于待掩码的句子中每个字符与对应的文本标题的重叠度,计算待掩码的句子中每个字符与对应的文本标题间的第二相似度。
步骤503,根据待掩码的句子中每个字符与任一文本标题间的第二相似度,从待掩码的句子中获取待掩码的目标字符。
其中,可以待掩码的句子中每个字符与任一文本标题间的第二相似度为权重,从待掩码的句子中抽取出待掩码的目标字符。
步骤504,如果待掩码的句子中待掩码的目标字符的数量等于K,则将待掩码的句子中待掩码的目标字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
具体而言,首先根据对应的原始文本的每个句子被掩码的第一概率,对对应的原始文本的每个句子做加权无放回抽样,以从对应的原始文本中抽取出待掩码的句子,其次获取待掩码的句子中每个字符与任一文本标题间的第二相似度,进而将第二相似度作为权重从待掩码的句子中抽取出待掩码的目标字符,然后在待掩码的句子中待掩码的目标字符的数量等于原始文本中待掩码的字符数量K后,将待掩码的句子中待掩码的目标字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
由此,以文本标题与对应的原始文本中的每个句子的相似度为权重,随机抽取对应的原始文本中的句子,并根据句子中每个字符与文本标题间的相似度从句子中抽取部分字符进行掩码处理,以生成掩码后的文本,从而不仅使原始文本中被掩码的内容进一步接近于重要信息,使得摘要生成模型更加倾向于对重要信息的预测,以将重要信息识别融入到摘要生成模型中,大大提升了摘要生成模型的训练效果,而且相比于对整个句子进行掩码,运算量更低。
需要说明的是,在实际操作的过程中,如果被选中的句子中第一次确定的待掩码的目标字符数量小于总待掩码的字符数量K、且小于句子中包含的总字符数量的一半(即,小于Q),此时,为了保证模型可以尽量学习到该句子的语义,可以继续在句子中抽取待掩码的字符。
对应的,在上述步骤503之后,还包括:
如果待掩码的句子中待掩码的目标字符的数量小于K、且小于Q,则继续根据待掩码的句子中每个字符与任一文本标题间的第二相似度,从待掩码的句子中获取待掩码的目标字符,直至待掩码的句子中待掩码的目标字符的数量等于Q,或者,等于K,其中,Q为待掩码的句子中包含的总字符数量的二分之一。
也就是说,当确定待掩码的句子中待掩码的目标字符的数量小于总待掩码的字符数量K、且小于句子中包含的总字符数量的一半时,可继续执行上述步骤503,直至待掩码的句子中待掩码的目标字符的数量等于Q,或者,等于K。
由此,通过控制每句话中被掩码的字符数量,保证预训练的摘要生成模型可以尽量学习到文本中被选中句子的语义,从而大大提升了摘要生成模型的训练效果。
进一步地,在实际操作的过程中,也可能存在一个句子中待掩码的目标字符数量小于总待掩码的字符数量K、且大于或等于句子中包含的总字符数量的一半(即,大于或等于Q)的情况,此时可以重新抽取待掩码的句子。
对应的,在上述步骤503之后,还包括:
如果待掩码的句子中待掩码的目标字符的数量小于K、且大于或等于Q,则将待掩码的句子中待掩码的目标字符进行掩码处理,其中,Q为待掩码的句子中包含的总字符数量的二分之一;以及重复执行根据对应的原始文本的每个句子被掩码的第一概率,从对应的原始文本中抽取待掩码的句子,直至抽取的各个待掩码的句子中待掩码的目标字符的数量和等于K。
也就是说,当确定掩码的句子中待掩码的目标字符的数量小于总待掩码的字符数量K、且大于或等于句子中包含的总字符数量的一半时,可将待掩码的句子中待掩码的目标字符进行掩码处理,并重复执行上述步骤501,以重新从对应的原始文本中抽取出待掩码的句子,然后再执行步骤502和503,直到抽取的各个待掩码的句子中待掩码的目标字符的数量和等于K。
由此,通过控制被掩码的字符数量,保证预训练的摘要生成模型可以在合理运算范围内,尽量学习文本的重要信息,从而大大提升了摘要生成模型的训练效果。
基于上述实施例,为了简化掩码过程,并且提升摘要生成模型的学习能力,还可根据第二相似度和随机数从待掩码的句子中确定与目标字符一起被掩码的词组单元。
对应的,结合图6对本公开一个实施例中根据第二相似度和随机数从待掩码的句子中确定与目标字符一起被掩码的词组单元的过程进行说明,如图6所示,上述过程,可包括:
步骤601,根据待掩码的句子中每个字符与任一文本标题间的第二相似度,从待掩码的句子中获取待掩码的初始目标字符。
其中,可以待掩码的句子中每个字符与任一文本标题间的第二相似度为权重,从待掩码的句子中抽取出待掩码的初始目标字符。
步骤602,获取随机数Y。
其中,可基于伯努利分布获取随机数Y。其中Y可为大于或等于1、且小于或等于3的正整数。其中,将随机数设置在一个恰当的范围内,以限定与目标字符一起被掩码的词组单元,从而不仅简化了掩码的过程,而且保证了摘要生成模型即可以学习到字符的语义,与可以学习到词组单元的语义,从而提高了摘要生成模型的稳定性和可靠性,提升了摘要生成模型的训练效果。
步骤603,根据随机数Y,确定待掩码的实际目标字符。其中,待掩码的实际目标字符中包含初始目标字符、及与初始目标字符相邻、且位于初始目标字符之后的Y-1个字符。
具体而言,在获取到随机数Y之后,可将初始目标字符,以及与初始目标字符相邻、且位于初始目标字符之后的Y-1个字符确定为待掩码的实际目标字符。举例而言,当通过上述步骤601获取待掩码的初始目标字符在待掩码的句子中的位置为p时,可将位置p、p+1、…、p+Y-1上的字符确定为待掩码的实际目标字符。
步骤604,如果待掩码的实际目标字符的数量小于K、且小于Q,则继续从待掩码的句子中获取待掩码的初始目标字符,直至待掩码的句子中待掩码的实际目标字符的数量等于Q,或者等于K。其中,Q为待掩码的句子中包含的总字符数量的二分之一。
具体而言,当确定出的待掩码的实际目标字符的数量小于K、且小于待掩码的句子中包含的总字符数量的二分之一时,则重复上述步骤601-603,直到待掩码的句子中待掩码的实际目标字符的数量等于待掩码的句子中包含的总字符数量的二分之一,或者等于原始文本中待掩码的字符数量,进而对待掩码的句子中待掩码的实际目标字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
由此,以文本标题与对应的原始文本中的每个句子的相似度为权重,随机抽取对应的原始文本中的句子,并根据随机数和句子中每个字符与文本标题间的相似度确定待掩码的词组单元,从而不仅简化了掩码的过程,而且使摘要生成模型更加倾向于对重要信息的预测,以将重要信息识别融入到摘要生成模型中,大大提升了摘要生成模型的训练效果,并且,相比于对整个句子进行掩码,运算量更低。
综上所述,本申请提供的摘要生成模型的预训练方法,首先获取训练数据集,其中,数据集中包括多个原始文本及对应的多个文本标题,其次分别根据多个文本标题中的每一个文本标题,将对应的每一个原始文本进行掩码处理,以生成多个掩码后的文本,然后将多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本,最后根据多个预测文本与对应的多个原始文本的差异,对初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。由此,采用文本标题作为训练语料,以确保训练语料与文本摘要所属的领域相同,同时,通过采用包含标题的文本数据作为训练语料,并且根据标题将文本进行了掩码处理,以确保摘要生成模型可以识别到标题与文本间的关系,并且由于标题与摘要类似,都是对文本主题的概括,从而保证了预训练模型的目的和语料与摘要生成模型一致,从而为生成可靠、准确的摘要生成模型提供了条件。
为了实现上述实施例,本申请实施例还提出一种摘要生成模型的预训练装置。该摘要生成模型的预训练装置可设置在电子设备中。图7为本申请实施例提供的一种摘要生成模型的预训练装置的结构示意图。
如图7所示,该摘要生成模型的预训练装置70可包括获取模块71、掩码处理模块72、生成模块73和修正模块74。
其中,获取模块71用于获取训练数据集,其中,数据集中包括多个原始文本及对应的多个文本标题;掩码处理模块72用于分别根据多个文本标题中的每一个文本标题,将对应的每一个原始文本进行掩码处理,以生成多个掩码后的文本;生成模块73用于将多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本;以及修正模块74用于根据多个预测文本与对应的多个原始文本的差异,对初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。
图8为本申请实施例提供的另一种摘要生成模型的预训练装置的结构示意图。在本申请实施例一种可能的实现方式中,如图8所示,掩码处理模块72包括:获取单元721、确定单元722和掩码处理单元723。
其中,获取单元721用于获取多个文本标题中任一文本标题,与对应的原始文本中第i个句子间的第i个第一相似度,其中,i为大于或等于1,且小于或等于N的正整数,N为对应的原始文本中包含的句子数量;确定单元722用于根据第i个第一相似度,确定对应的原始文本的第i个句子被掩码的第一概率;以及掩码处理单元723用于根据对应的原始文本的每个句子被掩码的第一概率,将对应的原始文本进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
图9为本申请实施例提供的又一种摘要生成模型的预训练装置的结构示意图。在本申请实施例一种可能的实现方式中,如图9所示,掩码处理单元723包括:获取子单元7231、确定子单元7232、掩码处理子单元7233。
其中,获取子单元7231用于获取对应的原始文本中包含的总字符数量M,其中,M为大于1的正整数;确定子单元7232用于根据总字符数量M,确定对应的原始文本中待掩码的字符数量K,其中,K为大于或等于1、且小于M的正整数;以及掩码处理子单元7233用于根据对应的原始文本的每个句子被掩码的第一概率,将对应的原始文本中K个字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
在本申请实施例一种可能的实现方式中,掩码处理子单元7233具体用于:根据对应的原始文本的每个句子被掩码的第一概率,从对应的原始文本中抽取待掩码的句子;获取待掩码的句子中每个字符与任一文本标题间的第二相似度;根据待掩码的句子中每个字符与任一文本标题间的第二相似度,从待掩码的句子中获取待掩码的目标字符;以及如果待掩码的句子中待掩码的目标字符的数量等于K,则将待掩码的句子中待掩码的目标字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
在本申请实施例一种可能的实现方式中,掩码处理子单元7233还用于:如果待掩码的句子中待掩码的目标字符的数量小于K、且小于Q,则继续根据待掩码的句子中每个字符与任一文本标题间的第二相似度,从待掩码的句子中获取待掩码的目标字符,直至待掩码的句子中待掩码的目标字符的数量等于Q,或者,等于K,其中,Q为待掩码的句子中包含的总字符数量的二分之一。
在本申请实施例又一种可能的实现方式中,掩码处理子单元7233还用于:如果待掩码的句子中待掩码的目标字符的数量小于K、且大于或等于Q,则将待掩码的句子中待掩码的目标字符进行掩码处理,其中,Q为待掩码的句子中包含的总字符数量的二分之一;以及重复执行根据对应的原始文本的每个句子被掩码的第一概率,从对应的原始文本中抽取待掩码的句子,直至抽取的各个待掩码的句子中待掩码的目标字符的数量和等于K。
在本申请实施例再一种可能的实现方式中,掩码处理子单元7233具体还用于:根据待掩码的句子中每个字符与任一文本标题间的第二相似度,从待掩码的句子中获取待掩码的初始目标字符;获取随机数Y;根据随机数Y,确定待掩码的实际目标字符,其中,待掩码的实际目标字符中包含初始目标字符、及与初始目标字符相邻、且位于初始目标字符之后的Y-1个字符;如果待掩码的实际目标字符的数量小于K、且小于Q,则继续从待掩码的句子中获取待掩码的初始目标字符,直至待掩码的句子中待掩码的实际目标字符的数量等于Q,或者等于K,其中,Q为待掩码的句子中包含的总字符数量的二分之一。
其中,随机数Y为大于或等于1、且小于或等于3的正整数。
在本申请实施例还一种可能的实现方式中,掩码处理子单元7233还用于:根据对应的原始文本的每个句子被掩码的第一概率,从对应的原始文本中抽取待掩码的句子;从待掩码的句子中获取任一字符作为待掩码的初始目标字符;获取随机数Y;根据随机数Y,确定待掩码的实际目标字符,其中,待掩码的实际目标字符中包含初始目标字符、及与初始目标字符相邻、且位于初始目标字符之后的Y-1个字符;如果待掩码的实际目标字符的数量小于K、且小于Q,则继续从待掩码的句子中获取待掩码的初始目标字符,直至待掩码的句子中待掩码的实际目标字符的数量等于Q,或者等于K,其中,Q为待掩码的句子中包含的总字符数量的二分之一;将待掩码的句子中待掩码的实际目标字符进行掩码处理,以生成与任一文本标题对应的掩码后的文本。
需要说明的是,本申请实施例的摘要生成模型的预训练装置中未披露的细节,请参照本申请实施例的摘要生成模型的预训练方法中所披露的细节,具体这里不再赘述。
本申请实施例的摘要生成模型的预训练装置,首先通过获取模块获取训练数据集,其中,数据集中包括多个原始文本及对应的多个文本标题,其次通过掩码处理模块分别根据多个文本标题中的每一个文本标题,将对应的每一个原始文本进行掩码处理,以生成多个掩码后的文本,然后通过生成模块将多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本,最后通过修正模块根据多个预测文本与对应的多个原始文本的差异,对初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。由此,通过采用包含标题的文本数据作为训练语料,并且根据标题将文本进行了掩码处理,以确保摘要生成模型可以识别到标题与文本间的关系,并且由于标题与摘要类似,都是对文本主题的概括,从而保证了预训练模型的目的和语料与摘要生成模型一致,从而为生成可靠、准确的摘要生成模型提供了条件。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图10所示,是根据本申请实施例的摘要生成模型的预训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的摘要生成模型的预训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的摘要生成模型的预训练方法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的摘要生成模型的预训练方法对应的程序指令/模块(例如,附图7所示的获取模块71、掩码处理模块72、生成模块73和修正模块74)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的摘要生成模型的预训练方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储摘要生成模型预训练的电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至摘要生成模型预训练的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
摘要生成模型的预训练方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与摘要生成模型的预训练的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网以及区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(“Virtual Private Server”,或简称“VPS”)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
本申请还提供一种计算机程序产品,当所述计算机程序产品中的指令被处理器执行时,实现如上所述的摘要生成模型的预训练方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (20)
1.一种摘要生成模型的预训练方法,包括:
获取训练数据集,其中,所述数据集中包括多个原始文本及对应的多个文本标题;
分别根据所述多个文本标题中的每一个文本标题,将对应的每一个所述原始文本进行掩码处理,以生成多个掩码后的文本;
将所述多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本;以及
根据所述多个预测文本与对应的所述多个原始文本的差异,对所述初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。
2.如权利要求1所述的方法,其中,所述分别根据所述多个文本标题中的每一个文本标题,将对应的每一个所述原始文本进行掩码处理,以生成多个掩码后的文本,包括:
获取所述多个文本标题中任一文本标题,与对应的所述原始文本中第i个句子间的第i个第一相似度,其中,i为大于或等于1,且小于或等于N的正整数,N为所述对应的所述原始文本中包含的句子数量;
根据所述第i个第一相似度,确定所述对应的所述原始文本的第i个句子被掩码的第一概率;以及
根据所述对应的所述原始文本的每个句子被掩码的第一概率,将所述对应的所述原始文本进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本。
3.如权利要求2所述的方法,其中,所述根据所述对应的所述原始文本的每个句子被掩码的第一概率,将所述对应的所述原始文本进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本,包括:
获取所述对应的所述原始文本中包含的总字符数量M,其中,M为大于1的正整数;
根据所述总字符数量M,确定所述对应的所述原始文本中待掩码的字符数量K,其中,K为大于或等于1、且小于M的正整数;以及
根据所述对应的所述原始文本的每个句子被掩码的第一概率,将所述对应的所述原始文本中K个字符进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本。
4.如权利要求3所述的方法,其中,所述根据所述对应的所述原始文本的每个句子被掩码的第一概率,将所述对应的所述原始文本中K个字符进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本,包括:
根据所述对应的所述原始文本的每个句子被掩码的第一概率,从所述对应的所述原始文本中抽取待掩码的句子;
获取所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度;
根据所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度,从所述待掩码的句子中获取待掩码的目标字符;以及
如果所述待掩码的句子中待掩码的目标字符的数量等于K,则将所述待掩码的句子中待掩码的目标字符进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本。
5.如权利要求4所述的方法,其中,在所述根据所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度,从所述待掩码的句子中获取待掩码的目标字符之后,还包括:
如果所述待掩码的句子中待掩码的目标字符的数量小于K、且小于Q,则继续根据所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度,从所述待掩码的句子中获取待掩码的目标字符,直至所述待掩码的句子中待掩码的目标字符的数量等于Q,或者,等于K,其中,Q为所述待掩码的句子中包含的总字符数量的二分之一。
6. 如权利要求4所述的方法,其中,在所述根据所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度,从所述待掩码的句子中获取待掩码的目标字符之后,还包括:
如果所述待掩码的句子中待掩码的目标字符的数量小于K、且大于或等于Q,则将所述待掩码的句子中待掩码的目标字符进行掩码处理,其中,Q为所述待掩码的句子中包含的总字符数量的二分之一;以及
重复执行根据所述对应的所述原始文本的每个句子被掩码的第一概率,从所述对应的所述原始文本中抽取待掩码的句子,直至抽取的各个待掩码的句子中待掩码的目标字符的数量和等于K。
7.如权利要求4述的方法,其中,所述根据所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度,从所述待掩码的句子中获取待掩码的目标字符,包括:
根据所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度,从所述待掩码的句子中获取待掩码的初始目标字符;
获取随机数Y;
根据所述随机数Y,确定待掩码的实际目标字符,其中,所述待掩码的实际目标字符中包含所述初始目标字符、及与所述初始目标字符相邻、且位于所述初始目标字符之后的Y-1个字符;
如果所述待掩码的实际目标字符的数量小于K、且小于Q,则继续从所述待掩码的句子中获取待掩码的初始目标字符,直至所述待掩码的句子中待掩码的实际目标字符的数量等于Q,或者等于K,其中,Q为所述待掩码的句子中包含的总字符数量的二分之一。
8.如权利要求7所述的方法,其中,所述随机数Y为大于或等于1、且小于或等于3的正整数。
9.如权利要求3所述的方法,其中,所述根据所述对应的所述原始文本的每个句子被掩码的第一概率,将所述对应的所述原始文本中K个字符进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本,包括:
根据所述对应的所述原始文本的每个句子被掩码的第一概率,从所述对应的所述原始文本中抽取待掩码的句子;
从所述待掩码的句子中获取任一字符作为待掩码的初始目标字符;
获取随机数Y;
根据所述随机数Y,确定待掩码的实际目标字符,其中,所述待掩码的实际目标字符中包含所述初始目标字符、及与所述初始目标字符相邻、且位于所述初始目标字符之后的Y-1个字符;
如果所述待掩码的实际目标字符的数量小于K、且小于Q,则继续从所述待掩码的句子中获取待掩码的初始目标字符,直至所述待掩码的句子中待掩码的实际目标字符的数量等于Q,或者等于K,其中,Q为所述待掩码的句子中包含的总字符数量的二分之一;
将所述待掩码的句子中待掩码的实际目标字符进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本。
10.一种摘要生成模型的预训练装置,包括:
获取模块,用于获取训练数据集,其中,所述数据集中包括多个原始文本及对应的多个文本标题;
掩码处理模块,用于分别根据所述多个文本标题中的每一个文本标题,将对应的每一个所述原始文本进行掩码处理,以生成多个掩码后的文本;
生成模块,用于将所述多个掩码后的文本分别输入初始摘要生成模型,以生成多个预测文本;以及
修正模块,用于根据所述多个预测文本与对应的所述多个原始文本的差异,对所述初始摘要生成模型进行修正,以生成预训练后的摘要生成模型。
11.如权利要求10所述的装置,其中,所述掩码处理模块包括:
获取单元,用于获取所述多个文本标题中任一文本标题,与对应的所述原始文本中第i个句子间的第i个第一相似度,其中,i为大于或等于1,且小于或等于N的正整数,N为所述对应的所述原始文本中包含的句子数量;
确定单元,用于根据所述第i个第一相似度,确定所述对应的所述原始文本的第i个句子被掩码的第一概率;以及
掩码处理单元,用于根据所述对应的所述原始文本的每个句子被掩码的第一概率,将所述对应的所述原始文本进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本。
12.如权利要求11所述的装置,其中,所述掩码处理单元包括:
获取子单元,用于获取所述对应的所述原始文本中包含的总字符数量M,其中,M为大于1的正整数;
确定子单元,用于根据所述总字符数量M,确定所述对应的所述原始文本中待掩码的字符数量K,其中,K为大于或等于1、且小于M的正整数;以及
掩码处理子单元,用于根据所述对应的所述原始文本的每个句子被掩码的第一概率,将所述对应的所述原始文本中K个字符进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本。
13.如权利要求12所述的装置,其中,所述掩码处理子单元具体用于:
根据所述对应的所述原始文本的每个句子被掩码的第一概率,从所述对应的所述原始文本中抽取待掩码的句子;
获取所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度;
根据所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度,从所述待掩码的句子中获取待掩码的目标字符;以及
如果所述待掩码的句子中待掩码的目标字符的数量等于K,则将所述待掩码的句子中待掩码的目标字符进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本。
14.如权利要求13所述的装置,其中,所述掩码处理子单元,还用于:
如果所述待掩码的句子中待掩码的目标字符的数量小于K、且小于Q,则继续根据所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度,从所述待掩码的句子中获取待掩码的目标字符,直至所述待掩码的句子中待掩码的目标字符的数量等于Q,或者,等于K,其中,Q为所述待掩码的句子中包含的总字符数量的二分之一。
15. 如权利要求13所述的装置,所述掩码处理子单元,还用于:
如果所述待掩码的句子中待掩码的目标字符的数量小于K、且大于或等于Q,则将所述待掩码的句子中待掩码的目标字符进行掩码处理,其中,Q为所述待掩码的句子中包含的总字符数量的二分之一;以及
重复执行根据所述对应的所述原始文本的每个句子被掩码的第一概率,从所述对应的所述原始文本中抽取待掩码的句子,直至抽取的各个待掩码的句子中待掩码的目标字符的数量和等于K。
16.如权利要求13所述的装置,其中,所述掩码处理子单元具体还用于:
根据所述待掩码的句子中每个字符与所述任一文本标题间的第二相似度,从所述待掩码的句子中获取待掩码的初始目标字符;
获取随机数Y;
根据所述随机数Y,确定待掩码的实际目标字符,其中,所述待掩码的实际目标字符中包含所述初始目标字符、及与所述初始目标字符相邻、且位于所述初始目标字符之后的Y-1个字符;
如果所述待掩码的实际目标字符的数量小于K、且小于Q,则继续从所述待掩码的句子中获取待掩码的初始目标字符,直至所述待掩码的句子中待掩码的实际目标字符的数量等于Q,或者等于K,其中,Q为所述待掩码的句子中包含的总字符数量的二分之一。
17.如权利要求16所述的装置,其中,所述随机数Y为大于或等于1、且小于或等于3的正整数。
18.如权利要求12所述的装置,其中,所述掩码处理子单元还用于:
根据所述对应的所述原始文本的每个句子被掩码的第一概率,从所述对应的所述原始文本中抽取待掩码的句子;
从所述待掩码的句子中获取任一字符作为待掩码的初始目标字符;
获取随机数Y;
根据所述随机数Y,确定待掩码的实际目标字符,其中,所述待掩码的实际目标字符中包含所述初始目标字符、及与所述初始目标字符相邻、且位于所述初始目标字符之后的Y-1个字符;
如果所述待掩码的实际目标字符的数量小于K、且小于Q,则继续从所述待掩码的句子中获取待掩码的初始目标字符,直至所述待掩码的句子中待掩码的实际目标字符的数量等于Q,或者等于K,其中,Q为所述待掩码的句子中包含的总字符数量的二分之一;
将所述待掩码的句子中待掩码的实际目标字符进行掩码处理,以生成与所述任一文本标题对应的掩码后的文本。
19. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010501240.5A CN111831814B (zh) | 2020-06-04 | 2020-06-04 | 摘要生成模型的预训练方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010501240.5A CN111831814B (zh) | 2020-06-04 | 2020-06-04 | 摘要生成模型的预训练方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831814A CN111831814A (zh) | 2020-10-27 |
CN111831814B true CN111831814B (zh) | 2023-06-23 |
Family
ID=72897560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010501240.5A Active CN111831814B (zh) | 2020-06-04 | 2020-06-04 | 摘要生成模型的预训练方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831814B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541073B (zh) * | 2020-12-15 | 2022-12-06 | 科大讯飞股份有限公司 | 一种文本摘要生成方法、装置、电子设备及存储介质 |
CN113761868B (zh) * | 2021-04-20 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN114186043B (zh) * | 2021-12-10 | 2022-10-21 | 北京三快在线科技有限公司 | 预训练方法、装置、设备和存储介质 |
CN115374884B (zh) * | 2022-10-26 | 2023-01-31 | 北京智源人工智能研究院 | 基于对比学习的摘要生成模型的训练方法和摘要生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
CN109829161A (zh) * | 2019-01-30 | 2019-05-31 | 延边大学 | 一种多语种自动摘要的方法 |
CN109947931A (zh) * | 2019-03-20 | 2019-06-28 | 华南理工大学 | 基于无监督学习的文本自动摘要方法、系统、设备及介质 |
CN110737769A (zh) * | 2019-10-21 | 2020-01-31 | 南京信息工程大学 | 一种基于神经主题记忆的预训练文本摘要生成方法 |
CN111061862A (zh) * | 2019-12-16 | 2020-04-24 | 湖南大学 | 一种基于注意力机制生成摘要的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015009620A1 (en) * | 2013-07-17 | 2015-01-22 | President And Fellows Of Harvard College | Systems and methods for keyword determination and document classification from unstructured text |
US11461644B2 (en) * | 2018-11-15 | 2022-10-04 | D-Wave Systems Inc. | Systems and methods for semantic segmentation |
-
2020
- 2020-06-04 CN CN202010501240.5A patent/CN111831814B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
CN109829161A (zh) * | 2019-01-30 | 2019-05-31 | 延边大学 | 一种多语种自动摘要的方法 |
CN109947931A (zh) * | 2019-03-20 | 2019-06-28 | 华南理工大学 | 基于无监督学习的文本自动摘要方法、系统、设备及介质 |
CN110737769A (zh) * | 2019-10-21 | 2020-01-31 | 南京信息工程大学 | 一种基于神经主题记忆的预训练文本摘要生成方法 |
CN111061862A (zh) * | 2019-12-16 | 2020-04-24 | 湖南大学 | 一种基于注意力机制生成摘要的方法 |
Non-Patent Citations (3)
Title |
---|
"A Text Abstraction Summary Model Based on BERT Word Embedding and Reinforcement Learning";Qicai Wang 等;《applied sciences》;全文 * |
一种基于主题聚类的多文本自动摘要算法;徐小龙;杨春春;;南京邮电大学学报(自然科学版)(05);全文 * |
基于分类的中文文本摘要方法;庞超;尹传环;;计算机科学(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111831814A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111831814B (zh) | 摘要生成模型的预训练方法、装置、电子设备和存储介质 | |
KR102448129B1 (ko) | 엔티티 연결 방법, 장치, 기기 및 저장 매체 | |
KR102557681B1 (ko) | 시계열 지식그래프 생성 방법, 장치, 기기 및 매체 | |
US11645316B2 (en) | Question answering method and language model training method, apparatus, device, and storage medium | |
CN111414482B (zh) | 一种事件论元抽取方法、装置以及电子设备 | |
EP3923160A1 (en) | Method, apparatus, device and storage medium for training model | |
US20210406476A1 (en) | Method, electronic device, and storage medium for extracting event from text | |
US11854246B2 (en) | Method, apparatus, device and storage medium for recognizing bill image | |
CN111967262B (zh) | 实体标签的确定方法和装置 | |
KR20210040851A (ko) | 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체 | |
CN111144115B (zh) | 预训练语言模型获取方法、装置、电子设备和存储介质 | |
CN111753914B (zh) | 模型优化方法和装置、电子设备及存储介质 | |
EP3851977A1 (en) | Method, apparatus, electronic device, and storage medium for extracting spo triples | |
CN111325020A (zh) | 一种事件论元抽取方法、装置以及电子设备 | |
JP7113097B2 (ja) | テキストエンティティの語義記述処理方法、装置及び機器 | |
CN111488740B (zh) | 一种因果关系的判别方法、装置、电子设备及存储介质 | |
JP7234483B2 (ja) | エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム | |
CN111079945B (zh) | 端到端模型的训练方法及装置 | |
US20210209482A1 (en) | Method and apparatus for verifying accuracy of judgment result, electronic device and medium | |
CN111127191B (zh) | 风险评估方法及装置 | |
CN112380847B (zh) | 兴趣点处理方法、装置、电子设备及存储介质 | |
CN111241810A (zh) | 标点预测方法及装置 | |
CN111291192B (zh) | 知识图谱中三元组置信度计算方法和装置 | |
US20210216710A1 (en) | Method and apparatus for performing word segmentation on text, device, and medium | |
CN112329429A (zh) | 文本相似度学习方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |