CN114861640A - 文本摘要模型的训练方法及装置 - Google Patents
文本摘要模型的训练方法及装置 Download PDFInfo
- Publication number
- CN114861640A CN114861640A CN202210374234.7A CN202210374234A CN114861640A CN 114861640 A CN114861640 A CN 114861640A CN 202210374234 A CN202210374234 A CN 202210374234A CN 114861640 A CN114861640 A CN 114861640A
- Authority
- CN
- China
- Prior art keywords
- text
- abstract
- training
- sample
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 194
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012545 processing Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本摘要模型的训练方法及装置,包括:获取训练数据集,训练数据集包括:至少一个标注摘要样本,标注摘要样本关联有至少一个相关文本样本;从标注摘要样本中获取至少一个关键句子,并在与标注摘要样本关联的相关文本样本中,获取与关键句子匹配的相似句子;利用关键句子与相似句子的对应关系训练初始文本摘要模型,获得第一文本摘要模型;利用标注摘要样本与相关文本样本的对应关系训练第一文本摘要模型,获得第二文本摘要模型。本申请采用输入多个相似句子的训练方式,可以较大幅度的降低模型的输入量,从而减少计算量,另外,由于关键句子和相似句子的提取减少了其他冗余内容带来的干扰,因此也提高了整体的训练效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本摘要模型的训练方法、文本摘要的获取方法及装置、电子设备、机器可读介质。
背景技术
多文本摘要是一种归纳总结多篇文本的核心内容的技术,能够有效提高对文本的处理能力。
相关技术中,在多文本摘要场景的模型训练过程中,需要构建不同训练文本之间的语义关系图,来帮助模型学习多文本之间摘要的逻辑关系。
但是,发明人经过研究发现,目前的方案中,构建语义关系图需要耗费较多计算资源、时间以及人工标注成本,导致训练效率低下。
发明内容
本申请实施例提供了一种文本摘要模型的训练方法及文本摘要的获取方法,以解决相关技术中训练效率低下的问题。
相应的,本申请实施例还提供了一种文本摘要模型的训练装置及文本摘要的获取装置、电子设备以及存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种文本摘要模型的训练方法,所述方法包括:
获取训练数据集,所述训练数据集包括:至少一个标注摘要样本,所述标注摘要样本关联有至少一个相关文本样本;
从所述标注摘要样本中获取至少一个关键句子,并在与所述标注摘要样本关联的相关文本样本中,获取与所述关键句子匹配的相似句子;
利用所述关键句子与所述相似句子的对应关系训练初始文本摘要模型,获得第一文本摘要模型;
利用所述标注摘要样本与所述相关文本样本的对应关系训练第一文本摘要模型,获得第二文本摘要模型,所述第二文本摘要模型用于根据至少一个相关文本生成摘要文本。
可选的,还包括:
将至少一个相关文本拼接后输入所述第二文本摘要模型,获得所述第二文本摘要模型输出的摘要文本。
可选的,在所述训练数据集中,所述标注摘要样本关联的至少一个相关文本样本各自的所属领域不同。
本申请实施例公开了一种文本摘要的获取方法,包括:
获取至少一个待处理文本;
将所述待处理文本输入第二文本摘要模型,获得所述第二文本摘要模型输出的摘要文本,其中,所述第二文本摘要模型由所述的文本摘要模型的训练方法训练获得。
本申请实施例公开了一种文本摘要模型的训练装置,所述装置包括:
第一获取模块,用于获取训练数据集,所述训练数据集包括:至少一个标注摘要样本,所述标注摘要样本关联有至少一个相关文本样本;
第二获取模块,用于从所述标注摘要样本中获取至少一个关键句子,并在与所述标注摘要样本关联的相关文本样本中,获取与所述关键句子匹配的相似句子;
第一训练模块,用于利用所述关键句子与所述相似句子的对应关系训练初始文本摘要模型,获得第一文本摘要模型;
第二训练模块,用于利用所述标注摘要样本与所述相关文本样本的对应关系训练第一文本摘要模型,获得第二文本摘要模型,所述第二文本摘要模型用于根据至少一个相关文本生成摘要文本。
本申请实施例公开了一种文本摘要的获取装置,所述装置包括:
第三获取模块,用于获取至少一个待处理文本;
处理模块,用于将所述待处理文本输入第二文本摘要模型,获得所述第二文本摘要模型输出的摘要文本,其中,所述第二文本摘要模型由所述的文本摘要模型的训练装置训练获得。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的方法。
本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的方法。
与相关技术相比,本申请实施例包括以下优点:
本申请实施例中,通过提取关键句子和相似句子构建数据对进行文本摘要模型的训练,关键句子和相似句子可以反映文本样本的精华内容,关键句子和相似句子的提取降低了文本样本中冗余内容带来的干扰,相较于直接输入多个相关文本样本的训练方式,本申请实施例采用输入多个相似句子的训练方式,可以较大幅度的降低模型的输入量,从而减少计算量,另外,由于关键句子和相似句子的提取减少了其他冗余内容带来的干扰,因此也提高了训练过程的训练精度,提升了整体的训练效率。
附图说明
图1是本申请实施例的一种系统架构图;
图2是本申请实施例的一种训练数据处理示意图;
图3是本申请实施例的一种训练数据关系示意图;
图4是本申请实施例的一种音视频会议管理场景下文本摘要的实现示意图;
图5是本申请实施例的一种新闻信息管理场景下文本摘要的实现示意图;
图6是本申请实施例的一种论文信息管理场景下文本摘要的实现示意图;
图7是本申请实施例的一种文本摘要模型的训练方法的步骤流程图;
图8是本申请实施例的一种文本摘要的获取方法的步骤流程图;
图9是本申请实施例的一种文本摘要模型的训练装置的框图;
图10是本申请实施例的一种文本摘要的获取装置的框图;
图11是本申请一实施例提供的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为使本领域技术人员更好地理解本申请,以下对本申请涉及的概念进行说明:
多文本摘要:一种从多篇不同文本中分别提取信息组建摘要的技术,如,从多篇不同论文中提取信息,将这些提取的信息合并后,可以得到能反映这些论文核心内容的摘要文本。
单文本摘要:一种从一篇文本中提取信息组建摘要的技术。
预训练模型:在一个原始特定任务上利用大量数据集预先训练一个模型,后续可以在目标任务上使用该模型,针对目标任务的特性,可以对该模型进行精调,从而达到提高目标任务的执行效果目的,其本质利用了迁移学习的理论。
本申请实施例的一种实现方式中,文本摘要模型的训练方法可应用于多文本摘要场景下的文本摘要模型的训练过程,具体可以获取由多个标注摘要样本和多个相关文本样本组成的训练数据集,其中,每个标注摘要样本关联有多个不同的相关文本样本,获取了训练数据集后,可以对训练数据集中的数据进行改造,从标注摘要样本中获取多个关键句子,并在与标注摘要样本关联的相关文本样本中,获取与关键句子匹配的相似句子,从而建立由关键句子和对应多个相似句子构建的数据对,最后利用关键句子与相似句子的对应关系,以及标注摘要样本与相关文本样本的对应关系对文本摘要模型进行训练。其中,相关文本为与摘要文本的内容相关联的文本内容。
由于多文本摘要的思想是通过分析相关文本中的核心内容之一,并基于对核心内容的理解构建摘要文本,因此摘要文本中的语句与相关文本中的语句存在天然的关联关系,因而本申请实施例提取关键句子和相似句子构建了数据对进行训练,关键句子和相似句子可以反映文本样本的精华内容,关键句子和相似句子的提取降低了文本样本中冗余内容带来的干扰,相较于直接输入多个相关文本样本的训练方式,本申请实施例的第一训练过程可以先采用输入多个相似句子的训练方式,从而较大幅度的降低模型的输入量,从而减少计算量,另外,由于关键句子和相似句子的提取减少了其他冗余内容带来的干扰,因此也提高了第一训练过程的训练精度,使得模型能够快速趋近训练目标,之后第二训练过程可以采用标注摘要样本与相关文本样本进行训练,由于第一训练过程的训练效果较佳,从而缩短了后续第二训练过程所需的时间,也降低了后续计算量,提升了整体的训练效率。
参照图1,其示出了本申请实施例提供的一种系统架构图,包括:服务端和客户端,服务端包括:训练数据处理模块、第一训练模块和第二训练模块。
其中,参照图2,其示出了本申请实施例提供的一种训练数据处理示意图,训练数据处理模块可以获取训练数据集,并从训练数据集中提取关键句子和相似句子的对应关系。具体的,图2中训练数据集包含三个标注摘要样本,每个标注摘要样本都关联有n(n≥1)个相关文本样本;相关文本样本包括大量的训练文本,例如可以为一篇文章、一篇论文、一篇新闻等,标注摘要样本即为多文本摘要训练过程中可以作为多个标注摘要样本的真实值的正确摘要样本,如,若n个相关文本样本为n个新闻文本,其对应的标注摘要样本可以为反映这n个新闻文本核心内容的摘要文本。
在本申请实施例中,参照图2,针对训练数据处理模块对标注摘要样本1和对应的相关文本样本1的处理过程进行描述说明,从而实现训练数据处理模块的功能解释:训练数据处理模块可以从标注摘要样本1中提取3个关键句子,每个关键句子都可以与相关文本样本1中的句子进行相似度计算,得到关键句子和相关文本样本1中的句子的相似度,通过按照相似度大小进行相关文本样本1中的句子的排序,可以从排序结果中提取与关键句子最相似的m个句子(Top m)作为关键句子的相似句子,如基于关键句子1,在相关文本样本1中获得了相似句子11和相似句子12;基于关键句子2,在相关文本样本1中获得了相似句子21和相似句子22;基于关键句子3,在相关文本样本1中获得了相似句子31和相似句子32。进一步参照图3,根据图2对标注摘要样本1和对应的相关文本样本1的处理结果,最后得到关键句子1与相似句子11和相似句子12的对应关系;关键句子2与相似句子21和相似句子22的对应关系;关键句子3与相似句子31和相似句子32的对应关系。对于标注摘要样本1和其他相关文本样本,以及其他标注摘要样本和相关文本样本的处理过程同理,此处不作赘述。
首先,本申请实施例的训练数据处理模块提取关键句子和相似句子可以抽取文本样本的精华内容进行后续训练,降低了文本样本中冗余内容带来的干扰,较大幅度的降低模型的输入量,从而减少计算量;另外,针对原有的一条标注摘要样本1—相关文本样本1的数据对,经过训练数据处理模块的处理,实际得到了3条关键句子—相似句子的数据对,达到了训练数据扩增的效果,从而能够有效提高后续训练的效率。
参照图1,本申请实施例可以将文本摘要模型的训练过程分为两个过程,分别由第一训练模块和第二训练模块实现,其中,第一训练模块可以根据训练数据处理模块输出的关键句子—相似句子组成的数据对,对初始文本摘要模型进行训练,由于关键句子—相似句子组成的数据对可以反映文本样本的精华内容,因此使得模型参数能够快速收敛以趋近训练目标,而且还通过降低输入量从而减少了计算量。之后,为了使得文本摘要模型能够匹配实际应用场景中输入相关文本并输出摘要文本的需求,第二训练模块可以根据训练数据集中原有的一个标注摘要样本—多个相关文本样本组成的数据对,对第一文本摘要模型进行训练,由于第一训练过程的训练效果较佳,从而缩短了后续第二训练过程所需的时间,也降低了后续计算量,提升了整体的训练效率。
在得到第二文本摘要模型之后,服务端可以获取客户端发送的至少一篇待处理文本并输入第二文本摘要模型,获得至少一篇待处理文本对应的摘要文本输出至客户端,需要说明的是,服务端也可以根据实际需求,将获得的摘要文本留存在服务端本地进行使用。
本申请实施例的文本摘要模型具体可以为基于变换器的双向编码器表示(BERT,Bidirectional Encoder Representation from Transformers)模型,其不再采用传统的单向语言模型进行预训练,或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型(MLM,masked language model),以致能生成深度的双向语言表征,BERT模型采用深层的双向变换器(Transformer)组件来构建整个模型,因此最终生成能融合左右上下文信息的深层双向语言表征。BERT模型通过在大量训练数据上进行自监督预训练的过程,可以学习得到大量的数据结构化信息,因而可以在数据分类、数据匹配等下游任务中获得很高的精度。另外,本申请实施例的文本摘要模型也可以为其他结构的模型,本申请实施例对此不作限定。
需要说明的是,本申请实施例训练好的第二文本摘要模型也可以适用于单文本摘要场景,即第二训练模块可以基于一个标注摘要样本—一个相关文本样本组成的数据对进行第一文本摘要模型的训练,使其符合单文本摘要场景的需求。
针对文本摘要的场景需求,可以实现的几种具体场景如下:
在一种实现方式中,图1示出的系统架构可以应用于音视频会议管理场景,参照图4,其示出了本申请实施例提供的一种音视频会议管理场景下文本摘要的实现示意图,包括:参会客户端和会议服务端,其中,会议服务端可以内置有训练好的第二文本摘要模型,参会客户端在参与会议时,可以将参会者的会议讲话音频录制并传输至会议服务端,会议服务端在利用会议讲话音频开展会议交互的基础上,还可以将会议会议讲话音频进行语音识别,转换为会议文本,之后会议服务端可以将各个会议文本拼接后输入第二文本摘要模型,获得第二文本摘要模型输出的会议摘要文本,会议摘要文本具体为对各个参会客户端的会议发言进行总结而形成的一个摘要性质文本,该场景下实现的多文本摘要技术可以提升会议管理的便捷性,增强会议记录的自动化程度。
在另一种实现方式中,图1示出的系统架构可以应用于新闻信息管理场景,参照图5,其示出了本申请实施例提供的一种新闻信息管理场景下文本摘要的实现示意图,包括:新闻发布服务端、新闻记录服务端和客户端,其中,新闻记录服务端可以内置有训练好的第二文本摘要模型,新闻发布服务端可以发布新闻文本消息,新闻记录服务端可以收集新闻发布服务端发布的新闻文本,之后新闻记录服务端可以将各个新闻文本拼接后输入第二文本摘要模型,获得第二文本摘要模型输出的新闻摘要文本,新闻摘要文本具体为对各个新闻文本进行总结而形成的一个摘要性质文本,新闻记录服务端可以可以将新闻摘要文本发送至客户端,以供客户端快速了解各个新闻的重点,该场景下实现的多文本摘要技术可以提升新闻信息统筹管理记录的便捷性和自动化程度。
在另一种实现方式中,图1示出的系统架构可以应用于论文信息管理场景,参照图6,其示出了本申请实施例提供的一种论文信息管理场景下文本摘要的实现示意图,包括:论文发布服务端、论文记录服务端和客户端,其中,论文记录服务端可以内置有训练好的第二文本摘要模型,论文发布服务端可以发布论文文本,论文记录服务端可以收集论文发布服务端发布的论文文本,之后论文记录服务端可以将各个论文文本拼接后输入第二文本摘要模型,获得第二文本摘要模型输出的论文摘要文本,论文摘要文本具体为对各个论文文本进行总结而形成的一个摘要性质文本,论文记录服务端可以可以将论文摘要文本发送至客户端,以供客户端快速了解各个论文的重点,该场景下实现的多文本摘要技术可以提升论文信息统筹管理记录的便捷性和自动化程度。
需要说明的是,本申请实施例中获取标注摘要样本、相关文本样本、待处理文本、会议文本、新闻文本、论文文本以及其他使用到的信息、信号或数据的过程,都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
本申请实施例中,通过提取关键句子和相似句子构建数据对进行文本摘要模型的训练,关键句子和相似句子可以反映文本样本的精华内容,关键句子和相似句子的提取降低了文本样本中冗余内容带来的干扰,相较于直接输入多个相关文本样本的训练方式,本申请实施例采用输入多个相似句子的训练方式,可以较大幅度的降低模型的输入量,从而减少计算量,另外,由于关键句子和相似句子的提取减少了其他冗余内容带来的干扰,因此也提高了训练过程的训练精度,提升了整体的训练效率。
参照图7,其示出了本申请实施例提供的一种文本摘要模型的训练方法的步骤流程图,包括:
步骤101,获取训练数据集,所述训练数据集包括:至少一个标注摘要样本,所述标注摘要样本关联有至少一个相关文本样本。
在本申请实施例中,训练数据集中的数据结构可以参照图2,训练数据集可以包括:至少一个标注摘要样本,标注摘要样本关联有至少一个相关文本样本,相关文本样本包括大量的训练文本,例如可以为一篇文章、一篇论文、一篇新闻等,标注摘要样本即为多文本摘要训练过程中可以作为多个标注摘要样本的真实值的正确摘要样本,如,若n个相关文本样本为n个新闻文本,其对应的标注摘要样本可以为反映这n个新闻文本核心内容的摘要文本。
可选的,在所述训练数据集中,所述标注摘要样本关联的至少一个相关文本样本各自的所属领域不同。
在本申请实施例中,为了提高多文本摘要场景的适用性,使得多文本摘要场景可以涵盖较多领域,可以在获取训练数据集时,为每个标注摘要样本获取所属领域不同的多个相关文本样本进行关联,这使得经过训练数据集训练的文本摘要模型可以适应于场景中文本领域的变化,从而提高多文本摘要的适用性。
例如,针对一个标注摘要样本,可以分别获取与其内容关联的医学领域相关文本样本、新闻领域相关文本样本、商业领域相关文本样本、法律领域相关文本样本,并将这些相关文本样本与其建立关联关系,通过这种训练数据训练的文本摘要模型,可以提高对不同领域的适用性。
步骤102,从所述标注摘要样本中获取至少一个关键句子,并在与所述标注摘要样本关联的相关文本样本中,获取与所述关键句子匹配的相似句子。
在该步骤中,参照图2,本申请实施例可以从标注摘要样本1中提取3个关键句子,每个关键句子都可以与相关文本样本1中的句子进行相似度计算,得到关键句子和相关文本样本1中的句子的相似度,之后可以基于相似度从选取相关文本样本1中的句子中取与关键句子匹配的相似句子,对于标注摘要样本1和其他相关文本样本,以及其他标注摘要样本和相关文本样本的处理过程同理,此处不作赘述。
步骤103,利用所述关键句子与所述相似句子的对应关系训练初始文本摘要模型,获得第一文本摘要模型。
在该步骤中,一次训练可以将一个关键句子关联的多个相似句子拼接后输入初始文本摘要模型,并基于初始文本摘要模型的输出结果和该关键句子计算损失函数,进而对初始文本摘要模型的参数实现训练。
本申请实施例提取关键句子和相似句子的过程,可以抽取文本样本的精华内容进行训练,降低了文本样本中冗余内容带来的干扰,使得模型参数能够快速收敛以趋近训练目标,并且较大幅度的降低模型的输入量,从而减少计算量。
步骤104,利用所述标注摘要样本与所述相关文本样本的对应关系训练第一文本摘要模型,获得第二文本摘要模型,所述第二文本摘要模型用于根据至少一个相关文本生成摘要文本。
在本申请实施例中,为了使得文本摘要模型能够匹配实际应用场景中输入相关文本并输出摘要文本的需求,第二训练模块可以根据训练数据集中原有的一个标注摘要样本—多个相关文本样本组成的数据对,对第一文本摘要模型进行训练,一次训练可以将一个标注摘要样本关联的多个相关文本样本拼接后输入第一文本摘要模型,并基于第一文本摘要模型的输出结果和该标注摘要样本计算损失函数,进而对第一文本摘要模型的参数实现训练。由于步骤103的训练效果较佳,从而缩短了步骤104的训练过程所需的时间,也降低了后续计算量,提升了整体的训练效率。
可选的,步骤102具体可以包括:
子步骤1021、从所述标注摘要样本中获取至少一个关键句子。
在该步骤中,从标注摘要样本中获取至少一个关键句子的方式可以有多种,在一种实现方式中,首先可以将标注摘要样本按照分句标点符号进行分句,得到多个句子,之后可以根据预设的关键句子模板对各个句子进行匹配,将与关键句子模板中的模板句子相似或相同的句子作为关键句子;在另一种实现方式中,可以将标注摘要样本按照分句标点符号进行分句,得到多个句子,之后对各个句子进行语义识别,得到句子的语义结果,并将预设语义结果的句子作为关键句子;在另一种实现方式中,可以通过训练好的深度学习模型,对标注摘要样本进行关键句提取,从而获取关键句。
子步骤1022、计算所述关键句子与所述相关文本样本中的第二句子之间的文本相似度。
在该步骤中,为了计算关键句子和第二句子之间的文本相似度,具体可以先分别提取关键句子和第二句子各自的特征向量,之后通过计算二者的向量相似度,从而获得关键句子和第二句子之间的文本相似度。
子步骤1023、按照所述文本相似度的大小对所述第二句子进行排序,并从排序结果中文本相似度最大的一端开始,选取至少一个第二句子作为所述相似句子。
在该步骤中,可以按照文本相似度的大小,从多个第二句子中选取相似度最大的K个第二句子作为相似句子,其中K值可以根据实际需求进行调整,K值越大,计算量越大,训练精度越高,K值越小,计算量越小,训练精度越差。
可选的,还可以包括:
子步骤1024、在与所述关键句子关联的相似句子拼接后的文本总长度,大于预设输入长度阈值的情况下,减少选取的第二句子的数量,直至与所述关键句子关联的相似句子拼接后的文本总长度,小于或等于所述预设输入长度阈值。
在本申请实施例中,基于文本摘要模型所部属的设备的算力限制,文本摘要模型可以具有输入长度的限制,即基于设备的算力限制,可以设定文本摘要模型的一个固定输入长度,用于限制文本摘要模型的输入长度小于或等于该固定输入长度,从而避免文本摘要模型的计算量过大。
具体的,与关键句子关联的相似句子需拼接后输入文本摘要模型进行训练,由于文本摘要模型存在预设输入长度阈值这一参数来限制输入长度,则在出现与关键句子关联的相似句子拼接后的文本总长度,大于预设输入长度阈
值的情况,本申请实施例可以减少从第二句子的排序结果中选取的第二句子的数量K的大小,从而减少关键句子对应的相似句子的数量,进而降低后续的文本摘要模型的输入长度,使得文本摘要模型的输入长度限制在输入长度阈值以内。
例如,假设原先从第二句子的排序结果中选取的第二句子的数量K为5,使得得到的相似句子拼接后的文本总长度大于预设输入长度阈值,则在将K调整为2后,可以使得得到的相似句子拼接后的文本总长度小于预设输入长度阈值。
可选的,步骤103具体可以包括:
子步骤1031、将所述相似句子拼接后输入初始文本摘要模型,获得初始文本摘要模型输出的第一句子。
子步骤1032、根据所述关键句子、第一句子和预设的第一损失函数对所述初始文本摘要模型的参数进行训练。
在本申请实施例中,可以将相似句子按照相似度由大到小的顺序进行排序,之后将排序中的相似句子首尾相接拼接后输入初始文本摘要模型进行训练,获得初始文本摘要模型输出的第一句子,之后基于关键句子和第一句子可以计算本次输入的损失值,最后根据损失值和预设的第一损失函数对所述初始文本摘要模型的参数进行训练,本申请实施例对第一损失函数的选取可以基于实际需求进行实现,并不作额外限定。其中,相似句子的拼接方式本申请实施例并不作具体限定,如还将可以将相似句子按照相似度由小到大的顺序进行排序后拼接,或随机排序后拼接等。
可选的,子步骤1031具体可以包括:
子步骤10311、在所述相似句子拼接后的文本总长度小于或等于预设输入长度阈值的情况下,将所述相似句子拼接后输入所述初始文本摘要模型。
子步骤10312、在所述相似句子拼接后的文本总长度大于所述预设输入长度阈值的情况下,从所述相似句子拼接后的文本中截取获得部分文本,并将所述部分文本输入所述初始文本摘要模型,所述部分文本的文本总长度小于或等于所述预设输入长度阈值。
在本申请实施例中,由于文本摘要模型所部属的设备的算力限制,文本摘要模型可以设定一个固定输入长度,用于限制文本摘要模型的输入长度小于或等于该固定输入长度,在相似句子拼接后的文本总长度小于或等于预设输入长度阈值的情况下,可以将相似句子拼接后输入所述初始文本摘要模型进行训练,在相似句子拼接后的文本总长度大于预设输入长度阈值的情况下,可以从相似句子拼接后的文本中截取获得文本总长度小于或等于所述预设输入长度阈值的部分文本,并将部分文本输入初始文本摘要模型进行训练。
需要说明的是,本申请实施例对相似句子拼接后的文本中截取获得部分文本的方式并不作具体限定,如一种实现方式中,可以将相似句子拼接后的文本的末尾进行截断,使得相似句子拼接后的文本的剩余部分可以作为该部分文本。另外,针对步骤104的训练过程,模型的输入为与标注摘要样本关联的多个相关文本样本的拼接结果,在该过程中也可以引入模型输入的输入长度阈值,从而对模型的输入长度进行限制,具体可以参照上述过程,此处不再赘述。
可选的,在一种实现方式中,相关文本样本具有对应的标注概率值;步骤104具体可以包括:
子步骤1041、将所述相关文本样本拼接后输入所述第一文本摘要模型,提取所述相关文本样本中的第三句子。
子步骤1042、计算所述相关文本样本中的第三句子属于所述标注摘要样本的第一概率值。
子步骤1043、根据所述标注概率值、所述第一概率值和预设的第二损失函数对所述第一文本摘要模型的参数进行训练。
在本申请实施例的一种实现方式中,参照子步骤1041-1043,第一文本摘要模型的训练过程可以采用抽取式摘要训练过程,该过程为从原文中选取关键词、关键句组成摘要,具体可以从输入的相关文本样本中提取第三句子,计算所第三句子属于标注摘要样本的第一概率值,并根据标注概率值、第一概率值计算损失值,最后根据损失值和和预设的第二损失函数对第一文本摘要模型的参数实现训练。这种方法可以在语法、句法上错误率低,保证了一定的效果。
可选的,在子步骤1041-1043的基础上训练得到的第二文本摘要模型,所述方法还包括:
子步骤1044、将至少一个相关文本输入所述第二文本摘要模型,获得所述相关文本中第四句子属于所述摘要文本的第二概率值。
子步骤1045、按照所述第二概率值对所述第四句子进行排序,并从排序结果中选取目标第四句子组成摘要文本。
在本申请实施例中,基于抽取式摘要训练过程训练得到的第二文本摘要模型,其部署在应用环境中后可以以相关文本的拼接结果为模型输入,并输出相关文本中的第四句子属于摘要文本的第二概率值,第二概率值越大,则第四句子可以被抽取添加至摘要文本的可能性就越大。
进一步的,本申请实施例的第二文本摘要模型在生成摘要文本时,可以按照第二概率值的大小对第四句子进行排序,并从排序结果中选取多个目标第四句子组成摘要文本,一种方式中,可以通过设定一个概率值阈值,并将小于或等于该概率值阈值的第四句子提取并组成摘要文本。另一种方式中,也可以从第四句子的排序结果中选取第二概率值最大的L个第四句子组成摘要文本,L的值可以根据实际需求进行设定。
可选的,子步骤1045具体可以包括:
子步骤10451、从所述排序结果中选取目标第四句子。
子步骤10452、按照所述第二概率值的大小将所述目标第四句子排序后组成所述摘要文本,所述摘要文本中展示有所述目标第四句子对应的第二概率值。
在本申请实施例中,可以将选取的目标第四句子按照各自的述第二概率值的大小(由大到小或由小到大的顺序)进行排序后,再组合成为摘要文本,且摘要文本中可以展示目标第四句子对应的第二概率值,这可以使得摘要文本中的内容细节可以具有重要性递增或递减的排列顺序,且标注出的第二概率值也可以反映摘要文本中的内容细节的重要性,第二概率值越大,说明其对应的目标第四句子的重要性越高,通过这种方式,本申请实施例可以对摘要文本内容的进行进一步的细分管理,降低用户对摘要文本内容的理解成本。
例如,假设第二文本摘要模型的输入为:相关文本1、相关文本2和相关文本3,第二文本摘要模型经过处理,提取了相关文本1中的第四句子a(第二概率值60%)和第四句子b(第二概率值40%)、提取了相关文本2中的第四句子d(第二概率值80%)、提取了相关文本3中的第四句子e(第二概率值50%),最后将第四句子a、第四句子b、第四句子d、、第四句子e按照第二概率值由大到小的顺序排序后组成摘要文本:“第四句子d(80%)—第四句子a(60%)—第四句子e(50%)—第四句子b(40%)”,使得用户在整体观看摘要文本的基础上,还可以对摘要文本的细分内容进行感知和精细化理解。
可选的,在另一种实现方式中,步骤104具体可以包括:
子步骤1046、将所述相关文本样本输入所述第一文本摘要模型,对所述相关文本样本的文本特征依次进行编码、解码操作,获得输出摘要文本。
子步骤1047、根据所述标注摘要样本、所述输出摘要文本和预设的第三损失函数对所述第一文本摘要模型的参数进行训练。
在本申请实施例的另一种实现方式中,参照子步骤1046-1047,第一文本摘要模型的训练过程可以采用生成式摘要训练过程,该方式可以提取相关文本样本的特征进行编码解码操作,从而获得摘要文本,生成式摘要可以直接预测生成摘要文本,允许摘要中包含新的词语或短语,灵活性高,生成的摘要文本语言连贯性较强,较易阅读理解,在实际应用中,可以采用序列到序列(Seq2Seq)模型用于生成式摘要任务,并取得一定的成果。
可选的,在子步骤1046-1047的基础上训练得到的第二文本摘要模型,所述方法还包括:
子步骤1048、将至少一个相关文本拼接后输入所述第二文本摘要模型,获得所述第二文本摘要模型输出的摘要文本。
在本申请实施例中,基于生成式摘要训练过程训练得到的第二文本摘要模型,其部署在应用环境中后可以以相关文本的拼接结果为模型输入,并通过编码、解码操作输出连贯性较强的摘要文本。
综上所述,本申请实施例中,通过提取关键句子和相似句子构建数据对进行文本摘要模型的训练,关键句子和相似句子可以反映文本样本的精华内容,关键句子和相似句子的提取降低了文本样本中冗余内容带来的干扰,相较于直接输入多个相关文本样本的训练方式,本申请实施例采用输入多个相似句子的训练方式,可以较大幅度的降低模型的输入量,从而减少计算量,另外,由于关键句子和相似句子的提取减少了其他冗余内容带来的干扰,因此也提高了训练过程的训练精度,提升了整体的训练效率。
参照图8,其示出了本申请实施例提供的一种文本摘要的获取方法的步骤流程图,包括:
步骤201,获取至少一个待处理文本。
步骤202,将所述待处理文本输入第二文本摘要模型,获得所述第二文本摘要模型输出的摘要文本。
其中,所述第二文本摘要模型由所述的文本摘要模型的训练方法训练获得。
步骤201-202具体可以参照上述图4-6的相关描述,此处不作赘述。
综上所述,本申请实施例中,通过提取关键句子和相似句子构建数据对进行文本摘要模型的训练,关键句子和相似句子可以反映文本样本的精华内容,关键句子和相似句子的提取降低了文本样本中冗余内容带来的干扰,相较于直接输入多个相关文本样本的训练方式,本申请实施例采用输入多个相似句子的训练方式,可以较大幅度的降低模型的输入量,从而减少计算量,另外,由于关键句子和相似句子的提取减少了其他冗余内容带来的干扰,因此也提高了训练过程的训练精度,提升了整体的训练效率。
参照图9,其示出了本申请实施例提供的一种文本摘要模型的训练装置的框图,包括:
第一获取模块301,用于获取训练数据集,所述训练数据集包括:至少一个标注摘要样本,所述标注摘要样本关联有至少一个相关文本样本;
第二获取模块302,用于从所述标注摘要样本中获取至少一个关键句子,并在与所述标注摘要样本关联的相关文本样本中,获取与所述关键句子匹配的相似句子;
第一训练模块303,用于利用所述关键句子与所述相似句子的对应关系训练初始文本摘要模型,获得第一文本摘要模型;
第二训练模块304,用于利用所述标注摘要样本与所述相关文本样本的对应关系训练第一文本摘要模型,获得第二文本摘要模型,所述第二文本摘要模型用于根据至少一个相关文本生成摘要文本。
可选的,所述第一训练模块303型,包括:
第一输入子模块,用于将所述相似句子拼接后输入初始文本摘要模型,获得初始文本摘要模型输出的第一句子;
第一训练子模块,用于根据所述关键句子、第一句子和预设的第一损失函数对所述初始文本摘要模型的参数进行训练。
可选的,第一输入子模块包括:
第一判断单元,用于在所述相似句子拼接后的文本总长度小于或等于预设输入长度阈值的情况下,将所述相似句子拼接后输入所述初始文本摘要模型;
第二判断单元,用于在所述相似句子拼接后的文本总长度大于所述预设输入长度阈值的情况下,从所述相似句子拼接后的文本中截取获得部分文本,并将所述部分文本输入所述初始文本摘要模型,所述部分文本的文本总长度小于或等于所述预设输入长度阈值。
可选的,第二获取模块302,包括:
提取子模块,用于从所述标注摘要样本中获取至少一个关键句子;
第一计算子模块,用于计算所述关键句子与所述相关文本样本中的第二句子之间的文本相似度;
排序子模块,用于按照所述文本相似度的大小对所述第二句子进行排序,并从排序结果中文本相似度最大的一端开始,选取至少一个第二句子作为所述相似句子。
可选的,所述装置还包括:
消减模块,用于在与所述关键句子关联的相似句子拼接后的文本总长度,大于预设输入长度阈值的情况下,减少选取的第二句子的数量,直至与所述关键句子关联的相似句子拼接后的文本总长度,小于或等于所述预设输入长度阈值。
可选的,所述相关文本样本具有对应的标注概率值;所述第二训练模块304,包括:
第二输入子模块,用于将所述相关文本样本拼接后输入所述第一文本摘要模型,提取所述相关文本样本中的第三句子;
第二计算子模块,用于计算所述相关文本样本中的第三句子属于所述标注摘要样本的第一概率值;
第二训练子模块,用于根据所述标注概率值、所述第一概率值和预设的第二损失函数对所述第一文本摘要模型的参数进行训练。
可选的,所述装置还包括:
概率值获取模块,用于将至少一个相关文本输入所述第二文本摘要模型,获得所述相关文本中第四句子属于所述摘要文本的第二概率值;
选取模块,用于按照所述第二概率值对所述第四句子进行排序,并从排序结果中选取目标第四句子组成摘要文本。
可选的,所述选取模块,包括:
选取子模块,用于从所述排序结果中选取目标第四句子;
合并子模块,用于按照所述第二概率值的大小将所述目标第四句子排序后组成所述摘要文本,所述摘要文本中展示有所述目标第四句子对应的第二概率值。
可选的,所述第二训练模块304,包括:
第三输入子模块,用于将所述相关文本样本输入所述第一文本摘要模型,对所述相关文本样本的文本特征依次进行编码、解码操作,获得输出摘要文本;
第三训练子模块,用于根据所述标注摘要样本、所述输出摘要文本和预设的第三损失函数对所述第一文本摘要模型的参数进行训练。
可选的,所述装置还包括:
摘要模块,用于将至少一个相关文本拼接后输入所述第二文本摘要模型,获得所述第二文本摘要模型输出的摘要文本。
可选的,在所述训练数据集中,所述标注摘要样本关联的至少一个相关文本样本各自的所属领域不同。
综上,本申请实施例中,通过提取关键句子和相似句子构建数据对进行文本摘要模型的训练,关键句子和相似句子可以反映文本样本的精华内容,关键句子和相似句子的提取降低了文本样本中冗余内容带来的干扰,相较于直接输入多个相关文本样本的训练方式,本申请实施例采用输入多个相似句子的训练方式,可以较大幅度的降低模型的输入量,从而减少计算量,另外,由于关键句子和相似句子的提取减少了其他冗余内容带来的干扰,因此也提高了训练过程的训练精度,提升了整体的训练效率。
参照图10,其示出了本申请实施例提供的一种文本摘要的获取装置的框图,包括:
第三获取模块401,用于获取至少一个待处理文本;
处理模块402,用于将所述待处理文本输入第二文本摘要模型,获得所述第二文本摘要模型输出的摘要文本,其中,所述第二文本摘要模型由所述的文本摘要模型的训练装置训练获得。
综上,本申请实施例中,通过提取关键句子和相似句子构建数据对进行文本摘要模型的训练,关键句子和相似句子可以反映文本样本的精华内容,关键句子和相似句子的提取降低了文本样本中冗余内容带来的干扰,相较于直接输入多个相关文本样本的训练方式,本申请实施例采用输入多个相似句子的训练方式,可以较大幅度的降低模型的输入量,从而减少计算量,另外,由于关键句子和相似句子的提取减少了其他冗余内容带来的干扰,因此也提高了训练过程的训练精度,提升了整体的训练效率。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括终端设备、服务端(集群)等各类型的设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括终端设备、服务端(集群)等电子设备。图11示意性地示出了可被用于实现本申请实施例中所述的各个实施例的示例性装置1000。
对于一个实施例,图11示出了示例性装置1000,该装置具有一个或多个处理器1002、被耦合到(一个或多个)处理器1002中的至少一个的控制模块(芯片组)1004、被耦合到控制模块1004的存储器1006、被耦合到控制模块1004的非易失性存储器(NVM)/存储设备1008、被耦合到控制模块1004的一个或多个输入/输出设备1010,以及被耦合到控制模块1004的网络接口1012。
处理器1002可包括一个或多个单核或多核处理器,处理器1002可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1000能够作为本申请实施例中所述终端设备、服务端(集群)等设备。
在一些实施例中,装置1000可包括具有指令1014的一个或多个计算机可读介质(例如,存储器1006或NVM/存储设备1008)以及与该一个或多个计算机可读介质相合并被配置为执行指令1014以实现模块从而执行本公开中所述的动作的一个或多个处理器1002。
对于一个实施例,控制模块1004可包括任意适当的接口控制器,以向(一个或多个)处理器1002中的至少一个和/或与控制模块1004通信的任意适当的设备或组件提供任意适当的接口。
控制模块1004可包括存储器控制器模块,以向存储器1006提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1006可被用于例如为装置1000加载和存储数据和/或指令1014。对于一个实施例,存储器1006可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1006可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块1004可包括一个或多个输入/输出控制器,以向NVM/存储设备1008及(一个或多个)输入/输出设备1010提供接口。
例如,NVM/存储设备1008可被用于存储数据和/或指令1014。NVM/存储设备1008可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1008可包括在物理上作为装置1000被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1008可通过网络经由(一个或多个)输入/输出设备1010进行访问。
(一个或多个)输入/输出设备1010可为装置1000提供接口以与任意其他适当的设备通信,输入/输出设备1010可以包括通信组件、音频组件、传感器组件等。网络接口1012可为装置1000提供接口以通过一个或多个网络通信,装置1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1002中的至少一个可与控制模块1004的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1002中的至少一个可与控制模块1004的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1002中的至少一个可与控制模块1004的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1002中的至少一个可与控制模块1004的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置1000可以但不限于是:服务端、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1000可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1000包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种文本摘要模型的训练方法、文本摘要的获取方法、装置、电子设备和存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种文本摘要模型的训练方法,其特征在于,包括:
获取训练数据集,所述训练数据集包括:至少一个标注摘要样本,所述标注摘要样本关联有至少一个相关文本样本;
从所述标注摘要样本中获取至少一个关键句子,并在与所述标注摘要样本关联的相关文本样本中,获取与所述关键句子匹配的相似句子;
利用所述关键句子与所述相似句子的对应关系训练初始文本摘要模型,获得第一文本摘要模型;
利用所述标注摘要样本与所述相关文本样本的对应关系训练第一文本摘要模型,获得第二文本摘要模型,所述第二文本摘要模型用于根据至少一个相关文本生成摘要文本。
2.根据权利要求1所述的方法,其特征在于,所述利用所述关键句子与所述相似句子的对应关系训练初始文本摘要模型,包括:
将所述相似句子拼接后输入初始文本摘要模型,获得初始文本摘要模型输出的第一句子;
根据所述关键句子、第一句子和预设的第一损失函数对所述初始文本摘要模型的参数进行训练。
3.根据权利要求2所述的方法,其特征在于,所述将所述相似句子拼接后输入初始文本摘要模型,包括:
在所述相似句子拼接后的文本总长度小于或等于预设输入长度阈值的情况下,将所述相似句子拼接后输入所述初始文本摘要模型;
在所述相似句子拼接后的文本总长度大于所述预设输入长度阈值的情况下,从所述相似句子拼接后的文本中截取获得部分文本,并将所述部分文本输入所述初始文本摘要模型,所述部分文本的文本总长度小于或等于所述预设输入长度阈值。
4.根据权利要求1所述的方法,其特征在于,所述从所述标注摘要样本中获取至少一个关键句子,并在与所述标注摘要样本关联的相关文本样本中,获取与所述关键句子匹配的相似句子,包括:
从所述标注摘要样本中获取至少一个关键句子;
计算所述关键句子与所述相关文本样本中的第二句子之间的文本相似度;
按照所述文本相似度的大小对所述第二句子进行排序,并从排序结果中文本相似度最大的一端开始,选取至少一个第二句子作为所述相似句子。
5.根据权利要求4所述的方法,其特征在于,还包括:
在与所述关键句子关联的相似句子拼接后的文本总长度,大于预设输入长度阈值的情况下,减少选取的第二句子的数量,直至与所述关键句子关联的相似句子拼接后的文本总长度,小于或等于所述预设输入长度阈值。
6.根据权利要求1所述的方法,其特征在于,所述相关文本样本具有对应的标注概率值;
所述利用所述标注摘要样本与所述相关文本样本的对应关系训练第一文本摘要模型,包括:
将所述相关文本样本拼接后输入所述第一文本摘要模型,提取所述相关文本样本中的第三句子;
计算所述相关文本样本中的第三句子属于所述标注摘要样本的第一概率值;
根据所述标注概率值、所述第一概率值和预设的第二损失函数对所述第一文本摘要模型的参数进行训练。
7.根据权利要求6所述的方法,其特征在于,还包括:
将至少一个相关文本输入所述第二文本摘要模型,获得所述相关文本中第四句子属于所述摘要文本的第二概率值;
按照所述第二概率值对所述第四句子进行排序,并从排序结果中选取目标第四句子组成摘要文本。
8.根据权利要求7所述的方法,其特征在于,所述从排序结果中选取目标第四句子组成摘要文本,包括:
从所述排序结果中选取目标第四句子;
按照所述第二概率值的大小将所述目标第四句子排序后组成所述摘要文本,所述摘要文本中展示有所述目标第四句子对应的第二概率值。
9.根据权利要求1所述的方法,其特征在于,所述利用所述标注摘要样本与所述相关文本样本的对应关系训练第一文本摘要模型,包括:
将所述相关文本样本输入所述第一文本摘要模型,对所述相关文本样本的文本特征依次进行编码、解码操作,获得输出摘要文本;
根据所述标注摘要样本、所述输出摘要文本和预设的第三损失函数对所述第一文本摘要模型的参数进行训练。
10.一种文本摘要的获取方法,其特征在于,包括:
获取至少一个待处理文本;
将所述待处理文本输入第二文本摘要模型,获得所述第二文本摘要模型输出的摘要文本,其中,所述第二文本摘要模型由权利要求1-9任一项所述的文本摘要模型的训练方法训练获得。
11.一种文本摘要模型的训练装置,其特征在于,包括:
第一获取模块,用于获取训练数据集,所述训练数据集包括:至少一个标注摘要样本,所述标注摘要样本关联有至少一个相关文本样本;
第二获取模块,用于从所述标注摘要样本中获取至少一个关键句子,并在与所述标注摘要样本关联的相关文本样本中,获取与所述关键句子匹配的相似句子;
第一训练模块,用于利用所述关键句子与所述相似句子的对应关系训练初始文本摘要模型,获得第一文本摘要模型;
第二训练模块,用于利用所述标注摘要样本与所述相关文本样本的对应关系训练第一文本摘要模型,获得第二文本摘要模型,所述第二文本摘要模型用于根据至少一个相关文本生成摘要文本。
12.一种文本摘要的获取装置,其特征在于,包括:
第三获取模块,用于获取至少一个待处理文本;
处理模块,用于将所述待处理文本输入第二文本摘要模型,获得所述第二文本摘要模型输出的摘要文本,其中,所述第二文本摘要模型由权利要求11所述的文本摘要模型的训练装置训练获得。
13.一种电子设备,其特征在于,包括:
处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1至10任一所述的方法。
14.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1至10任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210374234.7A CN114861640A (zh) | 2022-04-11 | 2022-04-11 | 文本摘要模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210374234.7A CN114861640A (zh) | 2022-04-11 | 2022-04-11 | 文本摘要模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114861640A true CN114861640A (zh) | 2022-08-05 |
Family
ID=82629629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210374234.7A Pending CN114861640A (zh) | 2022-04-11 | 2022-04-11 | 文本摘要模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861640A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600586A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 摘要文本生成方法、计算设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190384810A1 (en) * | 2018-06-15 | 2019-12-19 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method of training a descriptive text generating model, and method and apparatus for generating descriptive text |
CN111125301A (zh) * | 2019-11-22 | 2020-05-08 | 泰康保险集团股份有限公司 | 文本方法及装置、电子设备和计算机可读存储介质 |
CN112560479A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 |
CN113255319A (zh) * | 2021-07-02 | 2021-08-13 | 深圳市北科瑞声科技股份有限公司 | 模型训练方法、文本分段方法、摘要抽取方法及装置 |
-
2022
- 2022-04-11 CN CN202210374234.7A patent/CN114861640A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190384810A1 (en) * | 2018-06-15 | 2019-12-19 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method of training a descriptive text generating model, and method and apparatus for generating descriptive text |
CN111125301A (zh) * | 2019-11-22 | 2020-05-08 | 泰康保险集团股份有限公司 | 文本方法及装置、电子设备和计算机可读存储介质 |
CN112560479A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 |
CN113255319A (zh) * | 2021-07-02 | 2021-08-13 | 深圳市北科瑞声科技股份有限公司 | 模型训练方法、文本分段方法、摘要抽取方法及装置 |
Non-Patent Citations (1)
Title |
---|
GHADIMI ALIREZA 等: ""Hybrid multi-document summarization using pre-trained language models"", 《 EXPERT SYSTEMS WITH APPLICATIONS》, vol. 192, 3 January 2022 (2022-01-03), pages 1 - 3 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600586A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 摘要文本生成方法、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11106714B2 (en) | Summary generating apparatus, summary generating method and computer program | |
US20170337479A1 (en) | Machine comprehension of unstructured text | |
JP6909832B2 (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
CN111666416B (zh) | 用于生成语义匹配模型的方法和装置 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
US20230057010A1 (en) | Term weight generation method, apparatus, device and medium | |
CN110457449B (zh) | 在线训练模型的方法、装置、设备及存储介质 | |
CN113254620B (zh) | 基于图神经网络的应答方法、装置、设备及存储介质 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN114333852A (zh) | 一种多说话人语音人声分离方法、终端设备及存储介质 | |
Yi et al. | Focal Loss for Punctuation Prediction. | |
CN115967833A (zh) | 视频生成方法、装置、设备计存储介质 | |
CN115134660A (zh) | 视频剪辑方法、装置、计算机设备及存储介质 | |
CN116070027A (zh) | 基于人工智能的线上推送主题分析方法及大数据系统 | |
CN114420125A (zh) | 音频处理方法、装置、电子设备及介质 | |
CN111400454A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN114861640A (zh) | 文本摘要模型的训练方法及装置 | |
CN118070072A (zh) | 基于人工智能的问题处理方法、装置、设备及存储介质 | |
CN117275466A (zh) | 一种业务意图识别方法、装置、设备及其存储介质 | |
CN116186244A (zh) | 生成文本摘要的方法、训练摘要生成模型的方法及装置 | |
CN116959418A (zh) | 一种音频处理方法及装置 | |
CN115019137A (zh) | 一种多尺度双流注意力视频语言事件预测的方法及装置 | |
EP4432165A1 (en) | Apparatus and method for video representation learning | |
CN117710777B (zh) | 模型训练方法、关键帧抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |