CN114860873A - 一种生成文本摘要的方法、装置及存储介质 - Google Patents

一种生成文本摘要的方法、装置及存储介质 Download PDF

Info

Publication number
CN114860873A
CN114860873A CN202210424334.6A CN202210424334A CN114860873A CN 114860873 A CN114860873 A CN 114860873A CN 202210424334 A CN202210424334 A CN 202210424334A CN 114860873 A CN114860873 A CN 114860873A
Authority
CN
China
Prior art keywords
text
target
model
abstract
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210424334.6A
Other languages
English (en)
Inventor
赵文
靳新磊
高谦
马达森
季昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Peking University Software Engineering Co ltd
Original Assignee
Beijing Peking University Software Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Peking University Software Engineering Co ltd filed Critical Beijing Peking University Software Engineering Co ltd
Priority to CN202210424334.6A priority Critical patent/CN114860873A/zh
Publication of CN114860873A publication Critical patent/CN114860873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请一些实施例提供了一种生成文本摘要的方法、装置及存储介质,涉及信息处理技术领域,该方法包括对初始文本进行分块处理,获取处理后的文本数据;将所述文本数据输入到目标摘要生成模型,获取目标摘要,其中,所述目标摘要生成模型包括第一目标文本模型和第二目标文本模型,所述第一目标文本模型是通过训练第一文本模型得到的,所述第二目标文本模型是通过训练第二文本模型得到的,所述第一目标文本模型用于提取所述文本数据包括的目标信息,所述第二目标文本模型用于根据所述目标信息生成所述目标摘要。本申请一些实施例可以对文本进行准确地信息提取,生成质量较高的文本摘要,且解决了文本信息丢失的问题。

Description

一种生成文本摘要的方法、装置及存储介质
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种生成文本摘要的方法、装置及存储介质。
背景技术
随着互联网的快速发展,网络上的文本数据呈现指数级增长。
目前,为了便于用户阅读,现有技术是对输入的文本进行分析和建模后,将模型对其总结后的内容作为摘要以供用户快速阅读。虽然这种方法比较简单,但是产生的摘要不够简洁,且包含冗余内容,造成用户体验很差。另外,由于大部分模型对输入的文本长度有限制,现有技术采用直接截取的方式,将截取后的文本输入到模型,极易造成文件信息丢失的问题。
因此,如何提供一种既简洁完整,准确度又高地生成文本摘要的方法的技术方案成为亟需解决的技术问题。
发明内容
本申请一些实施例的目的在于提供一种生成文本摘要的方法、装置及存储介质,通过本申请一些实施例的技术方案可以基于文本数据生成准确度较高、简洁且流畅度较高的目标摘要,提升用户体验。
第一方面,本申请一些实施例提供了一种生成文本摘要的方法,包括:对初始文本进行分块处理,获取处理后的文本数据,其中,所述文本数据包括至少两个文本数据块,每个文本数据块采用候选语句集合来表征;将所述文本数据输入到目标摘要生成模型,获取目标摘要,其中,所述目标摘要生成模型包括第一目标文本模型和第二目标文本模型,所述第一目标文本模型是通过训练第一文本模型得到的,所述第二目标文本模型是通过训练第二文本模型得到的,所述第一目标文本模型用于提取所述文本数据包括的目标信息,所述第二目标文本模型用于根据所述目标信息生成所述目标摘要。
本申请一些实施例通过对初始文本分块处理后的文本数据输入至由第一目标文本模型和第二目标文本模型构成的目标摘要生成模型中,得到目标摘要,在对于长文本生成摘要的过程中,与相关技术直接从初始文本中截取部分作为输入的方式相比,本申请的实施例可以对长文本进行分块处理,保证完整地获取与初始文本对应的目标摘要,有效避免了文本数据的丢失,同时得到的目标摘要准确度较高、流畅度较好且格式较标准,进而提升了用户阅读体验。
在一些实施例,在所述对初始文本进行分块处理,获取处理后的文本数据之前,所述方法还包括:对原始文本中的至少部分语句进行数据清洗处理,获取所述初始文本,其中,所述数据清洗处理包括:调整语句符号格式和去除所述部分语句中的噪声信息中的至少一种。
本申请一些实施例通过对原始文件进行数据清洗处理,一方面可以修改原始文本的格式问题,另一方面可以有效剔除原始文本中的无效信息(也就是噪声信息)。
在一些实施例,在所述将所述文本数据输入到目标摘要生成模型,获取目标摘要之前,所述方法还包括:对获取的样本数据进行数据处理,得到处理后的样本数据集合;根据所述样本数据集合以及获取的与所述样本数据集合对应的参考摘要集合,构建训练数据集和验证数据集,其中,一条样本数据与一个参考摘要对应;利用所述训练数据集对所述第一文本模型进行训练得到待测试第一目标文本模型,并利用所述训练数据集对所述第二文本模型进行训练得到待测试第二目标文本模型;至少根据所述验证数据集,确认所述待测试第一目标文本模型和所述待测试第二目标文本模型通过验证,得到所述目标摘要生成模型。
本申请一些实施例通过采用非端到端的方式对第一文本模型和第二文本模型分别进行训练,并确认训练得到的待测试第一目标文本模型和待测试第二目标文本模型通过验证得到目标摘要生成模型,有效降低了模型训练的难度,而且后期便于分别对第一目标文本模型和第二目标文本模型进行维护和升级。
在一些实施例,所述至少根据所述验证数据集,确认所述待测试第一目标文本模型和所述待测试第二目标文本模型通过验证,得到所述目标摘要生成模型,包括:根据所述验证数据集和损失函数,获取调整参数后的待测试第一目标文本模型和调整参数后的待测试第二目标文本模型;获取所述调整参数后的待测试第一目标文本模型和所述调整参数后的待测试第二目标文本模型的分值,并根据所述分值,获取所述目标摘要生成模型。
本申请一些实施例通过对样本数据进行分块处理输入至第一目标文本模型,可以有效避免直接从样本数据中截取部分数据作为输入导致的文本信息丢失的问题;之后根据分值得到目标摘要生成模型,能够保证最终得到的目标摘要生成模型的精准度。
在一些实施例,所述将所述文本数据输入到目标摘要生成模型,获取目标摘要,包括:将所述文本数据输入到所述第一目标文本模型,通过所述第一目标文本模型获取所述目标信息,其中,所述目标信息是从所述文本数据中筛选出的多个目标语句;将所述目标信息输入到所述第二目标文本模型,得到所述目标摘要。
本申请一些实施例通过将第一目标文本模型得到的目标信息,输入至第二目标文本模型得到目标摘要,可以确保得到的目标摘要的准确度和流畅度,提升用户体验。
在一些实施例,所述通过所述第一目标文本模型获取所述目标信息,包括:对所述文本数据中的第j文本数据块包括的各语句进行打分排序,得到一个队列;从所述队列中选取出预设数量的语句,作为第j目标语句集合,其中,所述第j文本数据块为所述至少两个文本数据块中的任一个;重复上述过程获取与各文本数据块对应的目标语句集合,得到所述多个目标语句。
本申请一些实施例通过对文本数据块中的各语句进行打分排序,获取分数较高的预设数量的语句作为目标语句,可以有效提取出每个文本数据块中的重要语句,确保生成的目标摘要的准确度。
在一些实施例,在所述将所述文本数据输入到目标摘要生成模型,获取目标摘要之后,所述方法还包括:分别提取所述目标摘要和所述初始文本中的数字字符串;基于所述初始文本中的数字字符串,对所述目标摘要中的数字字符串进行检验,获取出错字符;根据初始文本中的数字字符串,替换所述出错字符,得到替换后的目标摘要。
本申请一些实施例通过对目标摘要的数字字符串进行检验,确保生成的目标摘要的准确度。
在一些实施例,在所述根据初始文本中的数字字符串,替换所述出错字符,得到替换后的目标摘要之后,所述方法还包括:对所述替换后的目标摘要进行数据清洗处理,得到处理后的目标摘要,其中,所述数据清洗处理包括:调整所述替换后的目标摘要中的语句符号格式和去除所述替换后的目标摘要中的噪声信息中的至少一种。
本申请一些实施例通过对目标摘要进行数据清洗处理,确保生成的目标摘要简洁、格式规范以及不包含冗余内容,提升用户阅读体验。
在一些实施例,所述第一文本模型为抽取式摘要模型,且所述第二文本模型为生成式摘要模型。
本申请一些实施例通过采用不同类型的模型作为第一文本模型和第二文本模型,两种类型的模型联合使用可以提升训练好的模型的精准度。
第二方面,本申请一些实施例提供了一种生成文本摘要的装置,包括:文本处理模块,被配置为对初始文本进行分块处理,获取处理后的文本数据,其中,所述文本数据包括至少两个文本数据块,每个文本数据块采用候选语句集合来表征;摘要生成模块,被配置为将所述文本数据输入到目标摘要生成模型,获取目标摘要,其中,所述目标摘要生成模型包括第一目标文本模型和第二目标文本模型,所述第一目标文本模型是通过训练第一文本模型得到的,所述第二目标文本模型是通过训练第二文本模型得到的,所述第一目标文本模型用于提取所述文本数据包括的目标信息,所述第二目标文本模型用于根据所述目标信息生成所述目标摘要。
第三方面,本申请实施例提供了一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,当所述指令由所述一个或多个计算机执行时,使得所述一个或多个计算机执行第一方面中的任意实施例的相应方法的操作。
第四方面,本申请实施例提供了一种存储指令的一个或多个计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机执行第一方面中的任意实施例的相应方法的操作。
附图说明
为了更清楚地说明本申请一些实施例的技术方案,下面将对本申请一些实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一些实施例提供的一种生成文本摘要的系统示意图;
图2为本申请一些实施例提供的训练摘要生成模型的方法流程图;
图3为本申请一些实施例提供的一种生成文本摘要的方法流程图;
图4为本申请一些实施例提供的生成文本摘要的装置的组成框图之一;
图5为本申请一些实施例提供的一种生成文本摘要的装置组成框图之二。
具体实施方式
下面将结合本申请一些实施例中的附图,对本申请一些实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
相关技术中,预训练语言模型在自然语言处理任务上逐渐被广泛应用,该模型是利用大规模的语料库训练一个通用的语言模型得到的。一方面,直接采用预训练语言模型获取与文本对应的文本摘要时,虽然方便易行,但是容易包含冗余内容,文本摘要不简洁,流畅度及用户体验较差。另一方面由于预训练语言模型对文本长度的限制,使得在利用通用的预训练语言模型进行文本信息提取时,需要对原始文本进行截取,因此容易造成文本重要信息的丢失,影响相关业务处理进程。例如,在文本处理领域,工作人员需要处理大量的文本信息,由于文本信息的文本较长,如果采用直接截取文本的方式,很容易造成文本内容的缺失,影响工作效率。而且由于相关对象文化水平不同,文本内容过于冗长(通常在1500字以上),采用现有技术的预训练语言模型不易提取关键内容信息。
由上述相关技术可知,现有的生成文本摘要的方法含有冗余内容,而且准确度低、流畅性较差,进而影响工作效率。鉴于此,本申请一些实施例是将初始文本进行分块处理后的文本数据输入到目标摘要生成模型,其中,目标摘要生成模型包括第一目标文本模型和第二目标文本模型,第一目标文本模型用于提取文本数据包括的目标信息,第二目标文本模型用于根据目标信息生成所述目标摘要。因此,采用本申请一些实施例提供的模型可以得到简洁流畅且准确度较高的与初始文本对应的目标摘要,进而提升了用户阅读体验和工作效率。
如图1所示,本申请的一些实施例提供了一种生成文本摘要的系统示意图,该图包括终端设备100和摘要生成服务器200,其中,终端设备100 可以用于存储文本信息,并将文本信息发送至摘要生成服务器200得到与文本信息对应的目标摘要。
另外,需要说明的是在本申请另一些实施例,终端设备100具有存储数据和生成摘要得到目标摘要的功能,此时可以不设置摘要生成服务器200,而仅有终端设备100来执行本申请实施例提供的生成文本摘要的方法。其中,终端设备100可以是PC终端或者移动终端。
图1的摘要生成服务器200上部署了训练后得到的目标摘要生成模型,正是通过这个模型使得摘要生成服务器200可以获得与文本信息对应的目标摘要。
下面首先示例性介绍对第一文本模型和第二文本模型进行训练,得到具有摘要生成功能的目标摘要生成模型的过程。
请参见附图2,图2为本申请一些实施例提供的训练摘要生成模型的方法流程图,下面示例性阐述该训练方法的具体实现过程。
S210,对获取的样本数据进行数据处理,得到处理后的样本数据集合。
在本申请一些实施例中,以文本处理领域为例,首先获取文本数据集 (也就是样本数据),其中,文本数据集中包含多个文本。然后,对文本的内容中的标点符号错误、格式错误以及噪声信息(例如手机号信息或者地址信息等)进行调整或删除。
S220,根据所述样本数据集合以及获取的与所述样本数据集合对应的参考摘要集合,构建训练数据集和验证数据集,其中,一条样本数据与一个参考摘要对应,其中,一条样本数据为需要提取摘要的一段文本。
例如,在本申请一些实施例中,训练数据集和验证数据集中包含多组数据,其中,每组数据包括一个文本(作为样本数据的一个具体示例)和与该文本对应的参考摘要,该参考摘要作为被训练模型的理想输出结果。
例如,在本申请一些实施例中,参考摘要集合中的参考摘要可以是人工对样本数据集合中各样本数据进行分析得到的,也可以是基于相关摘要算法(例如,最大边界相关算法)对各样本数据进行分析得到的。
S230,利用所述训练数据集对所述第一文本模型进行训练得到待测试第一目标文本模型,并利用所述训练数据集对所述第二文本模型进行训练得到待测试第二目标文本模型。
例如,在本申请一些实施例中,将训练数据集中的文本作为第一文本模型的输入,与文本对应的参考摘要作为第一文本模型(例如,BERT模型) 的理想输出,以此训练得到待测试第一目标文本模型。同理,将训练数据集中的文本作为第二文本模型(例如,RoBERTa模型)是输入,与文本对应的参考摘要作为第二文本模型的输出,以此训练得到待测试第二目标文本模型。
需要说明的是,为了便于对目标摘要生成模型后续的维护和升级,本申请一些实施例中采用非端到端的方式训练第一文本模型和第二文本模型,最终得到目标摘要生成模型,当其中任一个模型(即第一目标文本模型和第二目标文本模型)出现问题时,可以对其进行替换、维护或者升级处理,采用该方式提升了模型修复效率并降低成本。
S240,至少根据所述验证数据集,确认所述待测试第一目标文本模型和所述待测试第二目标文本模型通过验证,得到所述目标摘要生成模型。
在本申请一些实施例中,为了获取准确度较高的目标摘要生成模型,需要利用验证数据集,联合验证待测试第一目标文本模型和待测试第二目标文本模型,即:将验证集中的文本输入至待测试第一目标文本模型,获取待测试第一目标文本模型输出的参考语句数据,将参考语句数据输入至待测试第二目标文本模型,获取待测试第二目标文本模型输出的与文本对应的摘要数据。之后,基于摘要数据和验证数据集中的参考摘要数据,优化第一目标文本模型和第二目标文本模型的参数,直至确认第一目标文本模型和第二目标文本模型通过验证,得到目标摘要生成模型。
在本申请一些实施例中,S240具体可以包括:根据所述验证数据集和损失函数,获取调整参数后的待测试第一目标文本模型和调整参数后的待测试第二目标文本模型;获取所述调整参数后的待测试第一目标文本模型和所述调整参数后的待测试第二目标文本模型的分值,并根据所述分值,获取所述目标摘要生成模型。
在本申请一些实施例中,S240还可以包括:循环执行以下过程:利用损失函数对待测试第一目标文本模型和待测试第二目标文本模型进行至少两次的参数调整,并对每次调整参数后的待测试第一目标文本模型和待测试第二目标文本模型进行打分,获取每次调整参数后的待测试第一目标文本模型和调整参数后的待测试第二目标文本模型的综合分值(也就是分值),将至少两次的参数调整后,综合分值最高的调整参数后的待测试第一目标文本模型和调整参数后的待测试第二目标文本模型,作为第一目标文本模型和第二目标文本模型,并将第一目标文本模型和第二目标文本模型作为目标摘要生成模型。
例如,作为本申请的一个具体示例,待测试第一目标文本模型的损失函数是通过如下公式获取的:
Figure RE-RE-GDA0003664719300000091
其中,L1为待测试第一目标文本模型的损失函数,ys为第s个句子的标签,X为文本的原文,p为分布概率,|N|为待测试第一目标文本模型生成参考语句数据的长度。
待测试第二目标文本模型的损失函数是通过如下公式获取的:
Figure RE-RE-GDA0003664719300000101
其中,L2为待测试第二目标文本模型的损失函数,yt为文本中的第t个字符,y1:t-1为句子的前t-1个字符,Y表示待测试第二目标文本模型生成的摘要数据,|Y|表示待测试第二目标文本模型生成摘要数据的长度。
另外,本申请一些实施例的第一文本模型可以为抽取式摘要模型,且第二文本模型可以为生成式摘要模型,例如,抽取式摘要模型和生成式模型均可以为BERT模型或者BERT衍生类模型。在实际应用场景中,可以根据实际情况选择合适的模型进行训练,本申请在此不作具体限定。
下面结合训练得到的目标摘要生成模型示例性阐述本申请的一些实施例提供的由摘要生成服务器200或由终端设备100执行的生成文本摘要的方法的具体过程。可以理解的是,为了使得摘要生成服务器200或有终端设备100具备本申请实施例提供的摘要生成功能,需要将通过上述方式训练得到的目标摘要生成模型部署在这些设备上。具体请参见附图3,图3为本申请的一些实施例提供的一种生成文本摘要的方法,该方法包括:
S310,对初始文本进行分块处理,获取处理后的文本数据,其中,所述文本数据包括至少两个文本数据块,每个文本数据块采用候选语句集合来表征。
在本申请一些实施例中,由于初始文本的长度较长,例如,超过目标摘要生成模型限制的512个词则为长文本,为了避免初始文本信息丢失的问题,首先需要对初始文本进行分块处理。即,将初始文本分为多个文本数据块,其中,每个文本数据块中包含多个候选语句。
在本申请一些实施例中,在S310之前(图中未示出),生成文本摘要的方法可以包括:对原始文本中的至少部分语句进行数据清洗处理,获取所述初始文本,其中,所述数据清洗处理包括:调整语句符号格式和去除所述部分语句中的噪声信息中的至少一种。
例如,作为本申请的一个具体示例,以文本处理领域为例,一个文本 (作为原始文本的一个具体示例)中会包括相关对象的基本信息(作为噪声信息的一个具体示例),例如,姓名、身份证号、手机号和地址信息,并且由于相关对象或者工作人员的原因,文本中还会存在标点错误、格式错误以及无意义的语句(作为噪声信息的一个具体示例),例如:“具体内容见原文和[图片]”等无意义的文字。因此,为了提升生成摘要的准确度和简洁流畅度,在将文本输入到目标摘要生成模型之前,需要对文本进行数据清洗处理。数据清洗处理包括:将文本中的标点错误进行修改,并将标点符号的半角字符统一为全角字符;利用正则表达式匹配上相关对象的姓名、身份证号、手机号和地址信息等基本信息后,并进行删除,以及删除文本内容中的无意义的语句。
S320,将所述文本数据输入到目标摘要生成模型,获取目标摘要,其中,所述目标摘要生成模型包括第一目标文本模型和第二目标文本模型,所述第一目标文本模型是通过训练第一文本模型得到的,所述第二目标文本模型是通过训练第二文本模型得到的,所述第一目标文本模型用于提取所述文本数据包括的目标信息,所述第二目标文本模型用于根据所述目标信息生成所述目标摘要。
在本申请一些实施例中,S320具体可以包括:将所述文本数据输入到所述第一目标文本模型,通过所述第一目标文本模型获取所述目标信息,其中,所述目标信息是从所述文本数据中筛选出的多个目标语句;将所述目标信息输入到所述第二目标文本模型,得到所述目标摘要。
例如,在本申请一些实施例中,将S310中的文本数据中的多个文本数据块输入到第一目标文本模型,第一目标文本模型会从每个文本数据块中筛选出预设数量的目标语句,例如,每个文本数据块筛选出2个目标语句,或者,也可以每个文本数据块中筛选的目标语句的数量不一致,例如,第一个文本数据块筛选出2个目标语句,第二个文本数据块筛选出4个目标语句,第三个文本数据块筛选出3个目标语句等等。之后将所有文本数据块中筛选的目标语句组成目标信息输入到第二目标文本模型,得到目标摘要。
在本申请一些实施例中,所述通过所述第一目标文本模型获取所述目标信息,包括:对所述文本数据中的第j文本数据块包括的各语句进行打分排序,得到一个队列;从所述队列中选取出预设数量的语句,作为第j目标语句集合,其中,所述第j文本数据块为所述至少两个文本数据块中的任一个;重复上述过程获取与各文本数据块对应的目标语句集合,得到所述多个目标语句。
例如,作为本申请的一个具体示例,将一个文本分为了5个文本数据块,每个文本数据块均包含5个语句。第一目标文本模型对每个文本数据块中的5个语句进行打分排序。例如,根据第一个文本数据块中的各语句分数由大到小的顺序组成一个队列,从该队列中选取队列前两个句子,得到第一个目标语句集合;根据第二个文本数据块中的各语句分数由大到小的顺序组成一个队列,从该队列中选取队列前两个句子,得到第二个目标语句集合,以此类推,直至获取第五个目标语句集合。最后将第一目标语句集合、第二个目标语句集合、第三个目标语句集合、第四个目标语句集合和第五个目标语句集合中的语句进行拼接,得到目标语句集合。
在本申请另一些实施例中,将一个文本分为了5个文本数据块,每个文本数据块包含的语句数量可以不相同,具体可以根据实际情况而设定。另外,在对每个文本数据块中的语句进行打分排序时,可以根据各语句分数从大到小排序,也可以从小到大排序,还可以直接筛选分值高于设定分值的语句作为目标语句。具体地可以根据实际的应用场景进行设定,本申请在此不作具体限定。
为了确保得到的目标摘要中不存在数字字符串错误的问题,在本申请一些实施例中,在S320之后,生成文本摘要的方法可以包括:S330(图中未示出),分别提取所述目标摘要和所述初始文本中的数字字符串;基于所述初始文本中的数字字符串,对所述目标摘要中的数字字符串进行检验,获取出错字符;根据初始文本中的数字字符串,替换所述出错字符,得到替换后的目标摘要。
例如,作为本申请的一个具体示例,在得到与文本对应的目标摘要后,可以利用检测算法(例如,莱文斯坦编辑距离算法)对目标摘要中的数字字符串进行检测纠错。首先利用正则表达式对初始文本和目标摘要中的数字字符串进行提取,然后利用莱文斯坦编辑距离算法计算目标摘要与初始文本中的各数字字符串的莱文斯坦编辑距离,最后将初始文本中莱文斯坦编辑距离最短的数字字符串替换目标摘要中的数字字符串。另外,在实际应用中,由于较短的数字不容易出错,所以目标摘要中数字位数小于3的数字不参与此过程。对于含有小数点的数字,为了排除小数点对编辑距离的干扰,剔除小数点后再进行计算替换。
例如,作为本申请的一个具体示例,通过对文本原文和与文本原文生成的目标摘要对比得出:目标摘要中的“209年12月”应为“2009年12 月”,此处存在错误。经过莱文斯坦编辑距离算法对错误的数字字符串进行替换,得到替换后的目标摘要。
为了得到格式规范,且不存在冗余信息的目标摘要,提升目标摘要的可读性,在本申请一些实施例中,在S330之后,生成文本摘要的方法可以包括:S340(图中未示出):对所述替换后的目标摘要进行数据清洗处理,得到处理后的目标摘要,其中,所述数据清洗处理包括:调整所述替换后的目标摘要中的语句符号格式和去除所述替换后的目标摘要中的噪声信息中的至少一种。
例如,作为本申请的一个具体示例,生成的目标摘要中包括姓名、手机号、标点符号使用不规范以及“注:模板办理,详情见原文”等冗余信息,为了得到简洁完整的目标摘要,需要对目标摘要进行数据清洗处理,获取最终的处理后的目标摘要。
下面结合附图4具体阐述图1中的摘要生成服务器200在生成摘要时,所执行的生成文本摘要的方法的实现过程。
下面以提取文本的摘要信息为例并结合图4示例性阐述本申请一些实施例提供的生成文本摘要的方法。
请参见附图4,图4为本申请一些实施例提供的生成文本摘要的装置的组成框图。需要说明的是,终端设备100已将该文本发送至摘要生成服务器200,生成服务器200设置的目标摘要生成模型是由目标抽取式摘要模型 (作为第一目标文本模型的一个具体示例)和目标生成式摘要模型(作为第二目标文本模型的一个具体示例)组成的。
下面示例性阐述上述过程。
第一,对原始文本中的至少部分语句进行数据清洗处理,获取初始文本。
作为本申请的一个具体示例,图4中的数据前处理模块410,至少被配置为对文本的原始文本进行数据清洗处理,得到文本的初始文本。例如,调整文本中的标点格式问题、删除无意义的冗余内容以及删除控告人信息等。
第二,对初始文本进行分块处理,获取处理后的文本数据。
作为本申请的一个具体示例,由于文本的原始文本较长,经过数据前处理模块处理得到的初始文本也较长,因此为了保证文本的完整性,需要利用分块模块420对文本的初始文本进行分块处理,得到分块处理后的文本文本数据(也就是文本数据)。例如,分块处理后的文本文本数据可以包括n个文本数据块,其中,n为大于1的整数。
第三,将文本数据输入到第一目标文本模型,获取目标信息。
作为本申请的一个具体示例,将上述文本文本数据输入至目标抽取式摘要模型430,得到目标抽取式摘要模型430输出的文本压缩信息(也就是目标信息)。
应理解,目标抽取式摘要模型430是通过训练数据集对待训练抽取式摘要模型进行训练得到的。
第四,将目标信息输入至第二目标文本模型,获取目标摘要。
作为本申请的一个具体示例,将文本压缩信息输入至目标生成式摘要模型440,得到目标生成式摘要模型440输出的文本初始摘要(也就是目标摘要)。应理解,目标生成式摘要模型440是通过训练数据集对待训练生成式摘要模型进行训练得到的。
第五,对目标摘要进行数据清洗处理和数字字符串检测处理,得到处理后的目标摘要。
作为本申请的一个具体示例,将文本初始摘要输入至数据后处理模块 450,数据后处理模块450至少被配置为修正文本初始摘要的标点符号格式问题、剔除文本初始摘要中的冗余内容以及检测并修正数字字符串问题,得到文本摘要。
另外,为了证明本申请一些实施例提供的目标摘要生成模型比基于预训练语言模型得到的语言模型的准确度和应用效果较好,本申请一些实施例将某个文本的原始文本数据分别输入到语言模型以及本申请的目标摘要生成模型,得到目标摘要。经过对比分析,可以得到如表1所示的分析结果,从表1可以看出,在三个评价指标(即Rouge-1、Rouge-2和Rouge-L) 下,本申请一些实施例提供的目标摘要生成模型的分数要高于语言模型(也就是表1中的BertSumm模型),显然,本申请一些实施例提供的目标摘要生成模型的准确度和应用效果较好。
表1
Rouge-1 Rouge-2 Rouge-3
BertSumm模型 59.21 28.49 58.22
目标摘要生成模型 64.35 29.46 63.11
请参考图5,图5示出了本申请一些实施例提供的一种生成文本摘要的装置的组成框图。应理解,该生成文本摘要的装置与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该生成文本摘要的装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
图5的生成文本摘要的装置包括至少一个能以软件或固件的形式存储于存储器中或固化在生成文本摘要的装置中的软件功能模块,该生成文本摘要的装置包括:文本处理模块510,至少被配置为对初始文本进行分块处理,获取处理后的文本数据,其中,所述文本数据包括至少两个文本数据块,每个文本数据块采用候选语句集合来表征。摘要生成模块520,至少被配置为将所述文本数据输入到目标摘要生成模型,获取目标摘要,其中,所述目标摘要生成模型包括第一目标文本模型和第二目标文本模型,所述第一目标文本模型是通过训练第一文本模型得到的,所述第二目标文本模型是通过训练第二文本模型得到的,所述第一目标文本模型用于提取所述文本数据包括的目标信息,所述第二目标文本模型用于根据所述目标信息生成所述目标摘要。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本申请的一些实施例还提供一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,当所述指令由所述一个或多个计算机执行时,使得所述一个或多个计算机执行上述任意实施例的方法的操作。
本申请的一些实施例还提供一种存储指令的一个或多个计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机执行上述任意实施例的方法的操作。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (11)

1.一种生成文本摘要的方法,其特征在于,包括:
对初始文本进行分块处理,获取处理后的文本数据,其中,所述文本数据包括至少两个文本数据块,每个文本数据块采用候选语句集合来表征;
将所述文本数据输入到目标摘要生成模型,获取目标摘要,其中,所述目标摘要生成模型包括第一目标文本模型和第二目标文本模型,所述第一目标文本模型是通过训练第一文本模型得到的,所述第二目标文本模型是通过训练第二文本模型得到的,所述第一目标文本模型用于提取所述文本数据包括的目标信息,所述第二目标文本模型用于根据所述目标信息生成所述目标摘要。
2.如权利要求1所述的方法,其特征在于,在所述对初始文本进行分块处理,获取处理后的文本数据之前,所述方法还包括:
对原始文本中的至少部分语句进行数据清洗处理,获取所述初始文本,其中,所述数据清洗处理包括:调整语句符号格式和去除所述部分语句中的噪声信息中的至少一种。
3.如权利要求2所述的方法,其特征在于,在所述将所述文本数据输入到目标摘要生成模型,获取目标摘要之前,所述方法还包括:
对获取的样本数据进行数据处理,得到处理后的样本数据集合;
根据所述样本数据集合以及获取的与所述样本数据集合对应的参考摘要集合,构建训练数据集和验证数据集,其中,一条样本数据与一个参考摘要对应;
利用所述训练数据集对所述第一文本模型进行训练得到待测试第一目标文本模型,并利用所述训练数据集对所述第二文本模型进行训练得到待测试第二目标文本模型;
至少根据所述验证数据集,确认所述待测试第一目标文本模型和所述待测试第二目标文本模型通过验证,得到所述目标摘要生成模型。
4.如权利要求3所述的方法,其特征在于,所述至少根据所述验证数据集,确认所述待测试第一目标文本模型和所述待测试第二目标文本模型通过验证,得到所述目标摘要生成模型,包括:
根据所述验证数据集和损失函数,获取调整参数后的待测试第一目标文本模型和调整参数后的待测试第二目标文本模型;
获取所述调整参数后的待测试第一目标文本模型和所述调整参数后的待测试第二目标文本模型的分值,并根据所述分值,获取所述目标摘要生成模型。
5.如权利要求2所述的方法,其特征在于,所述将所述文本数据输入到目标摘要生成模型,获取目标摘要,包括:
将所述文本数据输入到所述第一目标文本模型,通过所述第一目标文本模型获取所述目标信息,其中,所述目标信息是从所述文本数据中筛选出的多个目标语句;
将所述目标信息输入到所述第二目标文本模型,得到所述目标摘要。
6.如权利要求5所述的方法,其特征在于,所述通过所述第一目标文本模型获取所述目标信息,包括:
对所述文本数据中的第j文本数据块包括的各语句进行打分排序,得到一个队列;
从所述队列中选取出预设数量的语句,作为第j目标语句集合,其中,所述第j文本数据块为所述至少两个文本数据块中的任一个;
重复上述过程获取与各文本数据块对应的目标语句集合,得到所述多个目标语句。
7.如权利要求6所述的方法,其特征在于,在所述将所述文本数据输入到目标摘要生成模型,获取目标摘要之后,所述方法还包括:
分别提取所述目标摘要和所述初始文本中的数字字符串;
基于所述初始文本中的数字字符串,对所述目标摘要中的数字字符串进行检验,获取出错字符;
根据初始文本中的数字字符串,替换所述出错字符,得到替换后的目标摘要。
8.如权利要求7所述的方法,其特征在于,在所述根据初始文本中的数字字符串,替换所述出错字符,得到替换后的目标摘要之后,所述方法还包括:
对所述替换后的目标摘要进行数据清洗处理,得到处理后的目标摘要,其中,所述数据清洗处理包括:调整所述替换后的目标摘要中的语句符号格式和去除所述替换后的目标摘要中的噪声信息中的至少一种。
9.如权利要求1-8任一项所述的方法,其特征在于,所述第一文本模型为抽取式摘要模型,且所述第二文本模型为生成式摘要模型。
10.一种生成文本摘要的装置,其特征在于,包括:
文本处理模块,被配置为对初始文本进行分块处理,获取处理后的文本数据,其中,所述文本数据包括至少两个文本数据块,每个文本数据块采用候选语句集合来表征;
摘要生成模块,被配置为将所述文本数据输入到目标摘要生成模型,获取目标摘要,其中,所述目标摘要生成模型包括第一目标文本模型和第二目标文本模型,所述第一目标文本模型是通过训练第一文本模型得到的,所述第二目标文本模型是通过训练第二文本模型得到的,所述第一目标文本模型用于提取所述文本数据包括的目标信息,所述第二目标文本模型用于根据所述目标信息生成所述目标摘要。
11.一种存储指令的一个或多个计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机执行权利要求1-9中任一项所述方法的操作。
CN202210424334.6A 2022-04-22 2022-04-22 一种生成文本摘要的方法、装置及存储介质 Pending CN114860873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210424334.6A CN114860873A (zh) 2022-04-22 2022-04-22 一种生成文本摘要的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210424334.6A CN114860873A (zh) 2022-04-22 2022-04-22 一种生成文本摘要的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114860873A true CN114860873A (zh) 2022-08-05

Family

ID=82632348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210424334.6A Pending CN114860873A (zh) 2022-04-22 2022-04-22 一种生成文本摘要的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114860873A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597049A (zh) * 2023-07-17 2023-08-15 北京奇虎科技有限公司 文本生成方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832292A (zh) * 2020-06-03 2020-10-27 北京百度网讯科技有限公司 文本识别处理方法、装置、电子设备和存储介质
WO2021051871A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 文本抽取方法、装置、设备及存储介质
CN112732899A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN113590810A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 摘要生成模型训练方法、摘要生成方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051871A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 文本抽取方法、装置、设备及存储介质
CN111832292A (zh) * 2020-06-03 2020-10-27 北京百度网讯科技有限公司 文本识别处理方法、装置、电子设备和存储介质
CN112732899A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN113590810A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 摘要生成模型训练方法、摘要生成方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕瑞 等: "TSPT: 基于预训练的三阶段复合式文本摘要模型", 计算机应用研究, vol. 37, no. 10, 31 October 2020 (2020-10-31), pages 2917 - 2921 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597049A (zh) * 2023-07-17 2023-08-15 北京奇虎科技有限公司 文本生成方法、装置、设备及存储介质
CN116597049B (zh) * 2023-07-17 2023-10-31 北京奇虎科技有限公司 文本生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN102662930B (zh) 一种语料标注方法及装置
KR101813683B1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
US11055327B2 (en) Unstructured data parsing for structured information
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
US9286526B1 (en) Cohort-based learning from user edits
CN111488466B (zh) 中文带标记错误语料生成方法、计算装置和存储介质
CN108959474B (zh) 实体关系提取方法
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
US11663408B1 (en) OCR error correction
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN113779970A (zh) 一种文本纠错方法及其相关设备
CN112016294A (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN110866102A (zh) 检索处理方法
CN111026815A (zh) 基于用户辅助修正下的实体对特定关系抽取方法
CN105243053B (zh) 提取文档关键句的方法及装置
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
CN114860873A (zh) 一种生成文本摘要的方法、装置及存储介质
CN110941703A (zh) 一种基于机器学习和模糊规则的集成简历信息抽取方法
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN110717029A (zh) 一种信息处理方法和系统
CN114677689B (zh) 一种文字图像识别纠错方法和电子设备
CN113792545B (zh) 一种基于深度学习的新闻事件活动名称抽取方法
CN114154480A (zh) 信息提取方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination