生成文本摘要的方法及装置
技术领域
本申请涉及文本处理、自然语言处理领域,具体而言,涉及一种生成文本摘要的方法及装置。
背景技术
文本摘要,是指对包含较多内容的目标文本数据进行压缩处理,得到用户关注或感兴趣的文字内容的过程。
发明人发现,现有的文本摘要方法有的摘要内容过于机械,有的摘要内容可读性不强。进一步,不适合直接用于机器写作或对于关注的热点话题进行有效地文本压缩。
针对相关技术中生成文本摘要时内容过于机械单一且可读性不强的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种生成文本摘要的方法及装置,以解决生成文本摘要时内容过于机械单一且可读性不强的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种生成文本摘要的方法。
根据本申请的生成文本摘要的方法,包括:将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要;以及将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果。
进一步地,所述预设局部特征提取网络包括如下建立步骤:将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
进一步地,所述特定数据集的获取方法包括如下步骤:选取预设领域中的文本数据作为原始文本;接收经过转写处理后的所述文本数据作为转写文本;将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
进一步地,所述全局特征提取网络包括如下建立步骤:使用文本数据中的全文内容和文本标题作为训练数据集;使用文本专业词汇作为辅助训练集;根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络。
进一步地,抽取出所述待处理文本数据的第一文本摘要包括:在所述全局特征提取网络提取全局特征并作为关键词;结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
为了实现上述目的,根据本申请的另一方面,提供了一种生成文本摘要的装置。
根据本申请的生成文本摘要的装置包括:抽取模块,用于将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;生成模块,用于将所述第一文本摘要作为预设局部特征提取网络的输入,通过所述预设局部特征提取网络生成第二文本摘要;以及结果模块,用于输出所述待处理文本数据的文本摘要生成结果。
进一步地,所述生成模块包括:预设局部特征提取网络建立模块,所述预设局部特征提取网络建立模块包括:搭建单元,用于将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;第一训练单元,用于在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
进一步地,所述生成模块包括:特定数据集的获取模块,所述特定数据集的获取模块包括:第一文本处理单元,用于选取预设领域中的文本数据作为原始文本;第二文本处理单元,用于接收经过转写处理后的所述文本数据作为转写文本;特征提取单元,用于将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
进一步地,所述抽取模块包括:全局特征提取网络建立模块、第一文本摘要抽取模块,所述全局特征提取网络建立模块包括:训练集单元,用于使用文本数据中的全文内容和文本标题作为训练数据集;辅助单元,用于使用文本专业词汇作为辅助训练集;第二训练单元,用于根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络;第一文本摘要抽取模块包括:提取单元和抽取单元,所述提取单元,用于在所述全局特征提取网络提取全局特征并作为关键词,所述抽取单元,用于结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
在本申请实施例中生成文本摘要的方法及装置,采用将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要的方式,通过将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要,达到了将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果的目的,从而实现了通过抽取式方法缩短文本长度和通过对抽取方式获取的文本进行转写,获得具有可读性非机械性的文本摘要的技术效果,进而解决了生成文本摘要时内容过于机械单一且可读性不强的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的生成文本摘要的方法流程示意图;
图2是根据本申请第二实施例的生成文本摘要的方法流程示意图;
图3是根据本申请第三实施例的生成文本摘要的方法流程示意图;
图4是根据本申请第四实施例的生成文本摘要的方法流程示意图;
图5是根据本申请第五实施例的生成文本摘要的方法流程示意图;
图6是根据本申请第一实施例的生成文本摘要的装置结构示意图;
图7是根据本申请第二实施例的生成文本摘要的装置结构示意图;
图8是根据本申请第三实施例的生成文本摘要的装置结构示意图;
图9是根据本申请第四实施例的生成文本摘要的装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便描述这里的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S106:
步骤S102,将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;
所述待处理文本数据是指用户输入或者在根据需求在全网范围内获取的文本数据。
所述预设全局特征提取网络,采用基于机器学习和深度学习的方式训练得到,并且在训练过程中加入了对于特定领域的知识。通过所述预设全局特征提取网络可以对所述待处理文本数据进行抽取式预处理,得到的结果作为下一网络的输入或作为预训练网络模型。
需要注意的是,在本申请的实施例中并不对所述预设全局特征提取网络的具体网络结构、参数配置进行限定,本领域技术人员可以根据实际使用情况,对所述预设全局特征提取网络进行训练、参数配置。
通过所述预设全局特征提取网络,首先对原始文本进行特征提取,得到的特征提取结果作为所述原始文本中的关键词。所述关键词仅仅是单独词语的罗列不具有可读性。然后,通过结合已知的抽取式自动文摘方法对原始文本进行句子抽取。最后,通过所述关键词和句子抽取结果形成所述第一文本摘要。
进一步,结合提取出的所述关键词以及比如TextRank等传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
通过关键词特征提取和句子抽取得到的所述待处理文本数据的第一文本摘要,可以使得所述待处理文本数据的长度缩短,但是由于机械抽取的可读性较差,所以还需要进行继续处理。
步骤S104,将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要;
对抽取得到的所述第一文本摘要继续进行处理,可将所述第一文本摘要作为预训练结果,在下一个网络模型中直接进行使用。
所述预设局部特征提取网络,采用基于机器学习和深度学习的方式训练得到,并且可以使用支持向量机进行参数预置。通过所述预设局部特征提取网络提取的局部特征用于对所述第一文本摘要进行改写,使得语义符合表达,且具有可读性。
优选地,在训练所述预设局部特征提取网络时需要采用特定数据集作为训练集进行训练,所述特定数据集可以是对于特定领域中的文本数据经过转写预处理后得到的,并且所述特定数据集具有特定的使用权限。比如,仅用于企业内部。
需要注意的是,为了提高转写的处理效果,在本申请的实施例中可以获取相关文本语言专家或技术人员经过转写后的转写文本数据。
步骤S106,将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果。
通过上述步骤获取得到的所述第二文本摘要是经过所述预设局部特征提取网络生成的即可以反映待处理文本数据原本内容,又并非机械性的复制,同时有较好可读性的文本摘要。即可将该文本摘要作为生成所述待处理文本数据的文本摘要结果进行输出。
需要注意的是,上述生成文本摘要的方法通常在服务器端执行,并且可以向客户端返回对于所述文本摘要处理请求的处理结果。或者,上述生成文本摘要的方法也可以配置在客户端,根据用户具体需求进行配置。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要的方式,通过将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要,达到了将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果的目的,从而实现了通过抽取式方法缩短文本长度和通过对抽取方式获取的文本进行转写,获得具有可读性非机械性的文本摘要的技术效果,进而解决了生成文本摘要时内容过于机械单一且可读性不强的技术问题。
根据本申请实施例,作为本实施例中的优选,如图2所示,所述预设局部特征提取网络包括如下建立步骤:
步骤S202,将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;
所述循环神经网络RNN,是以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。
所述自注意力机制,可以在自然语言处理中配合循环神经网络RNN,进行自然语言理解的任务执行。
具体地,可以使用所述循环神经网络和所述自注意力机制,搭建出多重注意力网络。
步骤S204,在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
由于所述循环神经网络通过使用带有自反馈的神经元,让整个网络具有短时记忆能力,从而能够处理任意长度的时序数据。而所述自注意力机制,无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,实现可以进行并行计算。所以将所述循环神经网络和所述自注意力机制结合,得到的所述多重注意力网络,可以生成具有可读性的文本数据。
具体地,在所述多重注意力网络中,通过相关数据集作为文本数据训练集,训练所述局部特征提取网络。
优选地,在所述局部特征提取网络中,可以利用支持向量机(SVM)进行参数预置。
根据本申请实施例,作为本实施例中的优选,如图3所示,所述特定数据集的获取方法包括如下步骤:
步骤S302,选取预设领域中的文本数据作为原始文本;
所述选取预设领域是指在一些特定或专业领域,需要相关专业领域的知识才能够准确理解文本内容。
通过所述选取预设领域中的文本数据,将所述预设领域中的文本数据作为原始文本,建立训练集的样本。
步骤S304,接收经过转写处理后的所述文本数据作为转写文本;
通过接收所述经过转写处理后的所述文本数据,可以获取经过人工或机器改写或转写后的所述文本数据。可以理解,所述经过人工或机器改写或转写后的所述文本数据,是对于非特定领域的人员也能够明白其文本含义的。
通过获取所述经过转写处理后的所述文本数据,将所述经过转写处理后的所述文本数据作为转写文本,建立训练集的样本。
步骤S306,将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
通过上述步骤中获得的所述原始文本和所述转写文本可以建立训练集的正负样本,用于作为所述局部特征提取网络的训练数据集。
比如,选取特定领域的文本数据进行人工转写,经过转写的文本与原文含义相同,字数相近或者有浮动。原始文本与转写文本作为局部特征提取网络的训练数据。
根据本申请实施例,作为本实施例中的优选,如图4所示,所述全局特征提取网络包括如下建立步骤:
步骤S402,使用文本数据中的全文内容和文本标题作为训练数据集;
在所述全局特征提取网络的训练阶段,需要根据用于模型预训练的文本数据中的全文内容和所述文本标题作为预训练模型的训练数据集。其中,所述全文内容是指未经过处理的文本数据中的全文内容,比如,对于同一个热点话题的50篇关于最新航天动态的文章。其中,所述文本标题是指对于所述最新航天动态的文章的标题。
可以理解,上述的全文内容和文本标题作为训练数据集仅作为本申请实施例中的一种优选的实施方式,并不是对于本申请的实施方式的具体限定。
步骤S404,使用文本专业词汇作为辅助训练集;
在预训练模型的训练过程中,可以使用专业文本库辅助生成专业词汇,并将该专业词汇作为辅助的训练手段,可以加强特定领域的全局特征的提取能力。
步骤S406,根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络。
根据所述训练数据集和辅助训练集,并且使用所述递归神经网络训练得到全局特征提取网络。
所述递归神经网络,是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络。
根据本申请实施例,作为本实施例中的优选,如图5所示,抽取出所述待处理文本数据的第一文本摘要包括:
步骤S502,在所述全局特征提取网络提取全局特征并作为关键词;
通过上述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。但是所述提取结果,可以被作为所述原始文本中的关键词。
步骤S504,结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
结合提取出的所述关键词以及传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
具体地,建立所述预设全局特征提取网络之后,通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。但是所述提取结果,可以被作为所述原始文本中的关键词。通过上述全局特征提取网络并进行文本摘要生成的方法,属于采用深度神经网络对传统的抽取式自动文摘算法的改进,通过特征提取和句子抽取。比如,根据提取出的关键词并结合采用抽取式自动文摘方法,抽取文本中已存在的句子形成摘要。
优选地,所述预设全局特征提取网络的提取结果可以作为原始文本的关键词,并具体结合抽取式自动文摘算法Textrank对原文句子进行抽取。具体地,将所述待处理文本数据输入预设全局特征提取网络进行摘要抽取。使用所述全局特征提取网络生成文本摘要。通过上述步骤获得的文本摘要生成结果不具有可读性,但包含了文本重要的关键词。通过所述预设全局特征提取网络,可以首先对原始文本进行特征提取,将所述特征提取的结果作为所述原始文本中的关键词,然后结合已知的抽取式自动文摘算法,提取出句子,得到摘要。
优选地,所述预设全局特征提取网络的提取结果可以作为原始文本的关键词,并具体结合抽取式自动文摘算法Textrank对原文句子进行抽取。具体地,通过使用预设全局特征提取网络,需要从待处理文本数据(即原始文本)中提取特征。通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。比如,从关于航天动态的文章中提取出的可能是,“飞船、“SpaceX”、“成功”、“龙”、“第一次”、“昨晚”等关键词的罗列。所述提取结果,被作为所述原始文本中的关键词。进一步,结合提取出的所述关键词以及比如TextRank等传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的生成文本摘要的装置,如图6所示,该装置包括:抽取模块10,用于将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;生成模块20,用于将所述第一文本摘要作为预设局部特征提取网络的输入,通过所述预设局部特征提取网络生成第二文本摘要;以及结果模块30,用于输出所述待处理文本数据的文本摘要生成结果。
本申请实施例的抽取模块10中所述待处理文本数据是指用户输入或者根据需求在全网范围内获取的文本数据。
所述预设全局特征提取网络,采用基于机器学习和深度学习的方式训练得到,并且在训练过程中加入了对于特定领域的知识。通过所述预设全局特征提取网络可以对所述待处理文本数据进行抽取式预处理,得到的结果作为下一网络的输入或作为预训练网络模型。
需要注意的是,在本申请的实施例中并不对所述预设全局特征提取网络的具体网络结构、参数配置进行限定,本领域技术人员可以根据实际使用情况,对所述预设全局特征提取网络进行训练、参数配置。
具体地,本申请实施例的抽取模块10中通过使用预设全局特征提取网络,需要从待处理文本数据(即原始文本)中提取特征。通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。比如,从关于航天动态的文章中提取出的可能是,“飞船、“SpaceX”、“成功”、“龙”、“第一次”、“昨晚”等关键词的罗列。所述提取结果,被作为所述原始文本中的关键词。
进一步,本申请实施例的抽取模块10中结合提取出的所述关键词以及比如TextRank等传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
通过关键词特征提取和句子抽取得到的所述待处理文本数据的第一文本摘要,可以使得所述待处理文本数据的长度缩短,但是由于机械抽取的可读性较差,所以还需要进行继续处理。
本申请实施例的生成模块20中对抽取得到的所述第一文本摘要继续进行处理,可将所述第一文本摘要作为预训练结果,在下一个网络模型中直接进行使用。
所述预设局部特征提取网络,采用基于机器学习和深度学习的方式训练得到,并且可以使用支持向量机进行参数预置。通过所述预设局部特征提取网络提取的局部特征用于对所述第一文本摘要进行改写,使得语义符合表达,且具有可读性。
优选地,在训练所述预设局部特征提取网络时需要采用特定数据集作为训练集进行训练,所述特定数据集可以是对于特定领域中的文本数据经过转写预处理后得到的,并且所述特定数据集具有特定的使用权限。比如,仅用于企业内部。
需要注意的是,为了提高转写的处理效果,在本申请的实施例中可以获取相关文本语言专家或技术人员经过转写后的转写文本数据。
本申请实施例的结果模块30中通过上述步骤获取得到的所述第二文本摘要是经过所述预设局部特征提取网络生成的即可以反映待处理文本数据原本内容,又并非机械性的复制,同时有较好可读性的文本摘要。即可将该文本摘要作为生成所述待处理文本数据的文本摘要结果进行输出。
需要注意的是,上述生成文本摘要的方法通常在服务器端执行,并且可以向客户端返回对于所述文本摘要处理请求的处理结果。或者,上述生成文本摘要的方法也可以配置在客户端,根据用户具体需求进行配置。
根据本申请实施例,作为本实施例中的优选,如图7所示,生成模块20包括:预设局部特征提取网络建立模块201,所述预设局部特征提取网络建立模块201包括:搭建单元2010,用于将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;第一训练单元2011,用于在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
本申请实施例的搭建单元2010中所述循环神经网络RNN,是以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。
所述自注意力机制,可以在自然语言处理中配合循环神经网络RNN,进行自然语言理解的任务执行。
具体地,可以使用所述循环神经网络和所述自注意力机制,搭建出多重注意力网络。
本申请实施例的第一训练单元2011中由于所述循环神经网络通过使用带有自反馈的神经元,让整个网络具有短时记忆能力,从而能够处理任意长度的时序数据。而所述自注意力机制,无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,实现可以进行并行计算。所以将所述循环神经网络和所述自注意力机制结合,得到的所述多重注意力网络,可以生成具有可读性的文本数据。
具体地,在所述多重注意力网络中,通过相关数据集作为文本数据训练集,训练所述局部特征提取网络。
优选地,在所述局部特征提取网络中,可以利用支持向量机(SVM)进行参数预置。
根据本申请实施例,作为本实施例中的优选,如图8所示,生成模块20包括:特定数据集的获取模块202,所述特定数据集的获取模块202包括:第一文本处理单元2020,用于选取预设领域中的文本数据作为原始文本;第二文本处理单元2021,用于接收经过转写处理后的所述文本数据作为转写文本;特征提取单元2022,用于将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
本申请实施例的第一文本处理单元2020中所述选取预设领域是指在一些特定或专业领域,需要相关专业领域的知识才能够准确理解文本内容。
通过所述选取预设领域中的文本数据,将所述预设领域中的文本数据作为原始文本,建立训练集的样本。
本申请实施例的第二文本处理单元2021中通过接收所述经过转写处理后的所述文本数据,可以获取经过人工或机器改写或转写后的所述文本数据。可以理解,所述经过人工或机器改写或转写后的所述文本数据,是对于非特定领域的人员也能够明白其文本含义的。
通过获取所述经过转写处理后的所述文本数据,将所述经过转写处理后的所述文本数据作为转写文本,建立训练集的样本。
本申请实施例的特征提取单元2022中通过上述步骤中获得的所述原始文本和所述转写文本可以建立训练集的正负样本,用于作为所述局部特征提取网络的训练数据集。
比如,选取特定领域的文本数据进行人工转写,经过转写的文本与原文含义相同,字数相近或者有浮动。原始文本与转写文本作为局部特征提取网络的训练数据。
根据本申请实施例,作为本实施例中的优选,如图9所示,所述抽取模块10包括:全局特征提取网络建立模块101以及第一文本摘要抽取模块102,其中,所述全局特征提取网络建立模块101包括:训练集单元1010,用于使用文本数据中的全文内容和文本标题作为训练数据集;辅助单元1011,用于使用文本专业词汇作为辅助训练集;第二训练单元1012,用于根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络。
所述第一文本摘要抽取模块102包括:提取单元1020和抽取单元1021,所述提取单元1020用于提取全局特征并作为关键词,所述抽取单元1021用于结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
本申请实施例的训练集单元1010中在所述全局特征提取网络的训练阶段,需要根据用于模型预训练的文本数据中的全文内容和所述文本标题作为预训练模型的训练数据集。其中,所述全文内容是指未经过处理的文本数据中的全文内容,比如,对于同一个热点话题的50篇关于最新航天动态的文章。其中,所述文本标题是指对于所述最新航天动态的文章的标题。
可以理解,上述的全文内容和文本标题作为训练数据集仅作为本申请实施例中的一种优选的实施方式,并不是对于本申请的实施方式的具体限定。
本申请实施例的辅助单元1011中在预训练模型的训练过程中,可以使用专业文本库辅助生成专业词汇,并将该专业词汇作为辅助的训练手段,可以加强特定领域的全局特征的提取能力。
本申请实施例的第二训练单元1012中根据所述训练数据集和辅助训练集,并且使用所述递归神经网络训练得到全局特征提取网络。
所述递归神经网络,是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络。
在所述提取单元1020中通过上述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。但是所述提取结果,可以被作为所述原始文本中的关键词。
在所述所述抽取单元1021中结合提取出的所述关键词以及传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
具体地,建立所述预设全局特征提取网络之后,通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。但是所述提取结果,可以被作为所述原始文本中的关键词。通过上述全局特征提取网络并进行文本摘要生成的方法,属于采用深度神经网络对传统的抽取式自动文摘算法的改进,通过特征提取和句子抽取。比如,根据提取出的关键词并结合采用抽取式自动文摘方法,抽取文本中已存在的句子形成摘要。
优选地,所述预设全局特征提取网络的提取结果可以作为原始文本的关键词,并具体结合抽取式自动文摘算法Textrank对原文句子进行抽取。
优选地,所述预设全局特征提取网络的提取结果可以作为原始文本的关键词,并具体结合抽取式自动文摘算法Textrank对原文句子进行抽取。具体地,通过使用预设全局特征提取网络,需要从待处理文本数据(即原始文本)中提取特征。通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。比如,从关于航天动态的文章中提取出的可能是,“飞船、“SpaceX”、“成功”、“龙”、“第一次”、“昨晚”等关键词的罗列。所述提取结果,被作为所述原始文本中的关键词。进一步,结合提取出的所述关键词以及比如TextRank等传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。