CN110019768A - 生成文本摘要的方法及装置 - Google Patents

生成文本摘要的方法及装置 Download PDF

Info

Publication number
CN110019768A
CN110019768A CN201910243139.1A CN201910243139A CN110019768A CN 110019768 A CN110019768 A CN 110019768A CN 201910243139 A CN201910243139 A CN 201910243139A CN 110019768 A CN110019768 A CN 110019768A
Authority
CN
China
Prior art keywords
text
network
snippet
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910243139.1A
Other languages
English (en)
Other versions
CN110019768B (zh
Inventor
迟耀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Keyuan Network Technology Co ltd
Original Assignee
Beijing Deep-Sea Giant Whale Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Deep-Sea Giant Whale Mdt Infotech Ltd filed Critical Beijing Deep-Sea Giant Whale Mdt Infotech Ltd
Priority to CN201910243139.1A priority Critical patent/CN110019768B/zh
Publication of CN110019768A publication Critical patent/CN110019768A/zh
Application granted granted Critical
Publication of CN110019768B publication Critical patent/CN110019768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种生成文本摘要的方法及装置。该方法包括将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要;以及将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果。本申请解决了生成文本摘要时内容过于机械单一且可读性不强的技术问题。通过本申请生成的文本摘要,结合了抽取式和生成式两种处理方式进行,既保留了原文的含义,又不是机械复制,得到的文本摘要具有可读性。

Description

生成文本摘要的方法及装置
技术领域
本申请涉及文本处理、自然语言处理领域,具体而言,涉及一种生成文本摘要的方法及装置。
背景技术
文本摘要,是指对包含较多内容的目标文本数据进行压缩处理,得到用户关注或感兴趣的文字内容的过程。
发明人发现,现有的文本摘要方法有的摘要内容过于机械,有的摘要内容可读性不强。进一步,不适合直接用于机器写作或对于关注的热点话题进行有效地文本压缩。
针对相关技术中生成文本摘要时内容过于机械单一且可读性不强的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种生成文本摘要的方法及装置,以解决生成文本摘要时内容过于机械单一且可读性不强的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种生成文本摘要的方法。
根据本申请的生成文本摘要的方法,包括:将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要;以及将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果。
进一步地,所述预设局部特征提取网络包括如下建立步骤:将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
进一步地,所述特定数据集的获取方法包括如下步骤:选取预设领域中的文本数据作为原始文本;接收经过转写处理后的所述文本数据作为转写文本;将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
进一步地,所述全局特征提取网络包括如下建立步骤:使用文本数据中的全文内容和文本标题作为训练数据集;使用文本专业词汇作为辅助训练集;根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络。
进一步地,抽取出所述待处理文本数据的第一文本摘要包括:在所述全局特征提取网络提取全局特征并作为关键词;结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
为了实现上述目的,根据本申请的另一方面,提供了一种生成文本摘要的装置。
根据本申请的生成文本摘要的装置包括:抽取模块,用于将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;生成模块,用于将所述第一文本摘要作为预设局部特征提取网络的输入,通过所述预设局部特征提取网络生成第二文本摘要;以及结果模块,用于输出所述待处理文本数据的文本摘要生成结果。
进一步地,所述生成模块包括:预设局部特征提取网络建立模块,所述预设局部特征提取网络建立模块包括:搭建单元,用于将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;第一训练单元,用于在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
进一步地,所述生成模块包括:特定数据集的获取模块,所述特定数据集的获取模块包括:第一文本处理单元,用于选取预设领域中的文本数据作为原始文本;第二文本处理单元,用于接收经过转写处理后的所述文本数据作为转写文本;特征提取单元,用于将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
进一步地,所述抽取模块包括:全局特征提取网络建立模块、第一文本摘要抽取模块,所述全局特征提取网络建立模块包括:训练集单元,用于使用文本数据中的全文内容和文本标题作为训练数据集;辅助单元,用于使用文本专业词汇作为辅助训练集;第二训练单元,用于根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络;第一文本摘要抽取模块包括:提取单元和抽取单元,所述提取单元,用于在所述全局特征提取网络提取全局特征并作为关键词,所述抽取单元,用于结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
在本申请实施例中生成文本摘要的方法及装置,采用将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要的方式,通过将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要,达到了将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果的目的,从而实现了通过抽取式方法缩短文本长度和通过对抽取方式获取的文本进行转写,获得具有可读性非机械性的文本摘要的技术效果,进而解决了生成文本摘要时内容过于机械单一且可读性不强的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的生成文本摘要的方法流程示意图;
图2是根据本申请第二实施例的生成文本摘要的方法流程示意图;
图3是根据本申请第三实施例的生成文本摘要的方法流程示意图;
图4是根据本申请第四实施例的生成文本摘要的方法流程示意图;
图5是根据本申请第五实施例的生成文本摘要的方法流程示意图;
图6是根据本申请第一实施例的生成文本摘要的装置结构示意图;
图7是根据本申请第二实施例的生成文本摘要的装置结构示意图;
图8是根据本申请第三实施例的生成文本摘要的装置结构示意图;
图9是根据本申请第四实施例的生成文本摘要的装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便描述这里的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S106:
步骤S102,将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;
所述待处理文本数据是指用户输入或者在根据需求在全网范围内获取的文本数据。
所述预设全局特征提取网络,采用基于机器学习和深度学习的方式训练得到,并且在训练过程中加入了对于特定领域的知识。通过所述预设全局特征提取网络可以对所述待处理文本数据进行抽取式预处理,得到的结果作为下一网络的输入或作为预训练网络模型。
需要注意的是,在本申请的实施例中并不对所述预设全局特征提取网络的具体网络结构、参数配置进行限定,本领域技术人员可以根据实际使用情况,对所述预设全局特征提取网络进行训练、参数配置。
通过所述预设全局特征提取网络,首先对原始文本进行特征提取,得到的特征提取结果作为所述原始文本中的关键词。所述关键词仅仅是单独词语的罗列不具有可读性。然后,通过结合已知的抽取式自动文摘方法对原始文本进行句子抽取。最后,通过所述关键词和句子抽取结果形成所述第一文本摘要。
进一步,结合提取出的所述关键词以及比如TextRank等传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
通过关键词特征提取和句子抽取得到的所述待处理文本数据的第一文本摘要,可以使得所述待处理文本数据的长度缩短,但是由于机械抽取的可读性较差,所以还需要进行继续处理。
步骤S104,将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要;
对抽取得到的所述第一文本摘要继续进行处理,可将所述第一文本摘要作为预训练结果,在下一个网络模型中直接进行使用。
所述预设局部特征提取网络,采用基于机器学习和深度学习的方式训练得到,并且可以使用支持向量机进行参数预置。通过所述预设局部特征提取网络提取的局部特征用于对所述第一文本摘要进行改写,使得语义符合表达,且具有可读性。
优选地,在训练所述预设局部特征提取网络时需要采用特定数据集作为训练集进行训练,所述特定数据集可以是对于特定领域中的文本数据经过转写预处理后得到的,并且所述特定数据集具有特定的使用权限。比如,仅用于企业内部。
需要注意的是,为了提高转写的处理效果,在本申请的实施例中可以获取相关文本语言专家或技术人员经过转写后的转写文本数据。
步骤S106,将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果。
通过上述步骤获取得到的所述第二文本摘要是经过所述预设局部特征提取网络生成的即可以反映待处理文本数据原本内容,又并非机械性的复制,同时有较好可读性的文本摘要。即可将该文本摘要作为生成所述待处理文本数据的文本摘要结果进行输出。
需要注意的是,上述生成文本摘要的方法通常在服务器端执行,并且可以向客户端返回对于所述文本摘要处理请求的处理结果。或者,上述生成文本摘要的方法也可以配置在客户端,根据用户具体需求进行配置。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要的方式,通过将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要,达到了将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果的目的,从而实现了通过抽取式方法缩短文本长度和通过对抽取方式获取的文本进行转写,获得具有可读性非机械性的文本摘要的技术效果,进而解决了生成文本摘要时内容过于机械单一且可读性不强的技术问题。
根据本申请实施例,作为本实施例中的优选,如图2所示,所述预设局部特征提取网络包括如下建立步骤:
步骤S202,将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;
所述循环神经网络RNN,是以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。
所述自注意力机制,可以在自然语言处理中配合循环神经网络RNN,进行自然语言理解的任务执行。
具体地,可以使用所述循环神经网络和所述自注意力机制,搭建出多重注意力网络。
步骤S204,在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
由于所述循环神经网络通过使用带有自反馈的神经元,让整个网络具有短时记忆能力,从而能够处理任意长度的时序数据。而所述自注意力机制,无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,实现可以进行并行计算。所以将所述循环神经网络和所述自注意力机制结合,得到的所述多重注意力网络,可以生成具有可读性的文本数据。
具体地,在所述多重注意力网络中,通过相关数据集作为文本数据训练集,训练所述局部特征提取网络。
优选地,在所述局部特征提取网络中,可以利用支持向量机(SVM)进行参数预置。
根据本申请实施例,作为本实施例中的优选,如图3所示,所述特定数据集的获取方法包括如下步骤:
步骤S302,选取预设领域中的文本数据作为原始文本;
所述选取预设领域是指在一些特定或专业领域,需要相关专业领域的知识才能够准确理解文本内容。
通过所述选取预设领域中的文本数据,将所述预设领域中的文本数据作为原始文本,建立训练集的样本。
步骤S304,接收经过转写处理后的所述文本数据作为转写文本;
通过接收所述经过转写处理后的所述文本数据,可以获取经过人工或机器改写或转写后的所述文本数据。可以理解,所述经过人工或机器改写或转写后的所述文本数据,是对于非特定领域的人员也能够明白其文本含义的。
通过获取所述经过转写处理后的所述文本数据,将所述经过转写处理后的所述文本数据作为转写文本,建立训练集的样本。
步骤S306,将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
通过上述步骤中获得的所述原始文本和所述转写文本可以建立训练集的正负样本,用于作为所述局部特征提取网络的训练数据集。
比如,选取特定领域的文本数据进行人工转写,经过转写的文本与原文含义相同,字数相近或者有浮动。原始文本与转写文本作为局部特征提取网络的训练数据。
根据本申请实施例,作为本实施例中的优选,如图4所示,所述全局特征提取网络包括如下建立步骤:
步骤S402,使用文本数据中的全文内容和文本标题作为训练数据集;
在所述全局特征提取网络的训练阶段,需要根据用于模型预训练的文本数据中的全文内容和所述文本标题作为预训练模型的训练数据集。其中,所述全文内容是指未经过处理的文本数据中的全文内容,比如,对于同一个热点话题的50篇关于最新航天动态的文章。其中,所述文本标题是指对于所述最新航天动态的文章的标题。
可以理解,上述的全文内容和文本标题作为训练数据集仅作为本申请实施例中的一种优选的实施方式,并不是对于本申请的实施方式的具体限定。
步骤S404,使用文本专业词汇作为辅助训练集;
在预训练模型的训练过程中,可以使用专业文本库辅助生成专业词汇,并将该专业词汇作为辅助的训练手段,可以加强特定领域的全局特征的提取能力。
步骤S406,根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络。
根据所述训练数据集和辅助训练集,并且使用所述递归神经网络训练得到全局特征提取网络。
所述递归神经网络,是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络。
根据本申请实施例,作为本实施例中的优选,如图5所示,抽取出所述待处理文本数据的第一文本摘要包括:
步骤S502,在所述全局特征提取网络提取全局特征并作为关键词;
通过上述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。但是所述提取结果,可以被作为所述原始文本中的关键词。
步骤S504,结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
结合提取出的所述关键词以及传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
具体地,建立所述预设全局特征提取网络之后,通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。但是所述提取结果,可以被作为所述原始文本中的关键词。通过上述全局特征提取网络并进行文本摘要生成的方法,属于采用深度神经网络对传统的抽取式自动文摘算法的改进,通过特征提取和句子抽取。比如,根据提取出的关键词并结合采用抽取式自动文摘方法,抽取文本中已存在的句子形成摘要。
优选地,所述预设全局特征提取网络的提取结果可以作为原始文本的关键词,并具体结合抽取式自动文摘算法Textrank对原文句子进行抽取。具体地,将所述待处理文本数据输入预设全局特征提取网络进行摘要抽取。使用所述全局特征提取网络生成文本摘要。通过上述步骤获得的文本摘要生成结果不具有可读性,但包含了文本重要的关键词。通过所述预设全局特征提取网络,可以首先对原始文本进行特征提取,将所述特征提取的结果作为所述原始文本中的关键词,然后结合已知的抽取式自动文摘算法,提取出句子,得到摘要。
优选地,所述预设全局特征提取网络的提取结果可以作为原始文本的关键词,并具体结合抽取式自动文摘算法Textrank对原文句子进行抽取。具体地,通过使用预设全局特征提取网络,需要从待处理文本数据(即原始文本)中提取特征。通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。比如,从关于航天动态的文章中提取出的可能是,“飞船、“SpaceX”、“成功”、“龙”、“第一次”、“昨晚”等关键词的罗列。所述提取结果,被作为所述原始文本中的关键词。进一步,结合提取出的所述关键词以及比如TextRank等传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的生成文本摘要的装置,如图6所示,该装置包括:抽取模块10,用于将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;生成模块20,用于将所述第一文本摘要作为预设局部特征提取网络的输入,通过所述预设局部特征提取网络生成第二文本摘要;以及结果模块30,用于输出所述待处理文本数据的文本摘要生成结果。
本申请实施例的抽取模块10中所述待处理文本数据是指用户输入或者根据需求在全网范围内获取的文本数据。
所述预设全局特征提取网络,采用基于机器学习和深度学习的方式训练得到,并且在训练过程中加入了对于特定领域的知识。通过所述预设全局特征提取网络可以对所述待处理文本数据进行抽取式预处理,得到的结果作为下一网络的输入或作为预训练网络模型。
需要注意的是,在本申请的实施例中并不对所述预设全局特征提取网络的具体网络结构、参数配置进行限定,本领域技术人员可以根据实际使用情况,对所述预设全局特征提取网络进行训练、参数配置。
具体地,本申请实施例的抽取模块10中通过使用预设全局特征提取网络,需要从待处理文本数据(即原始文本)中提取特征。通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。比如,从关于航天动态的文章中提取出的可能是,“飞船、“SpaceX”、“成功”、“龙”、“第一次”、“昨晚”等关键词的罗列。所述提取结果,被作为所述原始文本中的关键词。
进一步,本申请实施例的抽取模块10中结合提取出的所述关键词以及比如TextRank等传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
通过关键词特征提取和句子抽取得到的所述待处理文本数据的第一文本摘要,可以使得所述待处理文本数据的长度缩短,但是由于机械抽取的可读性较差,所以还需要进行继续处理。
本申请实施例的生成模块20中对抽取得到的所述第一文本摘要继续进行处理,可将所述第一文本摘要作为预训练结果,在下一个网络模型中直接进行使用。
所述预设局部特征提取网络,采用基于机器学习和深度学习的方式训练得到,并且可以使用支持向量机进行参数预置。通过所述预设局部特征提取网络提取的局部特征用于对所述第一文本摘要进行改写,使得语义符合表达,且具有可读性。
优选地,在训练所述预设局部特征提取网络时需要采用特定数据集作为训练集进行训练,所述特定数据集可以是对于特定领域中的文本数据经过转写预处理后得到的,并且所述特定数据集具有特定的使用权限。比如,仅用于企业内部。
需要注意的是,为了提高转写的处理效果,在本申请的实施例中可以获取相关文本语言专家或技术人员经过转写后的转写文本数据。
本申请实施例的结果模块30中通过上述步骤获取得到的所述第二文本摘要是经过所述预设局部特征提取网络生成的即可以反映待处理文本数据原本内容,又并非机械性的复制,同时有较好可读性的文本摘要。即可将该文本摘要作为生成所述待处理文本数据的文本摘要结果进行输出。
需要注意的是,上述生成文本摘要的方法通常在服务器端执行,并且可以向客户端返回对于所述文本摘要处理请求的处理结果。或者,上述生成文本摘要的方法也可以配置在客户端,根据用户具体需求进行配置。
根据本申请实施例,作为本实施例中的优选,如图7所示,生成模块20包括:预设局部特征提取网络建立模块201,所述预设局部特征提取网络建立模块201包括:搭建单元2010,用于将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;第一训练单元2011,用于在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
本申请实施例的搭建单元2010中所述循环神经网络RNN,是以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。
所述自注意力机制,可以在自然语言处理中配合循环神经网络RNN,进行自然语言理解的任务执行。
具体地,可以使用所述循环神经网络和所述自注意力机制,搭建出多重注意力网络。
本申请实施例的第一训练单元2011中由于所述循环神经网络通过使用带有自反馈的神经元,让整个网络具有短时记忆能力,从而能够处理任意长度的时序数据。而所述自注意力机制,无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,实现可以进行并行计算。所以将所述循环神经网络和所述自注意力机制结合,得到的所述多重注意力网络,可以生成具有可读性的文本数据。
具体地,在所述多重注意力网络中,通过相关数据集作为文本数据训练集,训练所述局部特征提取网络。
优选地,在所述局部特征提取网络中,可以利用支持向量机(SVM)进行参数预置。
根据本申请实施例,作为本实施例中的优选,如图8所示,生成模块20包括:特定数据集的获取模块202,所述特定数据集的获取模块202包括:第一文本处理单元2020,用于选取预设领域中的文本数据作为原始文本;第二文本处理单元2021,用于接收经过转写处理后的所述文本数据作为转写文本;特征提取单元2022,用于将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
本申请实施例的第一文本处理单元2020中所述选取预设领域是指在一些特定或专业领域,需要相关专业领域的知识才能够准确理解文本内容。
通过所述选取预设领域中的文本数据,将所述预设领域中的文本数据作为原始文本,建立训练集的样本。
本申请实施例的第二文本处理单元2021中通过接收所述经过转写处理后的所述文本数据,可以获取经过人工或机器改写或转写后的所述文本数据。可以理解,所述经过人工或机器改写或转写后的所述文本数据,是对于非特定领域的人员也能够明白其文本含义的。
通过获取所述经过转写处理后的所述文本数据,将所述经过转写处理后的所述文本数据作为转写文本,建立训练集的样本。
本申请实施例的特征提取单元2022中通过上述步骤中获得的所述原始文本和所述转写文本可以建立训练集的正负样本,用于作为所述局部特征提取网络的训练数据集。
比如,选取特定领域的文本数据进行人工转写,经过转写的文本与原文含义相同,字数相近或者有浮动。原始文本与转写文本作为局部特征提取网络的训练数据。
根据本申请实施例,作为本实施例中的优选,如图9所示,所述抽取模块10包括:全局特征提取网络建立模块101以及第一文本摘要抽取模块102,其中,所述全局特征提取网络建立模块101包括:训练集单元1010,用于使用文本数据中的全文内容和文本标题作为训练数据集;辅助单元1011,用于使用文本专业词汇作为辅助训练集;第二训练单元1012,用于根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络。
所述第一文本摘要抽取模块102包括:提取单元1020和抽取单元1021,所述提取单元1020用于提取全局特征并作为关键词,所述抽取单元1021用于结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
本申请实施例的训练集单元1010中在所述全局特征提取网络的训练阶段,需要根据用于模型预训练的文本数据中的全文内容和所述文本标题作为预训练模型的训练数据集。其中,所述全文内容是指未经过处理的文本数据中的全文内容,比如,对于同一个热点话题的50篇关于最新航天动态的文章。其中,所述文本标题是指对于所述最新航天动态的文章的标题。
可以理解,上述的全文内容和文本标题作为训练数据集仅作为本申请实施例中的一种优选的实施方式,并不是对于本申请的实施方式的具体限定。
本申请实施例的辅助单元1011中在预训练模型的训练过程中,可以使用专业文本库辅助生成专业词汇,并将该专业词汇作为辅助的训练手段,可以加强特定领域的全局特征的提取能力。
本申请实施例的第二训练单元1012中根据所述训练数据集和辅助训练集,并且使用所述递归神经网络训练得到全局特征提取网络。
所述递归神经网络,是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络。
在所述提取单元1020中通过上述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。但是所述提取结果,可以被作为所述原始文本中的关键词。
在所述所述抽取单元1021中结合提取出的所述关键词以及传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
具体地,建立所述预设全局特征提取网络之后,通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。但是所述提取结果,可以被作为所述原始文本中的关键词。通过上述全局特征提取网络并进行文本摘要生成的方法,属于采用深度神经网络对传统的抽取式自动文摘算法的改进,通过特征提取和句子抽取。比如,根据提取出的关键词并结合采用抽取式自动文摘方法,抽取文本中已存在的句子形成摘要。
优选地,所述预设全局特征提取网络的提取结果可以作为原始文本的关键词,并具体结合抽取式自动文摘算法Textrank对原文句子进行抽取。
优选地,所述预设全局特征提取网络的提取结果可以作为原始文本的关键词,并具体结合抽取式自动文摘算法Textrank对原文句子进行抽取。具体地,通过使用预设全局特征提取网络,需要从待处理文本数据(即原始文本)中提取特征。通过所述预设全局特征提取网络提取的特征可以包含原始文本中的重要信息,但是提取结果不具有可读性。比如,从关于航天动态的文章中提取出的可能是,“飞船、“SpaceX”、“成功”、“龙”、“第一次”、“昨晚”等关键词的罗列。所述提取结果,被作为所述原始文本中的关键词。进一步,结合提取出的所述关键词以及比如TextRank等传统抽取摘要的算法,可以从原始文本中抽取出完整的句子作为第一文本摘要。此时,从原始文本中抽取出的,所述第一文本摘要是具有一定可读性的,但是属于对原文中句子的机械复制。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种生成文本摘要的方法,其特征在于,包括:
将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;
将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要;以及
将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果。
2.根据权利要求1所述的生成文本摘要的方法,其特征在于,所述预设局部特征提取网络包括如下建立步骤:
将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;
在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
3.根据权利要求2所述的生成文本摘要的方法,其特征在于,所述特定数据集的获取方法包括如下步骤:
选取预设领域中的文本数据作为原始文本;
接收经过转写处理后的所述文本数据作为转写文本;
将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
4.根据权利要求1所述的生成文本摘要的方法,其特征在于,所述全局特征提取网络包括如下建立步骤:
使用文本数据中的全文内容和文本标题作为训练数据集;
使用文本专业词汇作为辅助训练集;
根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络。
5.根据权利要求4所述的生成文本摘要的方法,其特征在于,抽取出所述待处理文本数据的第一文本摘要包括:
在所述全局特征提取网络提取全局特征并作为关键词;
结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
6.一种生成文本摘要的装置,其特征在于,包括:
抽取模块,用于将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;
生成模块,用于将所述第一文本摘要作为预设局部特征提取网络的输入,通过所述预设局部特征提取网络生成第二文本摘要;以及
结果模块,用于输出所述待处理文本数据的文本摘要生成结果。
7.根据权利要求6所述的生成文本摘要的装置,其特征在于,所述生成模块包括:预设局部特征提取网络建立模块,所述预设局部特征提取网络建立模块包括:
搭建单元,用于将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;
第一训练单元,用于在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
8.根据权利要求6所述的生成文本摘要的装置,其特征在于,所述生成模块包括:特定数据集的获取模块,所述特定数据集的获取模块包括:
第一文本处理单元,用于选取预设领域中的文本数据作为原始文本;
第二文本处理单元,用于接收经过转写处理后的所述文本数据作为转写文本;
特征提取单元,用于将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
9.根据权利要求6所述的生成文本摘要的装置,其特征在于,所述抽取模块包括:全局特征提取网络建立模块,所述全局特征提取网络建立模块包括:
训练集单元,用于使用文本数据中的全文内容和文本标题作为训练数据集;
辅助单元,用于使用文本专业词汇作为辅助训练集;
第二训练单元,用于根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络。
10.根据权利要求6所述的生成文本摘要的装置,其特征在于,所述抽取模块还包括:第一文本摘要抽取模块,所述第一文本摘要抽取模块包括:提取单元和抽取单元,
所述提取单元,用于在所述全局特征提取网络提取全局特征并作为关键词;
所述抽取单元,用于结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
CN201910243139.1A 2019-03-28 2019-03-28 生成文本摘要的方法及装置 Active CN110019768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910243139.1A CN110019768B (zh) 2019-03-28 2019-03-28 生成文本摘要的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910243139.1A CN110019768B (zh) 2019-03-28 2019-03-28 生成文本摘要的方法及装置

Publications (2)

Publication Number Publication Date
CN110019768A true CN110019768A (zh) 2019-07-16
CN110019768B CN110019768B (zh) 2021-09-21

Family

ID=67190309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910243139.1A Active CN110019768B (zh) 2019-03-28 2019-03-28 生成文本摘要的方法及装置

Country Status (1)

Country Link
CN (1) CN110019768B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068684A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文档目录自动生成方法、装置、计算机设备及存储介质
CN113407722A (zh) * 2021-07-09 2021-09-17 平安国际智慧城市科技股份有限公司 基于文本摘要的文本分类方法、装置、电子设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070115400A (ko) * 2006-06-02 2007-12-06 삼성전자주식회사 데이터 요약 생성 방법 및 장치
US20090150364A1 (en) * 1999-07-16 2009-06-11 Oracle International Corporation Automatic generation of document summaries through use of structured text
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
US20170213130A1 (en) * 2016-01-21 2017-07-27 Ebay Inc. Snippet extractor: recurrent neural networks for text summarization at industry scale
CN108280112A (zh) * 2017-06-22 2018-07-13 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108427771A (zh) * 2018-04-09 2018-08-21 腾讯科技(深圳)有限公司 摘要文本生成方法、装置和计算机设备
CN109376234A (zh) * 2018-10-10 2019-02-22 北京京东金融科技控股有限公司 一种训练摘要生成模型的方法和装置
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150364A1 (en) * 1999-07-16 2009-06-11 Oracle International Corporation Automatic generation of document summaries through use of structured text
KR20070115400A (ko) * 2006-06-02 2007-12-06 삼성전자주식회사 데이터 요약 생성 방법 및 장치
US20170213130A1 (en) * 2016-01-21 2017-07-27 Ebay Inc. Snippet extractor: recurrent neural networks for text summarization at industry scale
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN108280112A (zh) * 2017-06-22 2018-07-13 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108427771A (zh) * 2018-04-09 2018-08-21 腾讯科技(深圳)有限公司 摘要文本生成方法、装置和计算机设备
CN109376234A (zh) * 2018-10-10 2019-02-22 北京京东金融科技控股有限公司 一种训练摘要生成模型的方法和装置
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡迁 等: ""基于自动文摘的答案生成方法研究"", 《计算机应用与软件》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068684A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文档目录自动生成方法、装置、计算机设备及存储介质
CN113407722A (zh) * 2021-07-09 2021-09-17 平安国际智慧城市科技股份有限公司 基于文本摘要的文本分类方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN110019768B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
US10740398B2 (en) Structuring incoherent nodes by superimposing on a base knowledge graph
CN106919646B (zh) 中文文本摘要生成系统及方法
CN107766371A (zh) 一种文本信息分类方法及其装置
CN108984778A (zh) 一种智能交互自动问答系统以及自我学习方法
CN105912527A (zh) 根据自然语言输出答案的方法、装置及系统
JP6733809B2 (ja) 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム
CN110276080B (zh) 一种语义处理方法和系统
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
US20230342629A1 (en) Exploring entities of interest over multiple data sources using knowledge graphs
WO2017161749A1 (zh) 一种信息匹配方法及装置
CN112925904A (zh) 一种基于Tucker分解的轻量级文本分类方法
CN110019768A (zh) 生成文本摘要的方法及装置
CN107256212A (zh) 中文搜索词智能切分方法
CN103150409B (zh) 一种用户检索词推荐的方法及系统
CN105404677A (zh) 一种基于树形结构的检索方法
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
Yao et al. Optimization Strategies for Deep Learning Models in Natural Language Processing
CN111859950A (zh) 一种自动化生成讲稿的方法
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN107133317A (zh) 一种基于新词的网络舆情主题抽取方法
CN114579605B (zh) 表格问答数据处理方法、电子设备及计算机存储介质
CN105426490A (zh) 一种基于树形结构的索引方法
Kumar et al. Augmenting small data to classify contextualized dialogue acts for exploratory visualization
Bozovic et al. Two-phase schema matching in real world relational databases
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200407

Address after: 100041 403, floor 4, building 10, yard 30, Shixing street, Shijingshan District, Beijing

Applicant after: BEIJING YULESHIJIE EDUCATION TECHNOLOGY Co.,Ltd.

Address before: 100095 Beijing Haidian District Baijiatuan Shangpin Garden 2 Floor 205

Applicant before: BEIJING SHENHAI JUJING INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240205

Address after: Room A-2160, Floor 2, Building 3, Yard 30, Shixing Street, Shijingshan District, Beijing 100043

Patentee after: Beijing Keyuan Network Technology Co.,Ltd.

Country or region after: China

Address before: 403, 4th floor, building 10, yard 30, Shixing street, Shijingshan District, Beijing 100041

Patentee before: BEIJING YULESHIJIE EDUCATION TECHNOLOGY CO.,LTD.

Country or region before: China