CN114385806A - 一种基于深度学习的文本摘要方法及系统 - Google Patents
一种基于深度学习的文本摘要方法及系统 Download PDFInfo
- Publication number
- CN114385806A CN114385806A CN202111439109.1A CN202111439109A CN114385806A CN 114385806 A CN114385806 A CN 114385806A CN 202111439109 A CN202111439109 A CN 202111439109A CN 114385806 A CN114385806 A CN 114385806A
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- vector
- original text
- key information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于深度学习的文本摘要方法及系统,其中方法包括:对目标文件进行中文分词和句子分割处理,将目标文件的原始文本划分为单独的句子;将划分为单独句子的原始文本转换为文本向量;对文本向量进行自注意力计算,得到包含语义信息的句子特征;对通过乱序的自注意力计算得到的各个句子特征进行加权整合,并对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征;将篇章级的句子特征输入预先构建的分类模型,输出句子类别;根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分;将关键信息按照合理的顺序进行排列组织,并将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。
Description
技术领域
本发明涉及人工智能和自然语言处理领域,并且更具体地,涉及一种基于深度学习的文本摘要方法及系统。
背景技术
近年来,由于互联网用户每天在互联网上分享和传递大量以文本形式展现的信息,互联网上的文本信息出现爆发式增长。当用户浏览海量的互联网文本数据时,很难快速准确地获取其中的关键信息。这导致用户需要花费很多的时间和精力去自行概括文本中的重要内容。因此,如何能够从这些海量的长文本中提取出用户最关注的内容,提升对于信息处理的效率,成为了当下自然语言处理领域迫在眉睫的研究工作。
一个好的摘要内容需要满足摘要内容重要性高、多样性高、冗余度低和可读性高等多方面的要求。对文本摘要按照生成方式的不同进行分类,可分为抽取式文本摘要(Extractive Summarization)和生成式文本摘要(Abstractive Summarization)。其中,抽取式的自动文摘方法通过构建要点抽取数据集协助抽取要素关键信息并合成文本摘要,但是这种方法需要大量人工标注以实现数据集的搭建,可迁移性较低。生成式的自动文摘方法利用BERT预训练模型训练获得最佳词向量,再通过卷积神经网络抽取特征并筛选出关键信息,最终计算得到摘要文本信息,但是这种方法利用卷积核抽取特征会忽略上下文信息,导致语音信息的确实,影响最终摘要效果。
针对上述的现有技术中存在的文本摘要方法需要大量人工标注、抽取特征会忽略上下文信息,从而导致文本摘要成本高和摘要效果差的技术问题,目前尚未提出有效的解决方案。
发明内容
为了解决上述诸如文本摘要方法需要大量人工标注、抽取特征会忽略上下文信息,从而导致文本摘要成本高和摘要效果差的技术问题,提出了本发明。本发明的实施例提供了一种基于深度学习的文本摘要方法及系统。
根据本发明实施例的一个方面,提供了一种基于深度学习的文本摘要方法,所述方法包括:
通过对输入的目标文件进行中文分词和句子分割处理,将目标文件的原始文本划分为单独的句子;
通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征;
对通过乱序的自注意力计算得到的各个句子特征进行加权整合,并对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征;
将篇章级的句子特征输入预先构建的分类模型,输出句子类别;
根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分;
将关键信息按照合理的顺序进行排列组织,并将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。
可选地,对输入的目标文件进行中文分词和句子分割处理,包括:
在目标文件的原始文本中的每个句子前后分别插入[CLS]和[SEP]标签,以显性区分不同句子;
将原始文本切分为各个词组,以保留最小语义信息;
根据插入的[CLS]和[SEP]标签,将原始文本中的句子区分为EA、EB两种句子标签;
对原始文本中的各个词组进行位置编码处理,以区分原始文本中的词组。
可选地,通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量,包括:
基于BERT的预训练模型,对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
其中,BERT的预训练模型是一个预训练的语言表征模型,采用MLM进行预训练并采用深层的双向Transformers组件进行模型的搭建,进而生成融合上下文信息的深层双向语言表征。
可选地,通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征,包括:
令查询序列与键值对进行点乘,除以向量维度的平方根再做softmax激活,从而求得查询序列与键值对间的相似度,其中查询序列为输入的文本向量,键值对用于查找输入间的对应关系;
利用相似度与目标值向量做乘法,得到包含语义信息的句子特征。
可选地,乱序的自注意力计算方式的计算公式为:
Attention(Q,K,V)=similarity(Q,K)·V,
Q=K=V
式中,Q代表查询序列,即输入的文本向量;K代表键值对,用于查找输入间的对应关系;V代表目标值向量,表示具体的向量值;dk表示向量维度。
可选地,对通过乱序的自注意力计算得到的各个句子特征进行加权整合的计算公式为:
FFN(x)=ReLU(xW1+b1)·W2+b2
式中,x为加权整合的输入向量,W1和W2为全连接层的权重,b1和b2为全连接层的偏置;并且
对加权整合后的句子特征进行归一化处理的计算公式为:ReLU(x)=max(0,x),式中x为归一化处理的输入向量。
可选地,通过以下计算公式对归一化处理后的向量进行标准化处理:
h=LayerNorm(x+Sublayer(x))
式中,x为标准化处理的输入向量,μ为输入向量的均值,σ为输入向量的标准差。
根据本发明实施例的另一个方面,提供了一种基于深度学习的文本摘要系统,所述系统包括:文本表示模块、句子级特征提取模块和抽取式摘要提取模块,其中文本表示模块包括中文分词子模块、句子分割子模块和文本向量化子模块,句子级特征提取模块包括自注意力学习子模块、全连接层子模块和层归一化处理子模块,抽取式摘要提取模块包括句子分类子模块、内容组织子模块和摘要生成子模块;并且
中文分词子模块用于通过对输入的目标文件进行中文分词;
句子分割子模块用于对输入的目标文件进行句子分割处理,将目标文件的原始文本划分为单独的句子;
文本向量化子模块用于通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
自注意力学习子模块用于通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征;
全连接层子模块用于对通过乱序的自注意力计算得到的各个句子特征进行加权整合;
层归一化处理子模块用于对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征;
将篇章级的句子特征输入预先构建的分类模型,输出句子类别;
句子分类子模块用于根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分;
内容组织子模块用于将关键信息按照合理的顺序进行排列组织;
摘要生成子模块用于将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。
根据本发明实施例的又一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明上述任一实施例所述的方法。
根据本发明实施例的又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一实施例所述的方法。
本发明所提出的基于深度学习的文本摘要方法,通过中文分词与句子分割处理,将输入语料按照语义信息与语法规则划分为词组、句子的基本处理粒度,在词组中引入[CLS]、[SEP]标签以区分不同句子,在句子层面对词组、句子进行编码便于计算不同语境下的句子特征。基于BERT预训练模型初始化输入文本向量,减轻模型参数训练负担的同时,为文本摘要模型提供训练好的模型权重,帮助SAM-ETSM抽取合适的摘要文本。引入自注意力机制,通过使用乱序的上下文信息,以句子为处理单位计算文章中句子间的依赖关系,从而得到包含全文信息的句子特征。引入层归一化处理强化多层特征提取网络的效果,利用全连接层将自注意力得到的结果进行加权求和,最终得到篇章级的句子特征。将文章中的句子划分为关键信息与次要信息,通过分类的方式进行目标文章的关键信息筛选,为后续摘要文本的生成提供语料支持。
从而,本发明利用基于自注意力机制的抽取式文本摘要模型,对目标文件的原始文本进行内容压缩与关键信息提取,保留文本信息的同时缩短阅读时间,帮助用户快速检索到目标信息并提升用户体验。并且,仅需输入文件即可得到文件的关键信息,极大缩短阅读时间,便于用户在众多文件中快速查找目标信息,提升用户体验与系统工作效率。能够自动化抽取文件中的关键信息,节省阅读时间、提高用户工作效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明一示例性实施例提供的基于深度学习的文本摘要方法的流程示意图;
图2是本发明一示例性实施例提供的基于深度学习的文本摘要的模型结构图和算法流程图;
图3是本发明一示例性实施例提供的文本表示子模块模型结构图;
图4是本发明一示例性实施例提供的BERT的预训练模型结构图;
图5是本发明一示例性实施例提供的句子级特征提取模块整体网络结构图;
图6是本发明一示例性实施例提供的句子级特征提取模块中自注意力机制子模块计算流程图;
图7是本发明一示例性实施例提供的基于深度学习的文本摘要系统的结构示意图;
图8是本发明一示例性实施例提供的电子设备的结构。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性方法
本发明提出基于自注意力机制的抽取式文本摘要模型(Self-AttentionMechanism based Extractive Text Summarization Model,SAM-ETSM),主要由文本表示模块、句子级特征提取模块和抽取式摘要提取模块三部分组成。文本表示模块,通过对输入的目标文件进行中文分词、句子分割和文本向量化处理,实现文本信息到数字信息的转换,便于计算机进行识别与计算;句子级特征提取模块利用自注意力学习、全连接层和层归一化处理,对文本向量进行信息压缩与特征计算,利用文件内各句子间的上下文信息计算得到句子级的特征表示,从而实现词组到句子的向量化表示;抽取式摘要提取模块通过构建分类模型实现句子间的类别计算,将文章划分为关键信息和非关键信息两部分,再组织关键信息生成最终的摘要内容,本发明的处理流程如图1所示。
下面将本发明涉及的完税证明识别系统的技术方案做一个详细的说明。
图2是本发明一示例性实施例提供的基于深度学习的文本摘要方法200流程示意图。本实施例可应用在电子设备上,如图2所示,包括以下步骤:
步骤201,通过对输入的目标文件进行中文分词和句子分割处理,将目标文件的原始文本划分为单独的句子。
可选地,对输入的目标文件进行中文分词和句子分割处理,包括:在目标文件的原始文本中的每个句子前后分别插入[CLS]和[SEP]标签,以显性区分不同句子;将原始文本切分为各个词组,以保留最小语义信息;根据插入的[CLS]和[SEP]标签,将原始文本中的句子区分为EA、EB两种句子标签;对原始文本中的各个词组进行位置编码处理,以区分原始文本中的词组。
在本发明实施例中,目标文件例如但不限于为政策文件,也可以为其他文件。参见图1所示,文本表示模块由中文分词、句子分割、文本向量化三个子模块组成,旨在将原始文本信息转换为向量数据以便计算机运算处理,相关处理流程如图3所示。
中文文本按处理粒度可划分为“字->词组->句子->段落->文章”,由于单字无法完整表示具体语义信息,因此自然语言处理(Natural Language Programming,NLP)任务中通常将词组作为基本语义表示单位。抽取式自动文摘任务通常是从已有的文章中抽取原文信息并组织成新的文本,以保留原文的语义信息并确保语法正确性。本发明引入中文分词与句子分割处理,将原始文本划分为单独的句子并进行模型计算。中文分词子模块首先将文本切分为词组,以保留最小语义信息,此外,我们在句子前后分别插入[CLS]、[SEP]标签,显性区分不同句子(见图3“输入文本”);句子分割子模块由句子切分处理与位置编码处理组成,句子切分处理用于区分文章中不同句子,本发明将句子分为EA、EB两种,相邻的句子赋予不同的句子标签,如图3“句子切分”所示;考虑到同一词组在不同语境包含不同语义信息,本发明引入位置编码处理,在文本表示阶段手动区分文章中的词组,便于下游模型处理,如图3“位置编码”所示。
步骤202,通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量。
可选地,通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量,包括:基于BERT的预训练模型,对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;其中,BERT的预训练模型是一个预训练的语言表征模型,采用MLM进行预训练并采用深层的双向Transformers组件进行模型的搭建,进而生成融合上下文信息的深层双向语言表征。
在本发明实施例中,引入基于BERT的预训练模型用于初始化文本向量表示,如图3“文本向量化”所示。BERT(Bidirectional Encoder Representation from Transformers)是一个预训练的语言表征模型,采用MLM(Masked Language Model)进行预训练并采用深层的双向Transformers组件进行模型的搭建,进而生成融合上下文信息的深层双向语言表征,其主体结构如图4所示。BERT模型的输入是切分后的文本对应的向量值,经过多层堆叠的双向Transformers网络(谷歌实验室2017年公开的注意力网络),最终输出训练好的文本向量值,其本质在于通过上下文预测训练学习到网络权重,进而得到包含语义信息的文本向量。
本发明使用BERT的预训练模型作为SAM-ETSM模型的输入查找表,初始化输入文本向量,以减轻模型参数训练的负担,为下游文本摘要模型提供训练好的模型权重。
步骤203,通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征。
可选地,通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征,包括:令查询序列与键值对进行点乘,除以向量维度的平方根再做softmax激活,从而求得查询序列与键值对间的相似度,其中查询序列为输入的文本向量,键值对用于查找输入间的对应关系;利用相似度与目标值向量做乘法,得到包含语义信息的句子特征。
在本发明实施例中,句子级特征提取模块由自注意力学习、全连接层、层归一化处理三个子模块组成(如图5所示)。自注意力机制(Self-Attention)是Google机器翻译团队于2017年在《Attention is all you need》论文中提出的注意力计算方法,本发明设计自注意力学习子模块旨在通过乱序的自注意力计算方式得到包含文章语义信息的句子特征,计算公式见式(1)。
可选地,乱序的自注意力计算方式的计算公式为:
Attention(Q,K,V)=similarity(Q,K)·V, 式(1)
Q=K=V, 式(3)
式中,Q代表查询序列,即输入的文本向量;K代表键值对,用于查找输入间的对应关系;V代表目标值向量,表示具体的向量值;dk表示向量维度。
自注意力机制计算流程如图6所示,首先令查询序列与键值对进行点乘,除以向量维度的平方根再做softmax激活,从而求得间的相似度。在此基础上,利用相似度与目标值向量做乘法,最终得到句子的注意力向量。
步骤204,对通过乱序的自注意力计算得到的各个句子特征进行加权整合,并对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征。
可选地,对通过乱序的自注意力计算得到的各个句子特征进行加权整合的计算公式为:
FFN(x)=ReLU(xW1+b1)·W2+b2, 式(4)
式中,x为加权整合的输入向量,W1和W2为全连接层的权重,b1和b2为全连接层的偏置;并且
对加权整合后的句子特征进行归一化处理的计算公式为:ReLU(x)=max(0,x),式中x为归一化处理的输入向量。
可选地,通过以下计算公式对归一化处理后的向量进行标准化处理:
h=LayerNorm(x+Sublayer(x)), 式(5)
式中,x为标准化处理的输入向量,μ为输入向量的均值,σ为输入向量的标准差。
在本发明实施例中,全连接层子模块旨在利用式(4)将自注意力模块结果进行加权整合,以进行后续句子特征抽取。此外,在句子级特征提取模块部分的模型处理中,我们在自注意力学习子模块与非线性激活子模块后均引入了层归一化处理操作,对应的处理公式为式(5)。该子模块参考了ResNet模型结构先进行叠加操作以确保特征提取处理过程中多层叠加效果不退化,再利用式(6)对向量进行标准化处理,从而简化模型学习难度。
步骤205,将篇章级的句子特征输入预先构建的分类模型,输出句子类别。
步骤206,根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分。
步骤207,将关键信息按照合理的顺序进行排列组织,并将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。
在本发明实施例中,参见图1所示,抽取式摘要提取模块主要由句子分类、内容组织、摘要生成三部分构成,句子分类子模块的目的在于将文章中的句子划分为关键信息与次要信息两部分,利用内容组织子模块将关键信息按照合理的顺序进行排列组织,最后再通过摘要生成子模块将信息合成语义通顺、语法合规的摘要文本。
从而,本发明的技术关键点在于:
1.文本表示模块的中文分词与句子分割处理,将输入语料按照语义信息与语法规则划分为词组、句子的基本处理粒度,在词组中引入[CLS]、[SEP]标签以区分不同句子,在句子层面对词组、句子进行编码便于计算不同语境下的句子特征;
2.文本表示模块的文本向量化处理,基于BERT预训练模型初始化输入文本向量,减轻模型参数训练负担的同时,为文本摘要模型提供训练好的模型权重,帮助SAM-ETSM抽取合适的摘要文本;
3.句子级特征提取模块的自注意力学习处理,引入自注意力机制,通过使用乱序的上下文信息,以句子为处理单位计算文章中句子间的依赖关系,从而得到包含全文信息的句子特征;
4.句子级特征提取模块的全连接层与层归一化处理,引入层归一化处理强化多层特征提取网络的效果,利用全连接层将自注意力得到的结果进行加权求和,最终得到篇章级的句子特征;
5.抽取式摘要提取模块的句子分类处理,将文章中的句子划分为关键信息与次要信息,通过分类的方式进行目标文章的关键信息筛选,为后续摘要文本的生成提供语料支持。
因此,本发明所提出的基于深度学习的文本摘要方法,通过中文分词与句子分割处理,将输入语料按照语义信息与语法规则划分为词组、句子的基本处理粒度,在词组中引入[CLS]、[SEP]标签以区分不同句子,在句子层面对词组、句子进行编码便于计算不同语境下的句子特征。基于BERT预训练模型初始化输入文本向量,减轻模型参数训练负担的同时,为文本摘要模型提供训练好的模型权重,帮助SAM-ETSM抽取合适的摘要文本。引入自注意力机制,通过使用乱序的上下文信息,以句子为处理单位计算文章中句子间的依赖关系,从而得到包含全文信息的句子特征。引入层归一化处理强化多层特征提取网络的效果,利用全连接层将自注意力得到的结果进行加权求和,最终得到篇章级的句子特征。将文章中的句子划分为关键信息与次要信息,通过分类的方式进行目标文章的关键信息筛选,为后续摘要文本的生成提供语料支持。
从而,本发明利用基于自注意力机制的抽取式文本摘要模型,对原始文件进行内容压缩与关键信息提取,保留文本信息的同时缩短阅读时间,帮助用户快速检索到目标信息并提升用户体验。并且,仅需输入文件即可得到文件的关键信息,极大缩短阅读时间,便于用户在众多文件中快速查找目标信息,提升用户体验与系统工作效率。能够自动化抽取文件中的关键信息,节省阅读时间、提高用户工作效率。
示例性装置
图7是本发明一示例性实施例提供的基于深度学习的文本摘要系统的结构示意图。如图7所示,本实施例所提出的基于深度学习的文本摘要系统700包括:
文本表示模块710、句子级特征提取模块720和抽取式摘要提取模块730,其中文本表示模块710包括中文分词子模块、句子分割子模块和文本向量化子模块,句子级特征提取模块720包括自注意力学习子模块、全连接层子模块和层归一化处理子模块,抽取式摘要提取模块730包括句子分类子模块、内容组织子模块和摘要生成子模块;并且
中文分词子模块用于通过对输入的目标文件进行中文分词;
句子分割子模块用于对输入的目标文件进行句子分割处理,将目标文件的原始文本划分为单独的句子;
文本向量化子模块用于通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
自注意力学习子模块用于通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征;
全连接层子模块用于对通过乱序的自注意力计算得到的各个句子特征进行加权整合;
层归一化处理子模块用于对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征;
将篇章级的句子特征输入预先构建的分类模型,输出句子类别;
句子分类子模块用于根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分;
内容组织子模块用于将关键信息按照合理的顺序进行排列组织;
摘要生成子模块用于将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。
可选地,文本表示模块710具体用于:
在目标文件的原始文本中的每个句子前后分别插入[CLS]和[SEP]标签,以显性区分不同句子;
将原始文本切分为各个词组,以保留最小语义信息;
根据插入的[CLS]和[SEP]标签,将原始文本中的句子区分为EA、EB两种句子标签;
对原始文本中的各个词组进行位置编码处理,以区分原始文本中的词组。
可选地,文本向量化子模块具体用于:
基于BERT的预训练模型,对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
其中,BERT的预训练模型是一个预训练的语言表征模型,采用MLM进行预训练并采用深层的双向Transformers组件进行模型的搭建,进而生成融合上下文信息的深层双向语言表征。
可选地,自注意力学习子模块具体用于:
令查询序列与键值对进行点乘,除以向量维度的平方根再做softmax激活,从而求得查询序列与键值对间的相似度,其中查询序列为输入的文本向量,键值对用于查找输入间的对应关系;
利用相似度与目标值向量做乘法,得到包含语义信息的句子特征。
可选地,乱序的自注意力计算方式的计算公式为:
Attention(Q,K,V)=similarity(Q,K)·V,
Q=K=V
式中,Q代表查询序列,即输入的文本向量;K代表键值对,用于查找输入间的对应关系;V代表目标值向量,表示具体的向量值;dk表示向量维度。
可选地,对通过乱序的自注意力计算得到的各个句子特征进行加权整合的计算公式为:
FFN(x)=ReLU(xW1+b1)·W2+b2
式中,x为加权整合的输入向量,W1和W2为全连接层的权重,b1和b2为全连接层的偏置;并且
对加权整合后的句子特征进行归一化处理的计算公式为:ReLU(x)=max(0,x),式中x为归一化处理的输入向量。
可选地,通过以下计算公式对归一化处理后的向量进行标准化处理:
h=LayerNorm(x+Sublayer(x))
式中,x为标准化处理的输入向量,μ为输入向量的均值,σ为输入向量的标准差。
本发明的实施例的基于深度学习的文本摘要系统700与本发明的另一个实施例的基于深度学习的文本摘要方法100相对应,在此不再赘述。
示例性电子设备
图8是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图8图示了根据本公开实施例的电子设备的框图。如图8所示,电子设备80包括一个或多个处理器81和存储器82。
处理器81可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器82可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器81可以运行所述程序指令,以实现上文所述的本公开的各个实施例的软件程序的对历史变更记录进行信息挖掘的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置83和输出装置84,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置83还可以包括例如键盘、鼠标等等。
该输出装置84可以向外部输出各种信息。该输出设备84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的系统、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种基于深度学习的文本摘要方法,其特征在于,包括:
通过对输入的目标文件进行中文分词和句子分割处理,将目标文件的原始文本划分为单独的句子;
通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征;
对通过乱序的自注意力计算得到的各个句子特征进行加权整合,并对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征;
将篇章级的句子特征输入预先构建的分类模型,输出句子类别;
根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分;
将关键信息按照合理的顺序进行排列组织,并将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。
2.根据权利要求1所述的方法,其特征在于,对输入的目标文件进行中文分词和句子分割处理,包括:
在目标文件的原始文本中的每个句子前后分别插入[CLS]和[SEP]标签,以显性区分不同句子;
将原始文本切分为各个词组,以保留最小语义信息;
根据插入的[CLS]和[SEP]标签,将原始文本中的句子区分为EA、EB两种句子标签;
对原始文本中的各个词组进行位置编码处理,以区分原始文本中的词组。
3.根据权利要求1所述的方法,其特征在于,通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量,包括:
基于BERT的预训练模型,对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
其中,BERT的预训练模型是一个预训练的语言表征模型,采用MLM进行预训练并采用深层的双向Transformers组件进行模型的搭建,进而生成融合上下文信息的深层双向语言表征。
4.根据权利要求1所述的方法,其特征在于,通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征,包括:
令查询序列与键值对进行点乘,除以向量维度的平方根再做softmax激活,从而求得查询序列与键值对间的相似度,其中查询序列为输入的文本向量,键值对用于查找输入间的对应关系;
利用相似度与目标值向量做乘法,得到包含语义信息的句子特征。
6.根据权利要求1所述的方法,其特征在于,对通过乱序的自注意力计算得到的各个句子特征进行加权整合的计算公式为:
FFN(x)=ReLU(xW1+b1)·W2+b2
式中,x为加权整合的输入向量,W1和W2为全连接层的权重,b1和b2为全连接层的偏置;并且
对加权整合后的句子特征进行归一化处理的计算公式为:ReLU(x)=max(0,x),式中x为归一化处理的输入向量。
8.一种基于深度学习的文本摘要系统,其特征在于,包括文本表示模块、句子级特征提取模块和抽取式摘要提取模块,其中文本表示模块包括中文分词子模块、句子分割子模块和文本向量化子模块,句子级特征提取模块包括自注意力学习子模块、全连接层子模块和层归一化处理子模块,抽取式摘要提取模块包括句子分类子模块、内容组织子模块和摘要生成子模块;并且
中文分词子模块用于通过对输入的目标文件进行中文分词;
句子分割子模块用于对输入的目标文件进行句子分割处理,将目标文件的原始文本划分为单独的句子;
文本向量化子模块用于通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
自注意力学习子模块用于通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征;
全连接层子模块用于对通过乱序的自注意力计算得到的各个句子特征进行加权整合;
层归一化处理子模块用于对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征;
将篇章级的句子特征输入预先构建的分类模型,输出句子类别;
句子分类子模块用于根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分;
内容组织子模块用于将关键信息按照合理的顺序进行排列组织;
摘要生成子模块用于将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。
9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;其中,
所述存储器,用于存储所述处理器可执行指令;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111439109.1A CN114385806A (zh) | 2021-11-30 | 2021-11-30 | 一种基于深度学习的文本摘要方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111439109.1A CN114385806A (zh) | 2021-11-30 | 2021-11-30 | 一种基于深度学习的文本摘要方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114385806A true CN114385806A (zh) | 2022-04-22 |
Family
ID=81196754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111439109.1A Pending CN114385806A (zh) | 2021-11-30 | 2021-11-30 | 一种基于深度学习的文本摘要方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385806A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969313A (zh) * | 2022-06-07 | 2022-08-30 | 四川大学 | 摘要抽取方法、装置、计算机设备及计算机可读存储介质 |
CN115712760A (zh) * | 2022-11-29 | 2023-02-24 | 哈尔滨理工大学 | 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统 |
CN116049341A (zh) * | 2023-03-08 | 2023-05-02 | 北京七兆科技有限公司 | 一种水文数据标准化方法、装置、设备及存储介质 |
CN116450813A (zh) * | 2023-06-19 | 2023-07-18 | 深圳得理科技有限公司 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
-
2021
- 2021-11-30 CN CN202111439109.1A patent/CN114385806A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969313A (zh) * | 2022-06-07 | 2022-08-30 | 四川大学 | 摘要抽取方法、装置、计算机设备及计算机可读存储介质 |
CN114969313B (zh) * | 2022-06-07 | 2023-05-09 | 四川大学 | 摘要抽取方法、装置、计算机设备及计算机可读存储介质 |
CN115712760A (zh) * | 2022-11-29 | 2023-02-24 | 哈尔滨理工大学 | 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统 |
CN115712760B (zh) * | 2022-11-29 | 2023-04-21 | 哈尔滨理工大学 | 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统 |
CN116049341A (zh) * | 2023-03-08 | 2023-05-02 | 北京七兆科技有限公司 | 一种水文数据标准化方法、装置、设备及存储介质 |
CN116049341B (zh) * | 2023-03-08 | 2023-08-15 | 北京七兆科技有限公司 | 一种水文数据标准化方法、装置、设备及存储介质 |
CN116450813A (zh) * | 2023-06-19 | 2023-07-18 | 深圳得理科技有限公司 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
CN116450813B (zh) * | 2023-06-19 | 2023-09-19 | 深圳得理科技有限公司 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
Gallant et al. | Representing objects, relations, and sequences | |
CN114385806A (zh) | 一种基于深度学习的文本摘要方法及系统 | |
US11720761B2 (en) | Systems and methods for intelligent routing of source content for translation services | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
CN110796160A (zh) | 一种文本分类方法、装置和存储介质 | |
CN111221944A (zh) | 文本意图识别方法、装置、设备和存储介质 | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN112231569A (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
Rathee et al. | Sentiment analysis using machine learning techniques on Python | |
CN111985243A (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN108268629B (zh) | 基于关键词的图像描述方法和装置、设备、介质 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114329225A (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
Hoq et al. | Sentiment analysis of bangla language using deep learning approaches | |
Teslya et al. | Matching ontologies with Word2Vec-based neural network | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
Garg et al. | On-Device Document Classification using multimodal features | |
Xiong et al. | TF-BiLSTMS2S: A Chinese Text Summarization Model | |
Igual et al. | Statistical natural language processing for sentiment analysis | |
Kulkarni et al. | Deep Reinforcement-Based Conversational AI Agent in Healthcare System | |
Andriyanov | Multimodal Data Processing Based on Text Classifiers and Image Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |