CN108763191A

CN108763191A - 一种文本摘要生成方法及系统

Info

Publication number: CN108763191A
Application number: CN201810339302.XA
Authority: CN
Inventors: 曾碧卿; 周才东
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2018-11-06
Anticipated expiration: 2038-04-16
Also published as: CN108763191B

Abstract

本发明涉及一种文本摘要生成方法及系统，包括：获取文本信息，并将文本信息切分成多个词；将切分成的多个词分别输入到词嵌入模型中，获取每个词的词向量；获取组成每个词的所有字，并将组成同一个词的所有字依序输入到双向循环神经网络模型中，获取每个词的联合向量；将每个词的词向量和与其对应的联合向量分别输入到非线性模型中，获取每个词的融合特征；将每个词的融合特征组合形成新的输入文本，并将该新的输入文本输入到卷积神经网络中，获取表征文本的高层次特征；将表征文本的高层次特征输入到编码‑解码模型中，获取摘要。本发明可使原文本的重点信息得到增强，非重点信息得到衰减，进而使生成的文本摘要更能表征文本重要信息。

Description

一种文本摘要生成方法及系统

技术领域

本发明涉及文本数据处理领域，特别是涉及一种文本摘要生成方法及系统。

背景技术

随着数据的爆炸性发展，尤其是文本数据的剧增，人们已经无法及时浏览和理解所有感兴趣的文本，但遗漏某些重要的文本数据又会造成很多组织和应用的损失，因此，文本摘要作为总结文本重要数据的信息，成为了人们关注的重点，而如何根据文本数据自动生成摘要也成为了热门研究的课题。

目前，现有的文本摘要自动生成方法，主要是使用机器学习中的编码-解码模型，具体的，该模型先使用循环神经网络(Recurrent Neural Networks，RNN)作为编码器，将原文本进行信息编码压缩和提取，然后使用带有注意力机制的解码器将编码器压缩的信息进行解码，进而生成原文本的摘要；其中，解码器的结构与编码器一致，也是由循环神经网络构成。

但是，通过编码-解码模型生成文本摘要时，循环神经网络是直接对原文本信息进行压缩和提取，而由于循环神经网络对原文本的特征提取有限，导致很多高层次的特征如表征原文本重点信息的特征无法识别和提取，而非重点信息又未能有效识别和排除，进而使生成的文本摘要中带有较多的杂质信息，从而使最终生成的摘要不能很好的表征文本重要信息。

发明内容

基于此，本发明的目的在于，提供一种文本摘要生成方法，其具有可使原文本的重点信息得到增强，非重点信息得到衰减，进而使生成的文本摘要更能表征文本重要信息的优点。

一种文本摘要生成方法，包括如下步骤：

获取文本信息，并将文本信息切分成多个词；

将切分成的多个词分别输入到词嵌入模型中，获取每个词的词向量；

获取组成每个词的所有字，并将组成同一个词的所有字依序输入到双向循环神经网络模型中，获取每个词的联合向量；

将每个词的词向量和与其对应的联合向量分别输入到非线性模型中，获得每个词的加权权重；再根据每个词各自的加权权重，将每个词的词向量和与其对应的联合向量加权求和，获取每个词的融合特征；

将每个词的融合特征组合形成新的输入文本，并将该新的输入文本输入到卷积神经网络中，获取表征文本的高层次特征；

将表征文本的高层次特征输入到编码-解码模型中，获取文本摘要。

相比于现有技术，本发明通过将词和组成该词的所有字进行融合，再通过卷积神经网络提取出可表征文本的高层次特征，最后再将高层次特征作为编码-解码模型的输入，从而可使原文本的重点信息得到增强，非重点信息得到衰减，进而使生成的文本摘要更能表征文本重要信息。

进一步地，所述每个词的联合向量的获取方式包括：获取组成同一个词的所有字的正向循环神经网络的隐藏层向量和反向循环神经网络的隐藏层向量，再将这两个隐藏层向量相加，以获得每个词的联合向量。此时，每个词就有两个向量表示，一个是词向量，另外一个则是联合向量，根据这两个向量生成摘要，可有效减少因仅仅对词分析而造成超出词表的问题；另外，还可以防止单纯使用字进行分析时，导致单个汉字很难表达完整的语义，造成摘要语义不清的问题。

进一步地，所述表征文本的高层次特征的获取方式包括：

在卷积神经网络中，设置多个大小各不相同的卷积核；

获取新的输入文本中所有位置在各个卷积核下的特征，并将新的输入文本中对应位置在各个卷积核下的特征相加联合，以获取表征文本的高层次特征。

通过设置多个大小各不相同的卷积核对新的输入文本进行卷积处理，可大大增强重点信息，衰减非重点信息，进而可获取充分表征文本的高层次特征，提高后续文本摘要的生成效果。

本发明还提供一种文本摘要生成系统，包括处理器，适于加载并执行各种指令；以及存储设备，适于存储多条指令，所述指令适于由所述处理器加载并执行：

获取文本信息，并将文本信息切分成多个词；

将表征文本的高层次特征输入到编码-解码模型中，获取并显示文本摘要。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明实施例中文本摘要生成方法的流程图。

具体实施方式

请参阅图1，其为本发明实施例中文本摘要生成方法的流程图。该文本摘要生成方法，包括如下步骤：

步骤S1：获取文本信息，并将文本信息切分成多个词。

本发明中，可以采用现有的分词器或者分词工具等方式将文本信息切分成多个词。

步骤S2：将切分成的多个词分别输入到词嵌入模型中，获得每个词的词向量。

本发明中，若第i个词的词向量用x_i表示，则表征文本的词向量集合可表示为x＝{x₁,x₂,...,x_i-1,x_i}；其中词嵌入模型中的词向量大小可设置为200，其中，此处的向量以及后面涉及的其他向量为用计算机可读的语言如0,1来表示的某个词或数据。

步骤S3：获取组成每个词的所有字，并将组成同一个词的所有字依序输入到双向循环神经网络模型中，获取每个词的联合向量。

在一个实施例中，所述每个词的联合向量的获取方式包括：获取组成同一个词的所有字的正向循环神经网络的隐藏层向量和反向循环神经网络的隐藏层向量，再将这两个隐藏层向量相加，以获得每个词的联合向量。

在双向循环神经网络模型中，包括输入层、隐藏层和输出层，其中，从隐藏层输出到输入层的数据为正向循环神经网络的隐藏层向量，从隐藏层输出到输入层的数据为反向循环神经网络的隐藏层向量。

本发明中，双向循环神经网络模型中的隐藏层节点设置为200。

此时，每个词就有两个向量表示，一个是词向量，另外一个则是联合向量。

步骤S4：将每个词的词向量和与其对应的联合向量分别输入到非线性模型中，获得每个词的加权权重；再根据每个词各自的加权权重，将每个词的词向量和与其对应的联合向量加权求和，获取每个词的融合特征。

在一个实施例中，所述每个词的融合特征的获取方式为：

g_i＝σ(tanh(W₁x_i+W₂h_i)+b)

k_i＝gx_i+(1-g_i)h_i

其中，g_i表示第i个词的权重；W₁和W₂分别表示两个不同权重矩阵；b表示偏置；x_i为第i个词的词向量；h_i为第i个词的联合向量；k_i为第i个词的融合特征；tanh是双曲正切函数，其函数为σ是Sigmoid函数，其函数为其值范围是(0，1)。

步骤S5：将每个词的融合特征组合形成新的输入文本，并将该新的输入文本输入到卷积神经网络中，获取表征文本的高层次特征。

在一个实施例中，具体的，所述表征文本的高层次特征的获取方式包括：

步骤S51：在卷积神经网络中，设置多个大小各不相同的卷积核。

本发明中，卷积神经网络中卷积层的卷积核个数设置为100，卷积核大小可选取：1，3，5，9，卷积的步长可设置为1。

步骤S52：获取新的输入文本中所有位置在各个卷积核下的特征，并将新的输入文本中对应位置在各个卷积核下的特征相加联合，以获取表征文本的高层次特征。

具体的，所述表征文本的高层次特征的计算方式如下：

q_s＝f(W*K_s+b)

F＝q_1,s+q_2,s+···+q_j-1,s+q_j,s

其中，q_s代表卷积核在输入s处通过卷积操作得到的特征向量；f代表卷积核函数；W是变量矩阵；K_s表示s处的所有词的融合特征；b代表偏置量；j代表卷积核个数；F表示表征文本的高层次特征，F的计算公式表示将第j个卷积核在位置s处通过卷积操作得到的特征向量相加联合。

所述相加联合指将获取的q_s特征向量(在神经网络中计算都是矩阵计算，获取的qs特征向量也是矩阵)按第0维进行拼接。如若计算出的两个特征向量为[[1,2,3],[4,5,6]]和[[7,8,9],[10,11,12]]，则将这两个特征向量相加联合后即为[[1,2,3],[4,5,6],[7,8,9],[10,11,12]]。

步骤S6：将表征文本的高层次特征输入到编码-解码模型，获取文本摘要。

本发明中，编码-解码模型中的编码器和解码器的隐藏层节点个数均设置为200。

通过所述编码-解码模型提取摘要的方式为：使用循环神经网络(RecurrentNeural Networks，RNN)作为编码器，将表征文本的高层次特征进行信息编码压缩和提取，然后使用带有注意力机制的解码器将编码器压缩的信息进行解码，进而生成文本摘要；进一步地，再将获取的文本摘要显示出来。

获取文本信息，并将文本信息切分成多个词。

将切分成的多个词分别输入到词嵌入模型中，获取每个词的词向量。

获取组成每个词的所有字，并将组成同一个词的所有字依序输入到双向循环神经网络模型中，获取每个词的联合向量。

将每个词的词向量和与其对应的联合向量分别输入到非线性模型中，获得每个词的加权权重；再根据每个词各自的加权权重，将每个词的词向量和与其对应的联合向量加权求和，获取每个词的融合特征。

将每个词的融合特征组合形成新的输入文本，并将该新的输入文本输入到卷积神经网络中，获取表征文本的高层次特征。

在一个实施例中，可以采用现有的分词器或者分词工具等方式将文本信息切分成多个词。

在一个实施例中，获取所述每个词的联合向量时，所述处理器加载并执行：获取组成同一个词的所有字的正向循环神经网络的隐藏层向量和反向循环神经网络的隐藏层向量，再将这两个向量相加，以获得每个词的联合向量。

在一个实施例中，获取所述每个词的融合特征时，所述处理器加载并执行如下公式：

g_i＝σ(tanh(W₁x_i+W₂h_i)+b)

k_i＝gx_i+(1-g_i)h_i

在一个实施例中，获取高层次特征时，所述处理器加载并执行：获取所述表征文本的高层次特征时，所述处理器加载并执行：在卷积神经网络中，设置多个大小各不相同的卷积核；获取新的输入文本中所有位置在各个卷积核下的特征，并将新的输入文本中对应位置在各个卷积核下的特征相加联合，以获取表征文本的高层次特征。

所述表征文本的高层次特征的计算方式如下：

q_s＝f(W*K_s+b)

F＝q_1,s+q_2,s+···+q_j-1,s+q_j,s

相比于现有技术，本发明通过将词和组成该词的所有字进行融合，再通过卷积神经网络提取出可表征文本的高层次特征，最后再将高层次特征作为编码-解码模型的输入，从而可使原文本的重点信息得到增强，非重点信息得到衰减，进而使生成的文本摘要更能表征文本重要信息；进一步地，再将获取的文本摘要显示出来。

进一步地，通过将词和组成该词的所有字进行融合，还可在控制训练复杂度的情况下，有效减少因仅仅对词分析而造成超出词表的问题；另外，还可以防止单纯使用字进行分析时，导致单个汉字很难表达完整的语义，造成摘要语义不清的问题。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种文本摘要生成方法，其特征在于，包括如下步骤：

获取文本信息，并将文本信息切分成多个词；

2.根据权利要求1所述的文本摘要生成方法，其特征在于，所述每个词的联合向量的获取方式包括：获取组成同一个词的所有字的正向循环神经网络的隐藏层向量和反向循环神经网络的隐藏层向量，再将这两个隐藏层向量相加，以获得每个词的联合向量。

3.根据权利要求1所述的文本摘要生成方法，其特征在于，所述每个词的融合特征的计算方式为：

g_i＝σ(tanh(W₁x_i+W₂h_i)+b)

k_i＝gx_i+(1-g_i)h_i

其中，g_i表示第i个词的权重；W₁和W₂分别表示两个不同权重矩阵；b表示偏置；x_i为第i个词的词向量；h_i为第i个词的联合向量；k_i为图图6特征；tanh是双曲正切函数，其函数为σ是Sigmoid函数，其函数为其值范围是(0，1)。

4.根据权利要求1所述的文本摘要生成方法，其特征在于，所述表征文本的高层次特征的获取方式包括：

在卷积神经网络中，设置多个大小各不相同的卷积核；

5.根据权利要求4所述的文本摘要生成方法，其特征在于，所述表征文本的高层次特征的计算方式为：

q_s＝f(W*K_s+b)

F＝q_1,s+q_2,s+...+q_j-1,s+q_j,s

6.一种文本摘要生成系统，其特征在于，包括处理器，适于加载并执行各种指令；以及存储设备，适于存储多条指令，所述指令适于由所述处理器加载并执行：

获取文本信息，并将文本信息切分成多个词；

7.根据权利要求6所述的文本摘要生成系统，其特征在于，获取所述每个词的联合向量时，所述处理器加载并执行：获取组成同一个词的所有字的正向循环神经网络的隐藏层向量和反向循环神经网络的隐藏层向量，再将这两个向量相加，以获得每个词的联合向量。

8.根据权利要求6所述的文本摘要生成系统，其特征在于，获取所述表征文本的高层次特征时，所述处理器加载并执行：

在卷积神经网络中，设置多个大小各不相同的卷积核；