CN107491434A - 基于语义相关性的文本摘要自动生成方法及装置 - Google Patents

基于语义相关性的文本摘要自动生成方法及装置 Download PDF

Info

Publication number
CN107491434A
CN107491434A CN201710682230.4A CN201710682230A CN107491434A CN 107491434 A CN107491434 A CN 107491434A CN 201710682230 A CN201710682230 A CN 201710682230A CN 107491434 A CN107491434 A CN 107491434A
Authority
CN
China
Prior art keywords
text
vector
keyword
semantic dependency
text fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710682230.4A
Other languages
English (en)
Inventor
牛凯
贺志强
李争
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201710682230.4A priority Critical patent/CN107491434A/zh
Publication of CN107491434A publication Critical patent/CN107491434A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于语义相关性的文本摘要自动生成方法及装置,该方法包括:获取待处理文本;将待处理文本划分为文本片段;获取每个文本片段中的关键词;查找每个文本片段的每个关键词对应的关键词向量;根据关键词向量构建为关键词向量矩阵;根据预先训练的至少一个水平卷积核计算文本片段内语义相关性特征向量;根据预先训练的至少一个垂直卷积核计算文本片段间语义相关性特征向量;对得到的文本片段内语义相关性特征向量和文本片段间语义相关性特征向量进行拼接,得到文本语义向量;根据文本语义向量生成文本摘要。本发明实施例得到的文本摘要能够表征文本片段内语义相关性和文本片段间语义相关性,从而能更准确的表征文本的语义含义。

Description

基于语义相关性的文本摘要自动生成方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种基于语义相关性的文本摘要自动生成方法及装置。
背景技术
目前,依据文本摘要内容的组成成分进行划分,现有技术中主要有两种自动生成文本摘要的方法:抽取式和摘要式。抽取式的方法主要是在原始文本中选取词汇、词组或句子,将它们组合起来形成总结摘要;相对的,摘要式的方法则主要为文本建立一种语义上的表达,然后利用自然语言生成技术生成一段总结性的摘要文字,并尽可能地接近人类所概括出的文字,摘要式的方法生成的文本摘要中有可能包含原始文本中不存在的词汇。
实际上,文本中各个词语之间并不是相互独立的,它们之前具有语义相关性。所谓语义相关性是指:词语与词语之间具有相关的语义含义。由于现有技术中摘要式的方法仅为文本建立了语义上的表达,没有考虑文本中各个词语之间的语义相关性,导致所生成的文本摘要不能很好的表征文本的语义含义。
发明内容
本发明的目的在于提供一种基于语义相关性的文本摘要自动生成方法及装置,以使所生成的文本摘要更准确的表征文本的语义含义。
为达到上述目的,本发明实施例提供了一种基于语义相关性的文本摘要自动生成方法,所述方法包括:
获取待处理文本;
将所述待处理文本划分为文本片段;
获取每个文本片段中预设数量的关键词;
从预先构建的词语向量库中,查找每个文本片段的每个关键词对应的词语向量并作为关键词向量;
以文本片段数量为行数、以所述预设数量为列数,将得到的关键词向量构建为关键词向量矩阵;
根据预先训练的至少一个水平卷积核计算所述关键词向量矩阵的文本片段内语义相关性特征向量;根据预先训练的至少一个垂直卷积核计算所述关键词向量矩阵的文本片段间语义相关性特征向量;其中,所述文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,所述文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性;
对得到的文本片段内语义相关性特征向量和文本片段间语义相关性特征向量进行拼接,得到文本语义向量;
根据所述文本语义向量生成所述待处理文本的文本摘要。
本发明实施例还提供了一种基于语义相关性的文本摘要自动生成装置,所述装置包括:
第一获取模块,用于获取待处理文本;
划分模块,用于将所述待处理文本划分为文本片段;
第二获取模块,用于获取每个文本片段中预设数量的关键词;
查找模块,用于从预先构建的词语向量库中,查找每个文本片段的每个关键词对应的词语向量并作为关键词向量;
构建模块,用于以文本片段数量为行数、以所述预设数量为列数,将得到的关键词向量构建为关键词向量矩阵;
计算模块,用于根据预先训练的至少一个水平卷积核计算所述关键词向量矩阵的文本片段内语义相关性特征向量;根据预先训练的至少一个垂直卷积核计算所述关键词向量矩阵的文本片段间语义相关性特征向量;其中,所述文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,所述文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性;
拼接模块,用于对得到的文本片段内语义相关性特征向量和文本片段间语义相关性特征向量进行拼接,得到文本语义向量;
生成模块,用于根据所述文本语义向量生成所述待处理文本的文本摘要。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现所述的方法步骤。
本发明实施例提供的一种基于语义相关性的文本摘要自动生成方法及装置,分别采用预先训练的水平卷积核和垂直卷积核计算文本片段内语义相关性特征向量和文本片段间语义相关性特征向量,文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性,根据文本片段内语义相关性特征向量和文本片段间语义相关性特征向量得到的文本语义向量,进而生成文本摘要。由于最终获得的文本语义向量能够同时表征文本片段内关键词间的语义相关性和文本片段间的关键词间的语义相关性,因此,根据文本语义向量计算得到的文本摘要,能够表征文本中的文本片段内语义相关性和文本片段间语义相关性,从而能够更准确的表征文本的语义含义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于语义相关性的文本摘要自动生成方法的流程图;
图2为图1所述实施例中至少一个水平卷积核和至少一个垂直卷积核的训练过程的流程图;
图3为本发明实施例提供的基于语义相关性的文本摘要自动生成装置的一种结构示意图;
图4为本发明实施例提供的基于语义相关性的文本摘要自动生成装置的另一种结构中训练模块的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为达到上述目的,本发明实施例提供了一种基于语义相关性的文本摘要自动生成方法,该方法可应用于电子设备。图1为本发明实施例提供的基于语义相关性的文本摘要自动生成方法的流程图,所述方法包括:
S110,获取待处理文本。
具体地,待处理文本为待生成文本摘要的文本。待处理文本可以为句子、段落、文章或书等。用户可将待处理文本上传至电子设备,电子设备获取到该待处理文本。
S120,将所述待处理文本划分为文本片段。
可选的,在本实施例中,可以按照自然段落对待处理文本进行划分。具体地,在按照自然段落对待处理文本进行划分时,电子设备可检测段前的缩进符,将相邻两个缩进符之间的文本划分为同一文本片段。
可选的,在本实施例中,可以按照用户的设定对待处理文本进行划分。具体地,用户可预先对待处理文本进行划分,并在划分处设置划分标记,电子设备可将相邻两个划分标记之间的文本划分为同一文本片段。
S130,获取每个文本片段中预设数量的关键词。
在本实施例中,预设数量可固定设置,例如,预设数量可以为10。预设数量还可以根据所划分的文本片段的字符数量自由设定。例如,当文本片段的字符数量为100时,预设数量的值可以设置为10;当文本片段的字符数量为200时,预设数量的值可以设置为20。
需要说明的是,获取每个文本片段中预设数量的关键词是指:针对每个文本片段,获取该文本片段中的预设数量的关键词。例如,假设共划分成m个文本片段,预设数量为n,则总共获取到m*n个关键词。
在本发明实施例提供的一种具体实现方式中,所述获取每个文本片段中预设数量的关键词的步骤,包括如下步骤A1~步骤A4:
A1、获取每个文本片段中的词语。
在本实施例中,可采用现有的分词技术对每个文本片段进行分词处理,得到该文本片段中的词语。
在其他实现方式中,还可以依次采用分词处理、停用词过滤和低频词过滤等技术对每个文本片段进行处理得到该文本片段中的词语。
A2、计算每个文本片段中每个词语的词语权重值。
在本实施例中,词语权重值用于表征词语在文本片段中的重要性。
可选的,词语权重值可以为频率,即词语在文本片段中出现的频率越大,该词语在文本片段中的重要性越高。具体地,可采用统计的方式,对得到的某个文本片段中某一词语出现的频率,将得到的频率作为该词语在该文本片段内的词语权重值。
可选的,词语权重值还可以为TF-IDF(termfrequency–inversedocumentfrequency,词语频率-逆向文件频率)值。其中,TF表示词语在文本片段中出现的频率,某一词语在文本片段中出现的频率越大,说明该词语在文本片段中的重要性越高;IDF表示词语的区分能力,文本库中包含某一词语的文本数量越少,表明该词语的区分能力越强,说明该词语在文本片段中的重要性越高。具体地,可采用现有的TF-IDF方法计算每个词语的TF-IDF值,此处不再赘述。
A3、按照词语权重值由大到小的顺序对每个文本片段中词语进行排序,形成队列。
A4、将每个队列中前所述预设数量的词语确定为关键词。
举例而言,假设存在m个文本片段,按照词语权重值由大到小的顺序对每个文本片段中词语进行排序,形成队列,共得到m个队列;将每个文本片段的前n个词语确定为关键词,共得到m*n个关键词。
需要说明的是,在本实施例中,按照词语权重值由大到小的顺序对每个文本片段中词语进行排序形成各个队列,将每个队列中前所述预设数量的词语确定为关键词,也就是,将每个文本片段中重要性较高的预设数量个词语确定为关键词。将重要性较高的词语确定为关键词,能够较为准确的表征各个文本片段的语义含义。
S140,从预先构建的词语向量库中,查找每个文本片段的每个关键词对应的词语向量并作为关键词向量。
在本实施例中,预先构建的词语向量库中包含有大量词语对应的词语向量,词语向量表示的意义为:采用k维列向量的方式来表示词语的含义。
具体地,当获取每个文本片段的每个关键词后,从预先构建的词语向量库查找每个文本片段的每个关键词对应的词语向量作为关键词向量。
在本发明实施例提供的一种具体实现方式中,所述预先构建词语向量库的过程,包括如下步骤B1~步骤B4:
B1、获取第一类样本文本。
具体的,第一类样本文本为用于构建词语向量库的样本文本。第一类样本文本可以为海量的句子、段落或文章或书等。用户可将第一类样本文本上传至电子设备,电子设备获取到第一类样本文本。
B2、对所述第一类样本文本依次进行分词处理,得到样本词语。
在本实施例中,可采用现有的分词技术对第一类样本文本进行分词处理,得到样本词语。
在其他实现方式中,还可以依次采用分词处理、停用词过滤和低频词过滤等技术对第一类样本文本进行处理得到样本词语。
B3、采用预设文本词向量化算法,对得到的样本词语进行训练,得到每个样本词语对应的样本词语向量。
在本实施例中,预设文本词向量化算法可以为现有的word2vec方法。采用word2vec方法对样本词语进行训练,得到每个样本词语对应的样本词语向量的具体过程为现有技术,此处不再赘述。
B4、将每个样本词语以及该样本词对应的样本词语向量对应存储,以构建所述词语向量库。
具体地,将每个样本词以及该样本词对应的样本词语向量对应存储在一个数据库中,将该数据库确定为词语向量库。
参见图1,S150,以文本片段数量为行数、以所述预设数量为列数,将得到的关键词向量构建为关键词向量矩阵。
在本实施例中,在构建关键词向量矩阵时,可以按照文本片段的先后顺序作为各个行的顺序;针对关键词向量矩阵的每一行,可按照该行对应文本片段中关键词的词语权重值由大到小的顺序,对关键词对应的关键词向量进行排序构建该行。
举例而言,假设文本片段数量为m,预设数量为n,则获得m*n个关键词向量后,构建的关键词向量矩阵为m行、n列的矩阵,其中,关键词向量矩阵的第i行第j列的关键词向量表示的是第i个文本片段第j个关键词对应的关键词向量。
S160,根据预先训练的至少一个水平卷积核计算所述关键词向量矩阵的文本片段内语义相关性特征向量;根据预先训练的至少一个垂直卷积核计算所述关键词向量矩阵的文本片段间语义相关性特征向量;其中,所述文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,所述文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性。
在本实施例中,水平卷积核可用于捕捉文本片段内语义相关性,水平卷积核作用在所述关键词向量矩阵上,得到的文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性;垂直卷积核可用于捕捉文本片段间语义相关性,垂直卷积核作用在所述关键词向量矩阵上,得到的文本片段间语义相关性特征向量用于表征文本片段间关键词间的语义相关性。
需要说明的是,至少一个水平卷积核和至少一个垂直卷积核均为预先训练得到的,各水平卷积核和各垂直卷积核可通过一个训练过程得到,也可通过多个训练过程得到。具体的训练过程可参见后述图2所述的内容。
在本发明实施例提供的一种具体实现方式中,所述根据预先训练的至少一个水平卷积核计算所述关键词向量矩阵的文本片段内语义相关性特征向量的步骤,包括如下步骤C1~步骤C2:
C1、分别根据每个水平卷积核计算所述关键词向量矩阵的第一类文本片段内语义相关性特征向量。
C2、将得到的所有第一类文本片段内语义相关性特征向量进行拼接,得到所述文本片段内语义相关性特征向量。
举例而言,假设存在P个水平卷积核,每一个水平卷积核作用在关键词向量矩阵上得到一个第一类文本片段内语义相关性特征向量,则总共得到P个第一类文本片段内语义相关性特征向量。每一个水平卷积核作用在关键词向量矩阵上得到一个第一类文本片段内语义相关性特征向量的具体过程参见后述步骤E1~步骤E2。
将得到的P个第一类文本片段内语义相关性特征向量进行拼接,将拼接结果确定为文本片段内语义相关性特征向量。例如,如果得到的所有第一类文本片段内语义相关性特征向量分别为(1,2,3)和(4,5,6),则经过拼接得到的文本片段内语义相关性特征向量为(1,2,3,4,5,6)。
在本发明实施例提供的一种具体实现方式中,所述根据预先训练的至少一个垂直卷积核计算所述关键词向量矩阵的文本片段间语义相关性特征向量的步骤,包括如下步骤D1~步骤D2:
D1、分别根据每个垂直卷积核计算所述关键词向量矩阵的第一类文本片段间语义相关性特征向量。
D2、将得到的所有第一类文本片段间语义相关性特征向量进行拼接,得到所述文本片段间语义相关性特征向量。
举例而言,假设存在Q个垂直卷积核,每一个垂直卷积核作用在关键词向量矩阵上得到一个第一类文本片段间语义相关性特征向量,则总共得到Q个第一类文本片段间语义相关性特征向量。每一个垂直卷积核作用在关键词向量矩阵上得到一个第一类文本片段间语义相关性特征向量的具体过程参见后述步骤F1~步骤F2。
将得到的Q个第一类文本片段间语义相关性特征向量进行拼接,将拼接结果确定为文本片段间语义相关性特征向量。例如,得到的所有第一类文本片段间语义相关性特征向量分别为(0,2,1)和(2,5,4),则经过拼接得到的文本片段内语义相关性特征向量为(0,2,1,2,5,4)。
S170,对得到的文本片段内语义相关性特征向量和文本片段间语义相关性特征向量进行拼接,得到文本语义向量。
举例而言,假设文本片段内语义相关性特征向量为(1,2,3,4,5,6),文本片段间语义相关性特征向量为(0,2,1,2,5,4),则拼接得到的文本语义向量可以为(1,2,3,4,5,6,0,2,1,2,5,4)。
在本实施例中,由于文本片段内语义相关性特征向量表征文本片段内关键词间的语义相关性,文本片段间语义相关性特征向量表征文本片段间关键词间的语义相关性,因此得到的文本语义向量能够同时表征文本片段内关键词间的语义相关性和文本片段间关键词间的语义相关性。
S180,根据所述文本语义向量生成所述待处理文本的文本摘要。
具体地,可将文本语义向量以及经过预设文本词向量化算法训练后得到的词语向量矩阵作为输入,输入至预设的循环神经网络,计算词语向量矩阵中各个词语向量的概率;并将最大概率对应的词语向量对应的词语作为要生成的文本摘要中的词语,以生成待处理文本的文本摘要。根据文本语义向量生成待处理文本的文本摘要的具体过程可参照后述的步骤I1~步骤I2。
本发明实施例提供的基于语义相关性的文本摘要自动生成方法,分别采用预先训练的水平卷积核和垂直卷积核计算文本片段内语义相关性特征向量和文本片段间语义相关性特征向量,文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性,根据文本片段内语义相关性特征向量和文本片段间语义相关性特征向量得到的文本语义向量,进而生成文本摘要。由于最终获得的文本语义向量能够同时表征文本片段内关键词间的语义相关性和文本片段间的关键词间的语义相关性,因此,根据文本语义向量计算得到的文本摘要,能够表征文本中的文本片段内语义相关性和文本片段间语义相关性,从而能够更准确的表征文本的语义含义。
图2为图1所述实施例中至少一个水平卷积核和至少一个垂直卷积核的训练过程的流程图,该过程包括如下步骤S210~步骤S2150:
S210,获取第二类样本文本。
S220,将所述第二类样本文本划分为第二类文本片段。
S230,获取每个第二类文本片段中第二预设数量的关键词。
S240,从预先构建的词语向量库中,查找每个第二类文本片段的每个关键词对应的词语向量并作为第二类关键词向量。
S250,以第二类文本片段数量为行数、以所述第二预设数量为列数,将得到的第二类关键词向量构建为第二类关键词向量矩阵。
在本实施例中,第二类样本文本为用于训练至少一个水平卷积核和至少一个垂直卷积核的样本文本。第二类样本文本可以为句子、段落、文章或书等。例如,第二类样本文本可以为古诗《静夜思》中的诗句“床前明月光,疑是地上霜。举头望明月,低头思故乡。”步骤S210~步骤S250的具体内容可参见上述步骤S110~S150中的内容,此处不再赘述。
S260,将预先设置的至少一个初始水平卷积核确定为至少一个当前水平卷积核,将预先设置的至少一个初始垂直卷积核确定为至少一个当前垂直卷积核。
具体地,在训练至少一个水平卷积核和至少一个垂直卷积核之前,需要分别预先设置至少一个初始水平卷积核和至少一个初始垂直卷积核,并将至少一个初始水平卷积核确定为至少一个当前水平卷积核,将至少一个初始垂直卷积核确定为至少一个当前垂直卷积核,然后利用后续的循环迭代过程对至少一个当前水平卷积核和至少一个当前垂直卷积核进行更新,最终得到训练后的至少一个水平卷积核和至少一个垂直卷积核。
在本实施例中,至少一个初始水平卷积核和至少一个初始垂直卷积核可以均为固定设置的,也可以均为在循环迭代之前随机生成的。例如,某一初始水平卷积核可以为某一初始垂直卷积核可以为
S270,根据所述至少一个当前水平卷积核,计算所述关键词向量矩阵的第二类文本片段内语义相关性特征向量;根据所述至少一个当前垂直卷积核,计算所述关键词向量矩阵的第二类文本片段间语义相关性特征向量;
S280,对得到的第二类文本片段内语义相关性特征向量和第二类文本片段间语义相关性特征向量进行拼接,得到第二类文本语义向量;
S290,根据所述第二类文本语义向量生成所述第二类样本文本的当前文本摘要。
具体地,步骤S270~步骤S290的具体内容可参照上述步骤S160~步骤S180的内容,此处不再赘述。
S2100,将所述当前文本摘要与所述第二类样本文本的标准文本摘要进行比较,得到第二类比较结果。
在本实施例中,第二类样本文本的标准文本摘要是指:为第二类样本文本预先设定的完全准确的文本摘要。例如,第二类样本文本“床前明月光,疑是地上霜。举头望明月,低头思故乡。”的标准文本摘要为“静夜思”。
具体地,在每次循环迭代之后,将所生成的当前文本摘要与标准文本摘要进行比较。具体的比较过程可以为:将当前文本摘要对应的词语向量和标准文本摘要对应的词语向量进行求差运算,将得到的结果确定为第二类比较结果。
S2110,判断所述第二类比较结果是否小于预设差距阈值;如果否,执行步骤S2120;如果是,执行步骤S2130。
S2120,根据所述第二类比较结果对所述至少一个当前水平卷积核进行修正,将修正后的至少一个当前水平卷积核作为至少一个当前水平卷积核;根据所述第二类比较结果对所述至少一个当前垂直卷积核进行修正,将修正后的至少一个当前垂直卷积核作为至少一个当前垂直卷积核,执行所述根据所述至少一个当前水平卷积核,计算所述关键词向量矩阵的第二类文本片段内语义相关性特征向量;根据所述至少一个当前垂直卷积核,计算所述关键词向量矩阵的第二类文本片段间语义相关性特征向量的步骤。
S2130,输出所述至少一个当前水平卷积核和所述至少一个当前垂直卷积核。
具体地,预设差距阈值为用于判定第二类比较结果是否收敛的标准。当第二类比较结果小于预设差距阈值,说明此时第二类比较结果收敛,则输出至少一个当前水平卷积核和至少一个当前垂直卷积核。当第二类比较结果不小于预设差距阈值,说明此时第二类比较结果没有收敛,则根据第二类比较结果对至少一个当前水平卷积核进行修正,将修正后的至少一个当前水平卷积核作为至少一个当前水平卷积核;根据第二类比较结果对至少一个当前垂直卷积核进行修正,将修正后的至少一个当前垂直卷积核作为至少一个当前垂直卷积核,返回到步骤S270,再次进入循环迭代过程,直至第二类比较结果收敛为止。
在本实施例中,预设差距阈值可以固定设置,例如,预设差距阈值可为0.01。
在本实施例中,根据第二类样本文本得到第二类关键词向量矩阵,将至少一个初始水平卷积核和至少一个初始垂直卷积核作用在第二类关键词向量矩阵上,生成文本摘要,并将生成的文本摘要与标准文本摘要进行比较得到比较结果,根据比较结果反复修正至少一个水平卷积核和至少一个垂直卷积核,达到训练至少一个水平卷积核和至少一个垂直卷积核的目的,使最终得到的至少一个水平卷积核能够捕捉文本片段内的关键词间的语义相关性,使最终得到的至少一个垂直卷积核能够捕捉文本片段间的关键词间的语义相关性。
需要说明的是,至少一个水平卷积核和至少一个垂直卷积核的训练过程就是对最大化训练集D={(X(1),y(1)),(X(2),y(2)),…,(X(T),y(T))}的整体求对数似然概率,可以表示为:
其中,X表示第二类样本文本,y表示第二类样本文本对应的标准文本摘要,θ是需要通过训练来优化的模型参数。
进一步地,
p(yj|X,y1:j-1;θ)=p(yj|c,y1:j-1;θ)。
其中,K是文本摘要中词语的数量,。
至少一个水平卷积核和至少一个垂直卷积核在训练过程中,就是完成计算概率p(yj|c,y1:j-1;θ),并一步一步来最大化训练集上的整体对数似然概率。训练完成后,根据最终得到的至少一个水平卷积核和至少一个垂直卷积核能够生成符合输入文本内容的可能性最大的题目:
另外,在所有的词语的各种可能的组合中发现最有可能的题目是不现实的,因此,本实施例中可以采用现有的束搜索的方法,束搜索在每一步只保留一小部分可能性较大的组合,并在最后一步选出可能性最大的组合作为最终生成的题目。
在本发明实施例提供的一种具体实现方式中,根据任一水平卷积核计算所述关键词向量矩阵的第一类文本片段内语义相关性特征向量的步骤,包括如下步骤E1~步骤E2:
E1、利用所述任一水平卷积核,计算所述关键词向量矩阵中的各个行的最大文本片段内语义相关性特征值。
具体地,以某一水平卷积核为例,将该水平卷积核分别作用在所述关键词向量矩阵中的各个行,得到每个行对应的最大文本片段内语义相关性特征值。
在本发明实施例提供的一种具体实现方式中,利用所述任一水平卷积核,计算所述关键词向量矩阵中任一行的最大文本片段内语义相关性特征值的步骤,包括如下步骤G1~步骤G2:
G1、通过公式计算第一类文本片段内语义相关性特征值;所述第一类文本片段内语义相关性特征值为:所述关键词向量矩阵中的第i行第j列关键词向量与第i行第j+1列关键词向量间的文本片段内语义相关性特征值。
具体地,假设将文本划分成m个文本片段,针对每个文本片段获得n个关键词,则得到的关键词向量矩阵可以表示为并通过公式计算第一类文本片段内语义相关性特征值。
其中, 为所述关键词向量矩阵中的第i行第j列的关键词向量。Xi,j:j+1是由关键词向量矩阵中的第i行第j列的关键词向量和第i行第j+1列的关键词向量组成,用于表征这两个关键词向量分别对应的关键词之间具有密不可分的语义相关性。例如,古诗《静夜思》中第一句“床前明月光”中的第四个关键词“月”和第五个关键词“光”之间具有密不可分的语义相关性。
Wh为所述任一水平卷积核,m为所述文本片段数量,n为所述预设数量,为所述关键词向量矩阵中的第i行第j列关键词向量与第i行第j+1列关键词向量间的文本片段内语义相关性特征值,f为第一类非线性函数,a1为所述任一水平卷积核的高度(水平卷积核的高度可以为1),b1为所述任一水平卷积核的宽度(水平卷积核的宽度可以为2k,k为词语向量的维度),p1、q1均为求和变量,⊙为点乘运算,bh为水平偏置项。
在本实施例中,所述第一类文本片段内语义相关性特征值为:所述关键词向量矩阵中的第i行第j列关键词向量与第i行第j+1列关键词向量间的文本片段内语义相关性特征值。
具体地,水平卷积核能够作用于每行内两个相邻关键词向量,能够捕捉文本片段内关键词间的语义相关性。举例而言,假设每一段中有4个关键词,水平卷积核作用于该段对应的行中第1个关键词向量和第2个关键词向量,得到第1个第一类文本片段内语义相关性特征值;水平卷积核作用于该段对应的行中第2个关键词向量和第3个关键词向量,得到第2个第一类文本片段内语义相关性特征值;水平卷积核作用于该段对应的行中第3个关键词向量和第4个关键词向量,得到第3个第一类文本片段内语义相关性特征值。本实施例中,可以采用遍历算法,使水平卷积核逐个的作用于关键词向量矩阵的每一行中每相邻两个关键词向量进行卷积操作,避免卷积操作的缺失。
由此可知,当水平卷积核作用于X的第i行进行卷积操作,得到第i行对应的所有第一类文本片段内语义相关性特征值可以表示为:
G2、将第i行对应的所有第一类文本片段内语义相关性特征值中的最大值,确定为第i行的最大文本片段内语义相关性特征值。
具体地,将中的最大值确定为第i行的最大文本片段内语义相关性特征值。
需要说明的是,如果将文本划分成m个文本片段,则一个水平卷积作用到关键词向量矩阵上,将得到m个最大文本片段内语义相关性特征值。
E2、将得到的所有最大文本片段内语义相关性特征值进行拼接,得到所述任一水平卷积核对应的第一类文本片段内语义相关性特征向量。
举例而言,如果根据某一水平卷积核得到的所有最大文本片段内语义相关性特征值分别为1、3、5和6,则经过拼接得到的该水平卷积核对应的第一类文本片段内语义相关性特征向量为(1,3,5,6)。
在本发明实施例提供的一种具体实现方式中,所述根据任一垂直卷积核计算所述关键词向量矩阵的第一类文本片段间语义相关性特征向量的步骤,包括如下步骤F1~步骤F2:
F1、利用所述任一垂直卷积核,计算所述关键词向量矩阵中的各个列的最大文本片段间语义相关性特征值;
具体地,以某一垂直卷积核为例,将该垂直卷积核分别作用在所述关键词向量矩阵中的各个列,得到每个列对应的最大文本片段间语义相关性特征值。
在本发明实施例提供的一种具体实现方式中,利用所述任一垂直卷积核,计算所述关键词向量矩阵中的任一列的最大文本片段间语义相关性特征值的步骤,包括如下步骤H1~步骤H2:
H1、通过公式计算第一类文本片段间语义相关性特征值;所述第一类文本片段间语义相关性特征值为:所述关键词向量矩阵中第i行第j列关键词向量与第i+1行第j列关键词向量间的文本片段间语义相关性特征值。
具体地,假设将文本划分成m个文本片段,针对每个文本片段获得n个关键词,则得到的关键词向量矩阵可以表示为并通过公式计算第一类文本片段间语义相关性特征值。
其中, 为所述关键词向量矩阵中的第i行第j列关键词向量,Xi:i+1,j是由关键词向量矩阵中的第i行第j列的关键词向量和第i+1行第j列的关键词向量组成,用于表征这两个关键词向量分别对应的关键词之间具有密不可分的语义相关性。例如,古诗《静夜思》中第三句“举头望明月”中的第一个关键词“举”和第四句“低头思故乡”的第一个关键词“低”,“举”和“低”虽然出现在不同的诗句中,但二者在语义含义上也具有密不可分的语义相关性。
Wv为所述任一垂直卷积核,m为所述文本片段数量,n为所述预设数量,为所述关键词向量矩阵中的第i行第j列关键词向量与第i+1行第j列关键词向量间的文本片段间语义相关性特征值;f为第一类非线性函数,a2为所述任一垂直卷积核的高度(垂直卷积核的高度可以为2),b2为所述任一垂直卷积核的宽度(垂直卷积核的宽度可以为k,k为词语向量的维度),p2、q2均为求和变量,⊙为点乘运算,bv为垂直偏置项。
在本实施例中,所述第一类文本片段间语义相关性特征值为:所述关键词向量矩阵中第i行第j列关键词向量与第i+1行第j列关键词向量间的文本片段间语义相关性特征值。
具体地,垂直卷积核能够作用于相邻两行内相同位置的关键词向量,能够捕捉文本片段间关键词间的语义相关性。举例而言,假设将文本划分成4个文本片段,垂直卷积核作用于第1个文本片段对应的行中第1个关键词向量和第2个文本片段对应的行中第1个关键词向量,得到第1个第一类文本片段间语义相关性特征值;垂直卷积核作用于第2个文本片段对应的行中第1个关键词向量和第3个文本片段对应的行中第1个关键词向量,得到第2个第一类文本片段间语义相关性特征值;垂直卷积核作用于第3个文本片段对应的行中第1个关键词向量和第4个文本片段对应的行中第1个关键词向量,得到第3个第一类文本片段间语义相关性特征值。本实施例中,可以采用遍历算法,使垂直卷积核逐个的作用于关键词向量矩阵的每一列中每相邻两个关键词向量进行卷积操作,避免卷积操作的缺失。
由此可知,当垂直卷积核作用于X的第j列进行卷积操作时,得到第j列对应的所有第一类文本片段间语义相关性特征值可以表示为:
H2、将第j列行对应的所有第一类文本片段内语义相关性特征值中的最大值,确定为第j列的最大文本片段内语义相关性特征值;
具体地,将中的最大值确定为第j列的最大文本片段间语义相关性特征值。
需要说明的是,如果针对每个文本片段中获取n个关键词,则一个垂直卷积作用于关键词向量矩阵上,将得到n个最大文本片段间语义相关性特征值。
F2、将得到的所有最大文本片段间语义相关性特征值进行拼接,得到所述任一垂直卷积核对应的第一类文本片段间语义相关性特征向量。
举例而言,如果根据某一垂直卷积核得到的所有最大文本片段间语义相关性特征值分别为1、2和4,则经过拼接得到的该垂直卷积核对应的第一类文本片段间语义相关性特征向量为(1,2,4)。
需要说明的是,在计算最终得到的文本语义向量时,得到的文本语义向量需要为k维向量,即文本语义向量的维度与词语向量的维度相同。因此,需要确定合适的水平卷积核和垂直卷积核的数量。例如,假设水平卷积核的数量为P,垂直卷积核的数量为Q,文本片段的数量为m,每一段的关键词数量为n,则需要满足约束条件P*m+Q*n=k,同时,尽可能的保证P≈Q。
在本发明实施例提供的一种具体实现方式中,所述根据所述文本语义向量生成所述待处理文本的文本摘要的步骤,包括如下步骤I1~步骤I2:
I1、以所述文本语义向量以及经过预设文本词向量化算法训练后得到的词语向量矩阵作为输入,输入至预设的循环神经网络,计算所述词语向量矩阵中各个词语向量的概率。
在本实施例中,步骤I1可包括:通过如下公式,计算所述词语向量矩阵中各个词语向量的概率:
h(t)=s(Qc,Wh(t-1),UEo(t-1))
o(t)=g(Hh(t)+VEo(t-1))
其中,c为所述文本语义向量,Q,U,W分别为循环神经网络算法中从输入层到隐藏层的第一类权重矩阵、第二类权重矩阵和第三类权重矩阵,E为经过预设文本词向量化算法训练后得到的词语向量矩阵(该词语向量矩阵可以认为是包含了所有词语对应的词语向量的数据库),s为第二类非线性函数,g为第三类非线性函数,V,H分别为循环神经网络算法中从隐藏层到输出层的第一类权重矩阵和第二类权重矩阵,h(t)为在循环神经网络算法中第t步隐藏层的输出,o(t)为在循环神经网络算法中第t步输出层的输出,o(t)中的元素用于表征所述词语向量矩阵中各个词语向量的概率。
其中,在循环神经网络运行的第t步,隐藏层的第j个门控循环单元的输出的公式可以表示为:
zj=σ([Wzh(t-1)]j+[UzEo(t-1)]j+[Qzc]j)
rj=σ([Wrh(t-1)]j+[UrEo(t-1)]j+[Qrc]j)
其中,Qz,Qr,Uz,Ur,Wz,Wr均是门控循环单元的权重矩阵,σ(·)为sigmoid函数。在本实施例中,g采用softmax函数,可以表示为由该函数可知,softmax函数是对原本的输出层的输出向量中的每个值进行了归一化。
I2、将最大概率对应的词语向量对应的词语作为要生成的文本摘要中的词语,以生成所述待处理文本的文本摘要。
具体地,在第一步输出层输出的o(t)中查找最大概率,将该最大概率对应词语向量对应的词语作为文本摘要中的词语;在下一步输出层输出的o(t)中查找最大概率,将该最大概率对应词语向量对应的词语再次作为文本摘要中的词语,以此方式,将每步得到的词语进行组合,得到待处理文本的文本摘要。
与上述方法实施例相对应的,本发明实施例还提供了一种基于语义相关性的文本摘要自动生成装置。图3为本发明实施例提供的基于语义相关性的文本摘要自动生成装置的一种结构示意图,所述装置包括:
第一获取模块310,用于获取待处理文本;
划分模块320,用于将所述待处理文本划分为文本片段;
第二获取模块330,用于获取每个文本片段中预设数量的关键词;
查找模块340,用于从预先构建的词语向量库中,查找每个文本片段的每个关键词对应的词语向量并作为关键词向量;
构建模块350,用于以文本片段数量为行数、以所述预设数量为列数,将得到的关键词向量构建为关键词向量矩阵;
计算模块360,用于根据预先训练的至少一个水平卷积核计算所述关键词向量矩阵的文本片段内语义相关性特征向量;根据预先训练的至少一个垂直卷积核计算所述关键词向量矩阵的文本片段间语义相关性特征向量;其中,所述文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,所述文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性;
拼接模块370,用于对得到的文本片段内语义相关性特征向量和文本片段间语义相关性特征向量进行拼接,得到文本语义向量;
生成模块380,用于根据所述文本语义向量生成所述待处理文本的文本摘要。
本发明实施例提供的基于语义相关性的文本摘要自动生成装置,分别采用预先训练的水平卷积核和垂直卷积核计算文本片段内语义相关性特征向量和文本片段间语义相关性特征向量,文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性,根据文本片段内语义相关性特征向量和文本片段间语义相关性特征向量得到的文本语义向量,进而生成文本摘要。由于最终获得的文本语义向量能够同时表征文本片段内关键词间的语义相关性和文本片段间的关键词间的语义相关性,因此,根据文本语义向量计算得到的文本摘要,能够表征文本中的文本片段内语义相关性和文本片段间语义相关性,从而能够更准确的表征文本的语义含义。
在本发明实施例提供的一种具体实现方式中,所述装置还包括:训练模块,用于训练所述至少一个水平卷积核和所述至少一个垂直卷积核。图4为本发明实施例提供的基于语义相关性的文本摘要自动生成装置的另一种结构中训练模块的结构示意图,所述训练模块,包括:
第一获取子模块410,用于获取第二类样本文本;
划分子模块420,用于将所述第二类样本文本划分为第二类文本片段;
第二获取子模块430,用于获取每个第二类文本片段中第二预设数量的关键词;
查找子模块440,用于从预先构建的词语向量库中,查找每个第二类文本片段的每个关键词对应的词语向量并作为第二类关键词向量;
构建子模块450,用于以第二类文本片段数量为行数、以所述第二预设数量为列数,将得到的第二类关键词向量构建为第二类关键词向量矩阵;
确定子模块460,用于将预先设置的至少一个初始水平卷积核确定为至少一个当前水平卷积核,将预先设置的至少一个初始垂直卷积核确定为至少一个当前垂直卷积核;
第一计算子模块470,用于根据所述至少一个当前水平卷积核,计算所述关键词向量矩阵的第二类文本片段内语义相关性特征向量;根据所述至少一个当前垂直卷积核,计算所述关键词向量矩阵的第二类文本片段间语义相关性特征向量;
拼接子模块480,用于对得到的第二类文本片段内语义相关性特征向量和第二类文本片段间语义相关性特征向量进行拼接,得到第二类文本语义向量;
第一生成子模块490,用于根据所述第二类文本语义向量生成所述第二类样本文本的当前文本摘要;
比较子模块4100,用于将所述当前文本摘要与所述第二类样本文本的标准文本摘要进行比较,得到第二类比较结果;
判断子模块4110,用于判断所述第二类比较结果是否小于预设差距阈值;
修正子模块4120,用于当所述判断子模块4110的判断结果为否时,根据所述第二类比较结果对所述至少一个当前水平卷积核进行修正,将修正后的至少一个当前水平卷积核作为至少一个当前水平卷积核;根据所述第二类比较结果对所述至少一个当前垂直卷积核进行修正,将修正后的至少一个当前垂直卷积核作为至少一个当前垂直卷积核,触发所述第一计算子模块470;
输出子模块4130,用于当所述判断子模块4110的判断结果为是时,输出所述至少一个当前水平卷积核和所述至少一个当前垂直卷积核。
在本实施例中,根据第二类样本文本得到第二类关键词向量矩阵,将至少一个初始水平卷积核和至少一个初始垂直卷积核作用在第二类关键词向量矩阵上,生成文本摘要,并将生成的文本摘要与标准文本摘要进行比较得到比较结果,根据比较结果反复修正至少一个水平卷积核和至少一个垂直卷积核,达到训练至少一个水平卷积核和至少一个垂直卷积核的目的,使最终得到的至少一个水平卷积核能够捕捉文本片段内的关键词间的语义相关性,使最终得到的至少一个垂直卷积核能够捕捉文本片段间的关键词间的语义相关性。
在本发明实施例提供的一种具体实现方式中,所述第一计算子模块,包括:
第一计算单元,用于分别根据每个水平卷积核计算所述关键词向量矩阵的第一类文本片段内语义相关性特征向量;
第一拼接单元,用于将得到的所有第一类文本片段内语义相关性特征向量进行拼接,得到所述文本片段内语义相关性特征向量。
在本发明实施例提供的一种具体实现方式中,所述第一计算单元,包括:
第一计算子单元,用于利用所述任一水平卷积核,计算所述关键词向量矩阵中的各个行的最大文本片段内语义相关性特征值;
第一拼接子单元,用于将得到的所有最大文本片段内语义相关性特征值进行拼接,得到所述任一水平卷积核对应的第一类文本片段内语义相关性特征向量;
其中,所述第一计算子单元,具体用于
通过公式计算第一类文本片段内语义相关性特征值;所述第一类文本片段内语义相关性特征值为:所述关键词向量矩阵中的第i行第j列关键词向量与第i行第j+1列关键词向量间的文本片段内语义相关性特征值;将第i行对应的所有第一类文本片段内语义相关性特征值中的最大值,确定为第i行的最大文本片段内语义相关性特征值;
其中,为关键词向量矩阵,
Wh为所述任一水平卷积核,m为所述文本片段数量,n为所述预设数量,为所述关键词向量矩阵中的第i行第j列的关键词向量,为所述关键词向量矩阵中的第i行第j列关键词向量与第i行第j+1列关键词向量间的文本片段内语义相关性特征值,f为第一类非线性函数,a1为所述任一水平卷积核的高度,b1为所述任一水平卷积核的宽度,p1、q1均为求和变量,⊙为点乘运算,bh为水平偏置项。
在本发明实施例提供的一种具体实现方式中,所述第一计算子模块,包括:
第二计算单元,用于分别根据每个垂直卷积核计算所述关键词向量矩阵的第一类文本片段间语义相关性特征向量;
第二拼接单元,用于将得到的所有第一类文本片段间语义相关性特征向量进行拼接,得到所述文本片段间语义相关性特征向量。
在本发明实施例提供的一种具体实现方式中,所述第二计算单元,包括:
第二计算子单元,用于利用所述任一垂直卷积核,计算所述关键词向量矩阵中的各个列的最大文本片段间语义相关性特征值;
第二拼接子单元,用于将得到的所有最大文本片段间语义相关性特征值进行拼接,得到所述任一垂直卷积核对应的第一类文本片段间语义相关性特征向量;
其中,所述第二计算子单元,具体用于
通过公式计算第一类文本片段间语义相关性特征值;所述第一类文本片段间语义相关性特征值为:所述关键词向量矩阵中第i行第j列关键词向量与第i+1行第j列关键词向量间的文本片段间语义相关性特征值;将第j列行对应的所有第一类文本片段内语义相关性特征值中的最大值,确定为第j列的最大文本片段内语义相关性特征值;
其中,为关键词向量矩阵,
Wv为所述任一垂直卷积核,m为所述文本片段数量,n为所述预设数量,为所述关键词向量矩阵中的第i行第j列关键词向量,为所述关键词向量矩阵中的第i行第j列关键词向量与第i+1行第j列关键词向量间的文本片段间语义相关性特征值;f为第一类非线性函数,a2为所述任一垂直卷积核的高度,b2为所述任一垂直卷积核的宽度,p2、q2均为求和变量,⊙为点乘运算,bv为垂直偏置项。
在本发明实施例提供的一种具体实现方式中,所述生成模块,包括:
第二计算子模块,用于以所述文本语义向量以及经过预设文本词向量化算法训练后得到的词语向量矩阵作为输入,输入至预设的循环神经网络,计算所述词语向量矩阵中各个词语向量的概率;
第二生成子模块,用于将最大概率对应的词语向量对应的词语作为要生成的文本摘要中的词语,以生成所述待处理文本的文本摘要。
在本发明实施例提供的一种具体实现方式中,所述第二计算子模块,具体用于通过如下公式,计算所述词语向量矩阵中各个词语向量的概率:
h(t)=s(Qc,Wh(t-1),UEo(t-1))
o(t)=g(Hh(t)+VEo(t-1))
其中,c为所述文本语义向量,Q,U,W分别为循环神经网络算法中从输入层到隐藏层的第一类权重矩阵、第二类权重矩阵和第三类权重矩阵,E为经过预设文本词向量化算法训练后得到的词语向量矩阵,s为第二类非线性函数,g为第三类非线性函数,V,H分别为循环神经网络算法中从隐藏层到输出层的第一类权重矩阵和第二类权重矩阵,h(t)为在循环神经网络算法中第t步隐藏层的输出,o(t)为在循环神经网络算法中第t步输出层的输出,o(t)中的元素用于表征所述词语向量矩阵中各个词语向量的概率。
与上述方法实施例相对应的,本发明实施例还提供了一种电子设备。图5为本发明实施例提供的电子设备的结构示意图,所述电子设备包括:处理器510、通信接口520、存储器530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信,
存储器530,用于存放计算机程序;
处理器510,用于执行存储器530上所存放的程序时,实现本发明实施提供的基于语义相关性的文本摘要自动生成方法。
具体地,所述基于语义相关性的文本摘要自动生成方法,包括:
获取待处理文本;
将所述待处理文本划分为文本片段;
获取每个文本片段中预设数量的关键词;
从预先构建的词语向量库中,查找每个文本片段的每个关键词对应的词语向量并作为关键词向量;
以文本片段数量为行数、以所述预设数量为列数,将得到的关键词向量构建为关键词向量矩阵;
根据预先训练的至少一个水平卷积核计算所述关键词向量矩阵的文本片段内语义相关性特征向量;根据预先训练的至少一个垂直卷积核计算所述关键词向量矩阵的文本片段间语义相关性特征向量;其中,所述文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,所述文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性;
对得到的文本片段内语义相关性特征向量和文本片段间语义相关性特征向量进行拼接,得到文本语义向量;
根据所述文本语义向量生成所述待处理文本的文本摘要。
本发明实施例提供的电子设备,分别采用预先训练的水平卷积核和垂直卷积核计算文本片段内语义相关性特征向量和文本片段间语义相关性特征向量,文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性,根据文本片段内语义相关性特征向量和文本片段间语义相关性特征向量得到的文本语义向量,进而生成文本摘要。由于最终获得的文本语义向量能够同时表征文本片段内关键词间的语义相关性和文本片段间的关键词间的语义相关性,因此,根据文本语义向量计算得到的文本摘要,能够表征文本中的文本片段内语义相关性和文本片段间语义相关性,从而能够更准确的表征文本的语义含义。
上述基于语义相关性的文本摘要自动生成方法的其他实现方式与前述方法实施例部分提供的基于语义相关性的文本摘要自动生成方法相同,这里不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于语义相关性的文本摘要自动生成方法,其特征在于,所述方法包括:
获取待处理文本;
将所述待处理文本划分为文本片段;
获取每个文本片段中预设数量的关键词;
从预先构建的词语向量库中,查找每个文本片段的每个关键词对应的词语向量并作为关键词向量;
以文本片段数量为行数、以所述预设数量为列数,将得到的关键词向量构建为关键词向量矩阵;
根据预先训练的至少一个水平卷积核计算所述关键词向量矩阵的文本片段内语义相关性特征向量;根据预先训练的至少一个垂直卷积核计算所述关键词向量矩阵的文本片段间语义相关性特征向量;其中,所述文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,所述文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性;
对得到的文本片段内语义相关性特征向量和文本片段间语义相关性特征向量进行拼接,得到文本语义向量;
根据所述文本语义向量生成所述待处理文本的文本摘要。
2.根据权利要求1所述的方法,其特征在于,所述训练所述至少一个水平卷积核的过程和所述训练所述至少一个垂直卷积核的过程均为如下过程:
获取第二类样本文本;
将所述第二类样本文本划分为第二类文本片段;
获取每个第二类文本片段中第二预设数量的关键词;
从预先构建的词语向量库中,查找每个第二类文本片段的每个关键词对应的词语向量并作为第二类关键词向量;
以第二类文本片段数量为行数、以所述第二预设数量为列数,将得到的第二类关键词向量构建为第二类关键词向量矩阵;
将预先设置的至少一个初始水平卷积核确定为至少一个当前水平卷积核,将预先设置的至少一个初始垂直卷积核确定为至少一个当前垂直卷积核;
根据所述至少一个当前水平卷积核,计算所述关键词向量矩阵的第二类文本片段内语义相关性特征向量;根据所述至少一个当前垂直卷积核,计算所述关键词向量矩阵的第二类文本片段间语义相关性特征向量;
对得到的第二类文本片段内语义相关性特征向量和第二类文本片段间语义相关性特征向量进行拼接,得到第二类文本语义向量;
根据所述第二类文本语义向量生成所述第二类样本文本的当前文本摘要;
将所述当前文本摘要与所述第二类样本文本的标准文本摘要进行比较,得到第二类比较结果;
判断所述第二类比较结果是否小于预设差距阈值;
如果否,根据所述第二类比较结果对所述至少一个当前水平卷积核进行修正,将修正后的至少一个当前水平卷积核作为至少一个当前水平卷积核;根据所述第二类比较结果对所述至少一个当前垂直卷积核进行修正,将修正后的至少一个当前垂直卷积核作为至少一个当前垂直卷积核,执行所述根据所述至少一个当前水平卷积核,计算所述关键词向量矩阵的第二类文本片段内语义相关性特征向量;根据所述至少一个当前垂直卷积核,计算所述关键词向量矩阵的第二类文本片段间语义相关性特征向量的步骤;
如果是,输出所述至少一个当前水平卷积核和所述至少一个当前垂直卷积核。
3.根据权利要求1所述的方法,其特征在于,所述根据预先训练的至少一个水平卷积核计算所述关键词向量矩阵的文本片段内语义相关性特征向量的步骤,包括:
分别根据每个水平卷积核计算所述关键词向量矩阵的第一类文本片段内语义相关性特征向量;
将得到的所有第一类文本片段内语义相关性特征向量进行拼接,得到所述文本片段内语义相关性特征向量。
4.根据权利要求3所述的方法,其特征在于,根据任一水平卷积核计算所述关键词向量矩阵的第一类文本片段内语义相关性特征向量的步骤,包括:
利用所述任一水平卷积核,计算所述关键词向量矩阵中的各个行的最大文本片段内语义相关性特征值;
将得到的所有最大文本片段内语义相关性特征值进行拼接,得到所述任一水平卷积核对应的第一类文本片段内语义相关性特征向量;
其中,利用所述任一水平卷积核,计算所述关键词向量矩阵中任一行的最大文本片段内语义相关性特征值的步骤,包括:
通过公式计算第一类文本片段内语义相关性特征值;所述第一类文本片段内语义相关性特征值为:所述关键词向量矩阵中的第i行第j列关键词向量与第i行第j+1列关键词向量间的文本片段内语义相关性特征值;
将第i行对应的所有第一类文本片段内语义相关性特征值中的最大值,确定为第i行的最大文本片段内语义相关性特征值;
其中,为关键词向量矩阵,Wh为所述任一水平卷积核,m为所述文本片段数量,n为所述预设数量,为所述关键词向量矩阵中的第i行第j列的关键词向量,为所述关键词向量矩阵中的第i行第j列关键词向量与第i行第j+1列关键词向量间的文本片段内语义相关性特征值,f为第一类非线性函数,a1为所述任一水平卷积核的高度,b1为所述任一水平卷积核的宽度,p1、q1均为求和变量,⊙为点乘运算,bh为水平偏置项。
5.根据权利要求1所述的方法,其特征在于,所述根据预先训练的至少一个垂直卷积核计算所述关键词向量矩阵的文本片段间语义相关性特征向量的步骤,包括:
分别根据每个垂直卷积核计算所述关键词向量矩阵的第一类文本片段间语义相关性特征向量;
将得到的所有第一类文本片段间语义相关性特征向量进行拼接,得到所述文本片段间语义相关性特征向量。
6.根据权利要求5所述的方法,其特征在于,所述根据任一垂直卷积核计算所述关键词向量矩阵的第一类文本片段间语义相关性特征向量的步骤,包括:
利用所述任一垂直卷积核,计算所述关键词向量矩阵中的各个列的最大文本片段间语义相关性特征值;
将得到的所有最大文本片段间语义相关性特征值进行拼接,得到所述任一垂直卷积核对应的第一类文本片段间语义相关性特征向量;
其中,利用所述任一垂直卷积核,计算所述关键词向量矩阵中的任一列的最大文本片段间语义相关性特征值的步骤,包括:
通过公式计算第一类文本片段间语义相关性特征值;所述第一类文本片段间语义相关性特征值为:所述关键词向量矩阵中第i行第j列关键词向量与第i+1行第j列关键词向量间的文本片段间语义相关性特征值;
将第j列行对应的所有第一类文本片段内语义相关性特征值中的最大值,确定为第j列的最大文本片段内语义相关性特征值;
其中,为关键词向量矩阵,
Wv为所述任一垂直卷积核,m为所述文本片段数量,n为所述预设数量,为所述关键词向量矩阵中的第i行第j列关键词向量,为所述关键词向量矩阵中的第i行第j列关键词向量与第i+1行第j列关键词向量间的文本片段间语义相关性特征值;f为第一类非线性函数,a2为所述任一垂直卷积核的高度,b2为所述任一垂直卷积核的宽度,p2、q2均为求和变量,⊙为点乘运算,bv为垂直偏置项。
7.根据权利要求1所述的方法,其特征在于,所述根据所述文本语义向量生成所述待处理文本的文本摘要的步骤,包括:
以所述文本语义向量以及经过预设文本词向量化算法训练后得到的词语向量矩阵作为输入,输入至预设的循环神经网络,计算所述词语向量矩阵中各个词语向量的概率;
将最大概率对应的词语向量对应的词语作为要生成的文本摘要中的词语,以生成所述待处理文本的文本摘要。
8.根据权利要求7所述的方法,其特征在于,所述以所述文本语义向量以及经过预设文本词向量化算法训练后得到的词语向量矩阵作为输入,采用循环神经网络算法,计算所述词语向量矩阵中各个词语向量的概率的步骤,包括:
通过如下公式,计算所述词语向量矩阵中各个词语向量的概率:
h(t)=s(Qc,Wh(t-1),UEo(t-1))
o(t)=g(Hh(t)+VEo(t-1))
其中,c为所述文本语义向量,Q,U,W分别为循环神经网络算法中从输入层到隐藏层的第一类权重矩阵、第二类权重矩阵和第三类权重矩阵,E为经过预设文本词向量化算法训练后得到的词语向量矩阵,s为第二类非线性函数,g为第三类非线性函数,V,H分别为循环神经网络算法中从隐藏层到输出层的第一类权重矩阵和第二类权重矩阵,h(t)为在循环神经网络算法中第t步隐藏层的输出,o(t)为在循环神经网络算法中第t步输出层的输出,o(t)中的元素用于表征所述词语向量矩阵中各个词语向量的概率。
9.一种基于语义相关性的文本摘要自动生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理文本;
划分模块,用于将所述待处理文本划分为文本片段;
第二获取模块,用于获取每个文本片段中预设数量的关键词;
查找模块,用于从预先构建的词语向量库中,查找每个文本片段的每个关键词对应的词语向量并作为关键词向量;
构建模块,用于以文本片段数量为行数、以所述预设数量为列数,将得到的关键词向量构建为关键词向量矩阵;
计算模块,用于根据预先训练的至少一个水平卷积核计算所述关键词向量矩阵的文本片段内语义相关性特征向量;根据预先训练的至少一个垂直卷积核计算所述关键词向量矩阵的文本片段间语义相关性特征向量;其中,所述文本片段内语义相关性特征向量用于表征文本片段内关键词间的语义相关性,所述文本片段间语义相关性特征向量用于表征文本片段间的关键词间的语义相关性;
拼接模块,用于对得到的文本片段内语义相关性特征向量和文本片段间语义相关性特征向量进行拼接,得到文本语义向量;
生成模块,用于根据所述文本语义向量生成所述待处理文本的文本摘要。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
CN201710682230.4A 2017-08-10 2017-08-10 基于语义相关性的文本摘要自动生成方法及装置 Pending CN107491434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710682230.4A CN107491434A (zh) 2017-08-10 2017-08-10 基于语义相关性的文本摘要自动生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710682230.4A CN107491434A (zh) 2017-08-10 2017-08-10 基于语义相关性的文本摘要自动生成方法及装置

Publications (1)

Publication Number Publication Date
CN107491434A true CN107491434A (zh) 2017-12-19

Family

ID=60645183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710682230.4A Pending CN107491434A (zh) 2017-08-10 2017-08-10 基于语义相关性的文本摘要自动生成方法及装置

Country Status (1)

Country Link
CN (1) CN107491434A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108810446A (zh) * 2018-06-07 2018-11-13 北京智能管家科技有限公司 一种视频会议的标签生成方法、装置、设备和介质
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109657231A (zh) * 2018-11-09 2019-04-19 广东电网有限责任公司 一种长短信精简方法及系统
CN111460096A (zh) * 2020-03-26 2020-07-28 北京金山安全软件有限公司 一种碎片文本的处理方法、装置及电子设备
CN111832275A (zh) * 2020-09-21 2020-10-27 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质
CN112232089A (zh) * 2020-12-15 2021-01-15 北京百度网讯科技有限公司 语义表示模型的预训练方法、设备和存储介质
CN112307199A (zh) * 2019-07-14 2021-02-02 阿里巴巴集团控股有限公司 信息识别、数据处理方法、装置及设备、信息交互方法
US11373069B2 (en) 2020-03-20 2022-06-28 General Electric Company Analogy engine for grounding and situational awareness
US11442975B2 (en) 2019-06-04 2022-09-13 Wipro Limited System and method for generating abstractive summary

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成系统及方法
CN106506327A (zh) * 2016-10-11 2017-03-15 东软集团股份有限公司 一种垃圾邮件识别方法及装置
CN106897268A (zh) * 2017-02-28 2017-06-27 科大讯飞股份有限公司 文本语义理解方法、装置和系统
US20170192956A1 (en) * 2015-12-31 2017-07-06 Google Inc. Generating parse trees of text segments using neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成系统及方法
US20170192956A1 (en) * 2015-12-31 2017-07-06 Google Inc. Generating parse trees of text segments using neural networks
CN106506327A (zh) * 2016-10-11 2017-03-15 东软集团股份有限公司 一种垃圾邮件识别方法及装置
CN106897268A (zh) * 2017-02-28 2017-06-27 科大讯飞股份有限公司 文本语义理解方法、装置和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Z LI, K NIU AND Z Q HE: "Generating Poetry Title Based on Semantic Relevance with Convolutional Neural Network", 《2ND INTERNATIONAL CONFERENCE ON AUTOMATION, CONTROL AND ROBOTICS ENGINEERING (CACRE 2017)》 *
户保田: "基于深度神经网络的文本表示及其应用", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108810446A (zh) * 2018-06-07 2018-11-13 北京智能管家科技有限公司 一种视频会议的标签生成方法、装置、设备和介质
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109101489B (zh) * 2018-07-18 2022-05-20 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109657231A (zh) * 2018-11-09 2019-04-19 广东电网有限责任公司 一种长短信精简方法及系统
US11442975B2 (en) 2019-06-04 2022-09-13 Wipro Limited System and method for generating abstractive summary
CN112307199A (zh) * 2019-07-14 2021-02-02 阿里巴巴集团控股有限公司 信息识别、数据处理方法、装置及设备、信息交互方法
US11373069B2 (en) 2020-03-20 2022-06-28 General Electric Company Analogy engine for grounding and situational awareness
CN111460096A (zh) * 2020-03-26 2020-07-28 北京金山安全软件有限公司 一种碎片文本的处理方法、装置及电子设备
CN111460096B (zh) * 2020-03-26 2023-12-22 北京金山安全软件有限公司 一种碎片文本的处理方法、装置及电子设备
CN111832275A (zh) * 2020-09-21 2020-10-27 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质
US11928434B2 (en) 2020-09-21 2024-03-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for text generation, device and storage medium
CN112232089A (zh) * 2020-12-15 2021-01-15 北京百度网讯科技有限公司 语义表示模型的预训练方法、设备和存储介质

Similar Documents

Publication Publication Date Title
CN107491434A (zh) 基于语义相关性的文本摘要自动生成方法及装置
Wu et al. Convolution neural network based transfer learning for classification of flowers
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
WO2019114147A1 (zh) 图像美学处理方法及电子设备
CN106021433B (zh) 一种商品评论数据的口碑分析方法和装置
CN106294684A (zh) 词向量的文本分类方法及终端设备
CN107797992A (zh) 命名实体识别方法及装置
CN108399228A (zh) 文章分类方法、装置、计算机设备及存储介质
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN109783817A (zh) 一种基于深度强化学习的文本语义相似计算模型
CN107239446A (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN112163425B (zh) 基于多特征信息增强的文本实体关系抽取方法
CN104035996B (zh) 基于Deep Learning的领域概念抽取方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN107369098A (zh) 社交网络中数据的处理方法和装置
CN107870964A (zh) 一种应用于答案融合系统的语句排序方法及系统
CN106897262A (zh) 一种文本分类方法和装置以及处理方法和装置
CN102999615B (zh) 基于径向基函数神经网络的多样化图像标注和检索方法
CN109271640B (zh) 文本信息的地域属性识别方法及装置、电子设备
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
El Mohadab et al. Predicting rank for scientific research papers using supervised learning
CN106815244A (zh) 文本向量表示方法及装置
CN108228541A (zh) 生成文档摘要的方法和装置
CN106980650A (zh) 一种面向Twitter观点分类的情感增强词嵌入学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171219