CN111339287B - 摘要生成方法及装置 - Google Patents

摘要生成方法及装置 Download PDF

Info

Publication number
CN111339287B
CN111339287B CN202010111629.9A CN202010111629A CN111339287B CN 111339287 B CN111339287 B CN 111339287B CN 202010111629 A CN202010111629 A CN 202010111629A CN 111339287 B CN111339287 B CN 111339287B
Authority
CN
China
Prior art keywords
topic
graph
vertex
clause
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010111629.9A
Other languages
English (en)
Other versions
CN111339287A (zh
Inventor
朱永强
王天祥
郑童瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Wangan Technology Development Co ltd
Original Assignee
Chengdu Wangan Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Wangan Technology Development Co ltd filed Critical Chengdu Wangan Technology Development Co ltd
Priority to CN202010111629.9A priority Critical patent/CN111339287B/zh
Publication of CN111339287A publication Critical patent/CN111339287A/zh
Application granted granted Critical
Publication of CN111339287B publication Critical patent/CN111339287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种摘要生成方法及装置,通过从目标文本对象的主题分布中获取至少部分目标主题编号,并由此生成目标文本对象的多个主题簇,主题簇与目标文本对象中的分句相关联,由此可以充分考虑到文本对象的分句结构信息及其主题分布信息。此后,对多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名,相较于传统方案中直接采用长文本构建图模型的方式,能够有效提升获取分句排名的时间效率。在此基础上根据目标主题编号的编号顺序以及每个主题簇中的分句排名生成目标文本对象的文本摘要,使得摘要的生成方式更加合理,且生成的文本摘要具有更高的主题覆盖度。

Description

摘要生成方法及装置
技术领域
本申请涉及数据分析技术领域,具体而言,涉及摘要生成方法及装置。
背景技术
众所周知,一篇文档往往是由多个主题构成的,体现为文档的主题分布。在传统的摘要生成方案中,获得文档中每个分句的重要程度排名,但按照该方案生成的摘要无法直接体现文档的不同主题信息。例如,重要程度排名靠前的分句可能只体现了文档的某个或某些主题,故而导致生成的摘要主题覆盖度较低。
此外,在实际场景中,采用文本图模型进行自动摘要生成的过程大多是用于长文本,而在处理长文本时,由于文本图模型中节点过多,会导致摘要生成过程的收敛较慢。基于潜在语义分析的方法提取的摘要与原始文本具有一定的主题相关性,但依然存在主题覆盖度较低的问题,同时该方法没有考虑到文本的分句结构信息,具有一定的局限性。
发明内容
有鉴于此,本申请的目的在于提供一种摘要生成方法及装置,充分考虑到文本对象的分句结构信息及其主题分布信息,并有效提升获取分句排名的时间效率,同时使得摘要的生成方式更加合理,且生成的文本摘要具有更高的主题覆盖度。
根据本申请的第一方面,提供一种摘要生成方法,应用于电子设备,所述方法包括:
根据预设主题模型信息获得目标文本对象的主题分布,其中,所述预设主题模型信息包括不同预设主题下的单词分布,所述主题分布包括目标文本对象在不同主题编号下的概率值;
从所述主题分布中获取至少部分目标主题编号,并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇,其中,所述主题簇与所述目标文本对象中的分句相关联;
对所述多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名;
根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要。
在第一方面的一种可能的实施方式中,所述方法还包括:
根据预设语料训练库预训练设定主题模型的潜在狄利克雷分布,得到不同预设主题下的单词分布,作为预设主题模型信息存储在所述电子设备中。
在第一方面的一种可能的实施方式中,,所述设定主题模型的潜在狄利克雷分布通过以下公式计算得到:
Figure BDA0002390227830000021
当所述设定主题模型采样收敛后,每个预设主题下的单词分布通过以下公式计算得到:
Figure BDA0002390227830000022
其中,i=(m,n)是一个二维下标,对应于预设语料训练库第m篇文档的第n个单词;zi代表语料库中第i个词对应的主题编号;
Figure BDA0002390227830000023
代表去除第i个单词的语料库主题向量;
Figure BDA0002390227830000024
代表语料库中单词的特征向量;nm,~i (k)代表去掉第i个单词第m篇文档编号为k的单词个数;αk代表主题k的超参数;K代表模型主题数;V代表语料库总词数;nk,~i (t)代表去掉第i个词后主题k中词为t的个数;βt代表词t的超参数,
Figure BDA0002390227830000031
代表第k个主题的单词分布。
在第一方面的一种可能的实施方式中,所述从所述主题分布中获取至少部分目标主题编号的步骤,包括:
从所述主题分布中,选取概率值大于设定概率值的主题编号作为目标主题编号。
在第一方面的一种可能的实施方式中,所述根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇的步骤,包括:
以主题分布形式向量化各个目标主题编号以得到多个主题向量;
对所述目标文本对象进行分句,计算获得的每个分句的主题分布,并将所述多个主题向量作为聚类中心,对所述每个分句的主题分布进行聚类,得到多个主题簇。
在第一方面的一种可能的实施方式中,所述计算获得的每个分句的主题分布,并将所述多个主题向量作为聚类中心,对所述每个分句的主题分布进行聚类,得到多个主题簇的步骤,包括:
计算每个分句中每个单词在各个主题下的概率分布;
根据所述每个单词在各个主题下的概率分布计算每个分句的主题分布;
将所述多个主题向量作为聚类中心,根据所述主题向量的余弦距离确定以每个分句到聚类中心的距离,并根据确定的距离对所述每个分句的主题分布进行聚类,得到多个主题簇。
在第一方面的一种可能的实施方式中,所述对所述多个主题簇分别构建对应的图模型,以得到每个主题簇中的分句排名的步骤,包括:
将所述多个主题簇中的分句作为图顶点,并以每两个分句间的相似度、分句的位置信息及分句与主题簇的簇中心之间的距离的综合权重作为两个图顶点之间的边的权重,构造一个有权图;
从所述有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据所述第一顶点集合、所述第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的分句的主题分值;
根据每个主题簇中各个分句的主题分值,得到每个主题簇中的分句排名。
在第一方面的一种可能的实施方式中,所述各个图顶点对应的分句的主题分值通过以下公式计算得到:
Figure BDA0002390227830000041
Figure BDA0002390227830000042
其中,WS(Vi)代表图顶点Vi对应的分句的主题分值,V代表图顶点,In(Vi)为指向图顶点Vi的第一顶点集合,Out(Vi)代表图顶点Vi向其它图顶点的第二顶点集合,d为阻尼因子,wji代表从图顶点Vj到图顶点Vi的边的权重,α、β、η代表平衡因子,满足α+β+η=1,α∈[0.1,0.2],β∈[0.6,0.8],η∈[0.1,0.2],Bji表示图顶点Vj或图顶点Vi是否为文本段落的开头句,若是则其值为1,若否则其值为0,Sim(Vj,Vi)代表图顶点Vj与图顶点Vi所对应的分句之间的相似度,Cji代表图顶点Vj与图顶点Vi所对应的分句所在的主题簇的中心向量,Dis(Vi,Cji)代表图顶点Vi所对应的分句到Cji的余弦距离。
在第一方面的一种可能的实施方式中,所述根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要的步骤,包括:
根据所述目标主题编号的编号顺序,依次确定待抽取的文本摘要所在的每个目标主题簇;
根据所述每个主题簇中的分句排名,依次从每个主题簇中选择对应的分句,生成所述目标文本对象的文本摘要。
根据本申请的第二方面,提供一种摘要生成装置,应用于电子设备,所述装置包括:
获得模块,用于根据预设主题模型信息获得目标文本对象的主题分布,其中,所述预设主题模型信息包括不同预设主题下的单词分布,所述主题分布包括目标文本对象在不同主题编号下的概率值;
获取生成模块,用于从所述主题分布中获取至少部分目标主题编号,并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇,其中,所述主题簇与所述目标文本对象中的分句相关联;
构建模块,用于对所述多个主题簇分别构建对应的图模型,以得到每个主题簇中的分句排名;
摘要生成模块,用于根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要。
根据本申请的第三方面,提供一种电子设备,所述电子设备包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该电子设备实现第一方面或者第一方面的任意一种可能的实施方式中的摘要生成方法。
根据本申请的第四方面,提供一种可读存储介质,所述可读存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现第一方面或者第一方面的任意一种可能的实施方式中的摘要生成方法。
基于上述任一方面,本申请通过从目标文本对象的主题分布中获取至少部分目标主题编号,并由此生成目标文本对象的多个主题簇,主题簇与目标文本对象中的分句相关联,由此可以充分考虑到文本对象的分句结构信息及其主题分布信息。此后,对多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名,相较于传统方案中直接采用长文本构建图模型的方式,能够有效提升获取分句排名的时间效率。在此基础上根据目标主题编号的编号顺序以及每个主题簇中的分句排名生成目标文本对象的文本摘要,使得摘要的生成方式更加合理,且生成的文本摘要具有更高的主题覆盖度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的摘要生成方法的流程示意图;
图2示出了图1中所示的步骤S120的子步骤流程示意图;
图3示出了图1中所示的步骤S130的子步骤流程示意图;
图4示出了本申请实施例所提供的摘要生成装置的功能模块示意图;
图5示出了本申请实施例所提供的用于实现上述的摘要生成方法的电子设备的结构示意框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
自动文本摘要是自然语言处理领域的一个重要任务,其定义是利用计算机自动实现文本分析为原始文本生成摘要的过程。在互联网快速发展、海量信息急速膨胀的今天,自动文本摘要技术对于辅助用户快速浏览信息、理解信息方面具有重要意义。
基于摘要和原始文本的关系,自动文本摘要一般分为两类:一是抽取式摘要,表示摘要是由原始文本中抽取出来的片段组成;二是生成式摘要,指摘要是对原始文本的主要内容重新组织后形成的。成熟的自动文本摘要技术当前以抽取式为主。
如前述背景技术所获知的技术问题,在对本申请实施例进行详细阐述之前,下面首先对基于图模型的排序方案进行简要说明。基于图模型排序是抽取式摘要最常用的方案,目前大多用于抽取式摘要的图模型通常是采用的TextRank模型及其变体,各变体的不同之处在于文本图模型中衡量边权重的方式不同。按此方法获取文本摘要的方式通常为:经图模型排序后,按重要性程度从高到低依次选择分句作为文本的摘要。此外,基于潜在语义分析的方法也被用于抽取式摘要,该方案通过计算文本分句与文本的语义相似度对文本分句进行排序,依据排序结果选择分句生成摘要。
由上所述,这就导致在实际场景中,采用文本图模型进行自动摘要生成的过程大多是用于长文本,而在处理长文本时,由于文本图模型中节点过多,会导致摘要生成过程的收敛较慢。基于潜在语义分析的方法提取的摘要与原始文本具有一定的主题相关性,但依然存在主题覆盖度较低的问题,同时该方法没有考虑到文本的分句结构信息,具有一定的局限性。
为此,基于上述技术问题的发现,发明人提出下述技术方案以解决或者改善上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本申请做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
图1示出了本申请实施例提供的摘要生成方法的流程示意图,应当理解,在其它实施例中,本实施例的摘要生成方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该摘要生成方法的详细步骤介绍如下。
步骤S110,根据预设主题模型信息获得目标文本对象的主题分布。
步骤S120,从主题分布中获取至少部分目标主题编号,并根据至少部分目标主题编号生成目标文本对象的多个主题簇。
步骤S130,对多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名。
步骤S140,根据目标主题编号的编号顺序以及每个主题簇中的分句排名生成目标文本对象的文本摘要。
本实施例中,针对步骤S110,预设主题模型信息可包括不同预设主题下的单词分布。例如,假设预设主题包括主题A、主题B、主题C以及主题D,那么预设主题模型信息则可以包括主题A、主题B、主题C以及主题D各自对应的单词分布。
此外,目标文本对象的主题分布可以包括目标文本对象在不同主题编号下的概率值,例如目标文本对象分别在主题A、主题B、主题C以及主题D的概率值
基于上述步骤,本实施例通过从目标文本对象的主题分布中获取至少部分目标主题编号,并由此生成目标文本对象的多个主题簇,主题簇与目标文本对象中的分句相关联,由此可以充分考虑到文本对象的分句结构信息及其主题分布信息。此后,对多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名,相较于传统方案中直接采用长文本构建图模型的方式,能够有效提升获取分句排名的时间效率。在此基础上根据目标主题编号的编号顺序以及每个主题簇中的分句排名生成目标文本对象的文本摘要,使得摘要的生成方式更加合理,且生成的文本摘要具有更高的主题覆盖度。
在一种可能的实施方式中,针对步骤S110,本实施例可以根据预设语料训练库预训练设定主题模型的潜在狄利克雷分布(Latent Dirichlet Allocation,LDA),得到不同预设主题下的单词分布,并作为预设主题模型信息进行存储。
可选地,预设语料训练库可以采用常见的公开预料库,例如搜狗新闻语料库、腾讯新闻预料库等。在此基础上,为了提高训练效果,避免非必要的噪声引入,在训练之前可以首先对该预设语料训练库进行预处理。例如,可以去除该预设语料训练库长度过短的文本,并对该预设语料训练库进行分词,利用停用词表、词性信息去除该预设语料训练库中的停用词,得到预处理后的语料库。
其中,作为示例,设定主题模型的潜在狄利克雷分布可以通过以下公式计算得到:
Figure BDA0002390227830000091
当设定主题模型采样收敛后,每个预设主题下的单词分布可以通过以下公式计算得到:
Figure BDA0002390227830000092
其中,i=(m,n)是一个二维下标,对应于预设语料训练库第m篇文档的第n个单词;zi代表语料库中第i个词对应的主题编号;
Figure BDA0002390227830000101
代表去除第i个单词的语料库主题向量;
Figure BDA0002390227830000102
代表语料库中单词的特征向量;nm,~i (k)代表去掉第i个单词第m篇文档编号为k的单词个数;αk代表主题k的超参数;K代表模型主题数;V代表语料库总词数;nk,~i (t)代表去掉第i个词后主题k中词为t的个数;βt代表词t的超参数,
Figure BDA0002390227830000103
代表第k个主题的单词分布。
在一种可能的实施方式中,针对步骤S120,本实施例可以从主题分布中,选取概率值大于设定概率值S的主题编号作为目标主题编号。例如作为一种示例,S∈[0.85,0.95]。
在一种可能的实施方式中,针对步骤S120,请结合参阅图2,具体可以通过以下子步骤进一步实现:
子步骤S121,以主题分布形式向量化各个目标主题编号以得到多个主题向量。
例如,以主题分布形式向量化各个目标主题编号的方式可以是:ki=[0,0,0...,1,0,0,...,0],i=1...N,其中ki向量的维度为K,与主题模型主题数相同,向量第k维数值为1,其余维度均为0。
子步骤S122,对目标文本对象进行分句,计算获得的每个分句的主题分布,并将多个主题向量作为聚类中心,对每个分句的主题分布进行聚类,得到多个主题簇。
例如,首先,可以计算每个分句中每个单词在各个主题下的概率分布。作为一种示例,可以利用贝叶斯公式计算分句中每个单词t在各个主题下的概率分布,具体公式如下:
Figure BDA0002390227830000104
其中,k代表主题,t代表单词。
然后,根据每个单词在各个主题下的概率分布计算每个分句的主题分布。作为一种示例,每个分句的主题分布的计算公式如下:
Figure BDA0002390227830000111
Figure BDA0002390227830000112
其中,s代表分句,len(s)代表分句s中单词的数量。
在此基础上,可以将多个主题向量作为聚类中心,根据主题向量的余弦距离确定以每个分句到聚类中心的距离,并根据确定的距离对每个分句的主题分布进行聚类,得到多个主题簇。
在一种可能的实施方式中,针对步骤S130,为了充分考虑图模型中分句的推荐重要性、位置重要性以及主题相关性,使得后续摘要的生成方式更加合理,且生成的文本摘要具有更高的主题覆盖度,请结合参阅图3,步骤S130可以通过以下子步骤进一步实现:
子步骤S131,将多个主题簇中的分句作为图顶点,并以每两个分句间的相似度、分句的位置信息及分句与主题簇的簇中心之间的距离的综合权重作为两个图顶点之间的边的权重,构造一个有权图。
子步骤S132,从有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据第一顶点集合、第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的分句的主题分值。
子步骤S133,根据每个主题簇中各个分句的主题分值,得到每个主题簇中的分句排名。
本实施例中,作为示例,各个图顶点对应的分句的主题分值可以通过以下公式计算得到:
Figure BDA0002390227830000113
Figure BDA0002390227830000114
其中,WS(Vi)代表图顶点Vi对应的分句的主题分值,V代表图顶点,In(Vi)为指向图顶点Vi的第一顶点集合,Out(Vi)代表图顶点Vi向其它图顶点的第二顶点集合,d为阻尼因子,wji代表从图顶点Vj到图顶点Vi的边的权重,α、β、η代表平衡因子,满足α+β+η=1,α∈[0.1,0.2],β∈[0.6,0.8],η∈[0.1,0.2],Bji表示图顶点Vj或图顶点Vi是否为文本段落的开头句,若是则其值为1,若否则其值为0,Sim(Vj,Vi)代表图顶点Vj与图顶点Vi所对应的分句之间的相似度,Cji代表图顶点Vj与图顶点Vi所对应的分句所在的主题簇的中心向量,Dis(Vi,Cji)代表图顶点Vi所对应的分句到Cji的余弦距离。
基于上述设计,本实施例将多个主题簇中的分句作为图顶点,并以每两个分句间的相似度、分句的位置信息及分句与主题簇的簇中心之间的距离的综合权重作为两个图顶点之间的边的权重,构造一个有权图,从而考虑到边权重进行分句排名的计算,充分考虑图模型中分句的推荐重要性、位置重要性以及主题相关性,使得后续摘要的生成方式更加合理,且生成的文本摘要具有更高的主题覆盖度。
在一种可能的实施方式中,针对步骤S140,本实施例可以根据目标主题编号的编号顺序,依次确定待抽取的文本摘要所在的每个目标主题簇,然后根据每个主题簇中的分句排名,依次从每个主题簇中选择对应的分句,生成目标文本对象的文本摘要。
例如,假设目标主题编号的编号顺序分别为编号1、编号2、编号3以及编号4,由此可以依次确定待抽取的文本摘要所在的每个目标主题簇为编号1、编号2、编号3以及编号4对应的目标主题簇1、目标主题簇2、目标主题簇3、目标主题簇4。在此基础上,可以首先根据目标主题簇1中的分句排名,依次从目标主题簇1中选择对应的分句,接着根据目标主题簇2中的分句排名,依次从目标主题簇2中选择对应的分句,以此类推,最终根据目标主题簇4中的分句排名,依次从目标主题簇4中选择对应的分句,并按照分别从目标主题簇1、目标主题簇2、目标主题簇3、目标主题簇4选择的分句顺序生成目标文本对象的文本摘要。由此生成的文本摘要可具有更高的主题覆盖度。
基于同一发明构思,请参阅图4,示出了本申请实施例提供的摘要生成装置200的功能模块示意图,本实施例可以根据上述方法实施例对摘要生成装置200进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图4示出的摘要生成装置200只是一种装置示意图。其中,摘要生成装置200可以包括获得模块210、获取生成模块220、构建模块230以及摘要生成模块240,下面分别对该摘要生成装置200的各个功能模块的功能进行详细阐述。
获得模块210,用于根据预设主题模型信息获得目标文本对象的主题分布,其中,预设主题模型信息包括不同预设主题下的单词分布,主题分布包括目标文本对象在不同主题编号下的概率值。可以理解,该获得模块210可以用于执行上述步骤S110,关于该获得模块210的详细实现方式可以参照上述对步骤S110有关的内容。
获取生成模块220,用于从主题分布中获取至少部分目标主题编号,并根据至少部分目标主题编号生成目标文本对象的多个主题簇,其中,主题簇与目标文本对象中的分句相关联。可以理解,该获取生成模块220可以用于执行上述步骤S120,关于该获取生成模块220的详细实现方式可以参照上述对步骤S120有关的内容。
构建模块230,用于对多个主题簇分别构建对应的图模型,以得到每个主题簇中的分句排名。可以理解,该构建模块230可以用于执行上述步骤S130,关于该构建模块230的详细实现方式可以参照上述对步骤S130有关的内容。
摘要生成模块240,用于根据目标主题编号的编号顺序以及每个主题簇中的分句排名生成目标文本对象的文本摘要。可以理解,该获摘要生成模块240可以用于执行上述步骤S140,关于该摘要生成模块240的详细实现方式可以参照上述对步骤S140有关的内容。
在一种可能的实施方式中,该摘要生成装置200还可以包括训练模块,用于根据预设语料训练库预训练设定主题模型的潜在狄利克雷分布,得到不同预设主题下的单词分布,作为预设主题模型信息就那些存储。
在一种可能的实施方式中,设定主题模型的潜在狄利克雷分布通过以下公式计算得到:
Figure BDA0002390227830000141
当设定主题模型采样收敛后,每个预设主题下的单词分布通过以下公式计算得到:
Figure BDA0002390227830000142
其中,i=(m,n)是一个二维下标,对应于预设语料训练库第m篇文档的第n个单词;zi代表语料库中第i个词对应的主题编号;
Figure BDA0002390227830000143
代表去除第i个单词的语料库主题向量;
Figure BDA0002390227830000144
代表语料库中单词的特征向量;nm,~i (k)代表去掉第i个单词第m篇文档编号为k的单词个数;αk代表主题k的超参数;K代表模型主题数;V代表语料库总词数;nk,~i (t)代表去掉第i个词后主题k中词为t的个数;βt代表词t的超参数,
Figure BDA0002390227830000145
代表第k个主题的单词分布。
在一种可能的实施方式中,获取生成模块220可以通过以下方式从主题分布中获取至少部分目标主题编号:
从主题分布中,选取概率值大于设定概率值的主题编号作为目标主题编号。
在一种可能的实施方式中,获取生成模块220可以通过以下方式生成目标文本对象的多个主题簇:
以主题分布形式向量化各个目标主题编号以得到多个主题向量;
对目标文本对象进行分句,计算获得的每个分句的主题分布,并将多个主题向量作为聚类中心,对每个分句的主题分布进行聚类,得到多个主题簇。
在一种可能的实施方式中,获取生成模块220可以通过以下方式计算获得的每个分句的主题分布,并将多个主题向量作为聚类中心,对每个分句的主题分布进行聚类,得到多个主题簇:
计算每个分句中每个单词在各个主题下的概率分布;
根据每个单词在各个主题下的概率分布计算每个分句的主题分布;
将多个主题向量作为聚类中心,根据主题向量的余弦距离确定以每个分句到聚类中心的距离,并根据确定的距离对每个分句的主题分布进行聚类,得到多个主题簇。
在一种可能的实施方式中,构建模块230可以通过以下方式对多个主题簇分别构建对应的图模型,以得到每个主题簇中的分句排名:
将多个主题簇中的分句作为图顶点,并以每两个分句间的相似度、分句的位置信息及分句与主题簇的簇中心之间的距离的综合权重作为两个图顶点之间的边的权重,构造一个有权图;
从有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据第一顶点集合、第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的分句的主题分值;
根据每个主题簇中各个分句的主题分值,得到每个主题簇中的分句排名。
在一种可能的实施方式中,各个图顶点对应的分句的主题分值通过以下公式计算得到:
Figure BDA0002390227830000161
Figure BDA0002390227830000162
其中,WS(Vi)代表图顶点Vi对应的分句的主题分值,V代表图顶点,In(Vi)为指向图顶点Vi的第一顶点集合,Out(Vi)代表图顶点Vi向其它图顶点的第二顶点集合,d为阻尼因子,wji代表从图顶点Vj到图顶点Vi的边的权重,α、β、η代表平衡因子,满足α+β+η=1,α∈[0.1,0.2],β∈[0.6,0.8],η∈[0.1,0.2],Bji表示图顶点Vj或图顶点Vi是否为文本段落的开头句,若是则其值为1,若否则其值为0,Sim(Vj,Vi)代表图顶点Vj与图顶点Vi所对应的分句之间的相似度,Cji代表图顶点Vj与图顶点Vi所对应的分句所在的主题簇的中心向量,Dis(Vi,Cji)代表图顶点Vi所对应的分句到Cji的余弦距离。
在一种可能的实施方式中,摘要生成模块240可以通过以下方式根据目标主题编号的编号顺序以及每个主题簇中的分句排名生成目标文本对象的文本摘要:
根据目标主题编号的编号顺序,依次确定待抽取的文本摘要所在的每个目标主题簇;
根据每个主题簇中的分句排名,依次从每个主题簇中选择对应的分句,生成目标文本对象的文本摘要。
基于同一发明构思,请参阅图5,示出了本申请实施例提供的用于执行上述摘要生成方法的电子设备100的结构示意框图,该电子设备100可以包括机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于电子设备100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于电子设备100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
处理器130是该电子设备100的控制中心,利用各种接口和线路连接整个电子设备100的各个部分,通过运行或执行存储在机器可读存储介质120内的软件程序和/或模块,以及调用存储在机器可读存储介质120内的数据,执行该电子设备100的各种功能和处理数据,从而对电子设备100进行整体监控。可选地,处理器130可包括一个或多个处理核心;例如,处理器130可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,处理器130可以是一个通用的中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制上述方法实施例提供的摘要生成方法的程序执行的集成电路。
机器可读存储介质120可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmabler-Only MEMory,EEPROM)、只读光盘(Compactdisc Read-Only MEMory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。机器可读存储介质120可以是独立存在,通过通信总线与处理器130相连接。机器可读存储介质120也可以和处理器集成在一起。其中,机器可读存储介质120用于存储执行本申请方案的机器可执行指令。处理器130用于执行机器可读存储介质120中存储的机器可执行指令,以实现前述方法实施例提供的摘要生成方法。
由于本申请实施例提供的电子设备100是上述电子设备100执行的方法实施例的另一种实现形式,且电子设备100可用于执行上述方法实施例提供的摘要生成方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
进一步地,本申请实施例还提供一种包含计算机可执行指令的可读存储介质,计算机可执行指令在被执行时可以用于实现上述方法实施例提供的摘要生成方法。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本申请任意实施例所提供的摘要生成方法中的相关操作。
本申请实施例是参照根据本申请实施例的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种摘要生成方法,其特征在于,应用于电子设备,所述方法包括:
根据预设主题模型信息获得目标文本对象的主题分布,其中,所述预设主题模型信息包括不同预设主题下的单词分布,所述主题分布包括目标文本对象在不同主题编号下的概率值;
从所述主题分布中获取至少部分目标主题编号,并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇,其中,所述主题簇与所述目标文本对象中的分句相关联;
对所述多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名;
根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要;
其中,所述对所述多个主题簇分别构建对应的图模型,以得到每个主题簇中的分句排名的步骤,包括:
将所述多个主题簇中的分句作为图顶点,并以每两个分句间的相似度、分句的位置信息及分句与主题簇的簇中心之间的距离的综合权重作为两个图顶点之间的边的权重,构造一个有权图;
从所述有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据所述第一顶点集合、所述第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的分句的主题分值;
根据每个主题簇中各个分句的主题分值,得到每个主题簇中的分句排名;
所述各个图顶点对应的分句的主题分值通过以下公式计算得到:
Figure FDA0004087992380000021
Figure FDA0004087992380000022
其中,WS(Vi)代表图顶点Vi对应的分句的主题分值,V代表图顶点,In(Vi)为指向图顶点Vi的第一顶点集合,Out(Vi)代表图顶点Vi向其它图顶点的第二顶点集合,d为阻尼因子,wji代表从图顶点Vj到图顶点Vi的边的权重,α、β、η代表平衡因子,满足α+β+η=1,α∈[0.1,0.2],β∈[0.6,0.8],η∈[0.1,0.2],Bji表示图顶点Vj或图顶点Vi是否为文本段落的开头句,若是则其值为1,若否则其值为0,Sim(Vj,Vi)代表图顶点Vj与图顶点Vi所对应的分句之间的相似度,Cji代表图顶点Vj与图顶点Vi所对应的分句所在的主题簇的中心向量,Dis(Vi,Cji)代表图顶点Vi所对应的分句到Cji的余弦距离。
2.根据权利要求1所述的摘要生成方法,其特征在于,所述方法还包括:
根据预设语料训练库预训练设定主题模型的潜在狄利克雷分布,得到不同预设主题下的单词分布,作为预设主题模型信息存储在所述电子设备中。
3.根据权利要求2所述的摘要生成方法,其特征在于,所述设定主题模型的潜在狄利克雷分布通过以下公式计算得到:
Figure FDA0004087992380000023
当所述设定主题模型采样收敛后,每个预设主题下的单词分布通过以下公式计算得到:
Figure FDA0004087992380000024
其中,i=(m,n)是一个二维下标,对应于预设语料训练库第m篇文档的第n个单词;zi代表语料库中第i个词对应的主题编号;
Figure FDA0004087992380000031
代表去除第i个单词的语料库主题向量;
Figure FDA0004087992380000032
代表语料库中单词的特征向量;nm,~i(k)代表去掉第i个单词第m篇文档编号为k的单词个数;αk代表主题k的超参数;K代表模型主题数;V代表语料库总词数;nk,~i(t)代表去掉第i个词后主题k中词为t的个数;βt代表词t的超参数,
Figure FDA0004087992380000033
代表第k个主题的单词分布。
4.根据权利要求1所述的摘要生成方法,其特征在于,所述从所述主题分布中获取至少部分目标主题编号的步骤,包括:
从所述主题分布中,选取概率值大于设定概率值的主题编号作为目标主题编号。
5.根据权利要求1所述的摘要生成方法,其特征在于,所述根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇的步骤,包括:
以主题分布形式向量化各个目标主题编号以得到多个主题向量;
对所述目标文本对象进行分句,计算获得的每个分句的主题分布,并将所述多个主题向量作为聚类中心,对所述每个分句的主题分布进行聚类,得到多个主题簇。
6.根据权利要求5所述的摘要生成方法,其特征在于,所述计算获得的每个分句的主题分布,并将所述多个主题向量作为聚类中心,对所述每个分句的主题分布进行聚类,得到多个主题簇的步骤,包括:
计算每个分句中每个单词在各个主题下的概率分布;
根据所述每个单词在各个主题下的概率分布计算每个分句的主题分布;
将所述多个主题向量作为聚类中心,根据所述主题向量的余弦距离确定以每个分句到聚类中心的距离,并根据确定的距离对所述每个分句的主题分布进行聚类,得到多个主题簇。
7.根据权利要求1所述的摘要生成方法,其特征在于,所述根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要的步骤,包括:
根据所述目标主题编号的编号顺序,依次确定待抽取的文本摘要所在的每个目标主题簇;
根据所述每个主题簇中的分句排名,依次从每个主题簇中选择对应的分句,生成所述目标文本对象的文本摘要。
8.一种摘要生成装置,其特征在于,应用于电子设备,所述装置包括:
获得模块,用于根据预设主题模型信息获得目标文本对象的主题分布,其中,所述预设主题模型信息包括不同预设主题下的单词分布,所述主题分布包括目标文本对象在不同主题编号下的概率值;
获取生成模块,用于从所述主题分布中获取至少部分目标主题编号,并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇,其中,所述主题簇与所述目标文本对象中的分句相关联;
构建模块,用于对所述多个主题簇分别构建对应的图模型,以得到每个主题簇中的分句排名;
摘要生成模块,用于根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要;
所述构建模块具体用于:
将所述多个主题簇中的分句作为图顶点,并以每两个分句间的相似度、分句的位置信息及分句与主题簇的簇中心之间的距离的综合权重作为两个图顶点之间的边的权重,构造一个有权图;
从所述有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据所述第一顶点集合、所述第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的分句的主题分值;
根据每个主题簇中各个分句的主题分值,得到每个主题簇中的分句排名;
所述各个图顶点对应的分句的主题分值通过以下公式计算得到:
Figure FDA0004087992380000051
Figure FDA0004087992380000052
其中,WS(Vi)代表图顶点Vi对应的分句的主题分值,V代表图顶点,In(Vi)为指向图顶点Vi的第一顶点集合,Out(Vi)代表图顶点Vi向其它图顶点的第二顶点集合,d为阻尼因子,wji代表从图顶点Vj到图顶点Vi的边的权重,α、β、η代表平衡因子,满足α+β+η=1,α∈[0.1,0.2],β∈[0.6,0.8],η∈[0.1,0.2],Bji表示图顶点Vj或图顶点Vi是否为文本段落的开头句,若是则其值为1,若否则其值为0,Sim(Vj,Vi)代表图顶点Vj与图顶点Vi所对应的分句之间的相似度,Cji代表图顶点Vj与图顶点Vi所对应的分句所在的主题簇的中心向量,Dis(Vi,Cji)代表图顶点Vi所对应的分句到Cji的余弦距离。
CN202010111629.9A 2020-02-24 2020-02-24 摘要生成方法及装置 Active CN111339287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010111629.9A CN111339287B (zh) 2020-02-24 2020-02-24 摘要生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010111629.9A CN111339287B (zh) 2020-02-24 2020-02-24 摘要生成方法及装置

Publications (2)

Publication Number Publication Date
CN111339287A CN111339287A (zh) 2020-06-26
CN111339287B true CN111339287B (zh) 2023-04-21

Family

ID=71183687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010111629.9A Active CN111339287B (zh) 2020-02-24 2020-02-24 摘要生成方法及装置

Country Status (1)

Country Link
CN (1) CN111339287B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859932B (zh) * 2020-07-29 2023-03-31 上海风秩科技有限公司 一种文本摘要的生成方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823848A (zh) * 2014-02-11 2014-05-28 浙江大学 一种基于lda和vsm的中草药相似文献的推荐方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN110728144A (zh) * 2019-10-06 2020-01-24 湖北工业大学 一种基于上下文语义感知的抽取式文档自动摘要方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US10042842B2 (en) * 2016-02-24 2018-08-07 Utopus Insights, Inc. Theft detection via adaptive lexical similarity analysis of social media data streams

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823848A (zh) * 2014-02-11 2014-05-28 浙江大学 一种基于lda和vsm的中草药相似文献的推荐方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN110728144A (zh) * 2019-10-06 2020-01-24 湖北工业大学 一种基于上下文语义感知的抽取式文档自动摘要方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于LDA主题模型的文档文摘研究;边晋强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150715;正文第14-16页 *
融合多特征的TextRank关键词抽取方法;李航 等;《情报杂志》;20170818;全文 *
黄波 ; 刘传才.基于加权TextRank的中文自动文本摘要.《计算机应用研究》.2018, *

Also Published As

Publication number Publication date
CN111339287A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN109960800B (zh) 基于主动学习的弱监督文本分类方法及装置
CN108287858B (zh) 自然语言的语义提取方法及装置
US11544474B2 (en) Generation of text from structured data
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
JP2005158010A (ja) 分類評価装置・方法及びプログラム
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
CN113515589B (zh) 数据推荐方法、装置、设备以及介质
CN113569018A (zh) 问答对挖掘方法及装置
CN109063184A (zh) 多语言新闻文本聚类方法、存储介质及终端设备
CN111291565A (zh) 一种用于命名实体识别的方法与装置
CN114997288A (zh) 一种设计资源关联方法
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN111339287B (zh) 摘要生成方法及装置
CN113535960A (zh) 一种文本分类方法、装置和设备
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN113157892B (zh) 用户意图处理方法、装置、计算机设备及存储介质
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant