CN112507111B - 用于生成式自动摘要生成的模型建立方法及摘要生成方法 - Google Patents

用于生成式自动摘要生成的模型建立方法及摘要生成方法 Download PDF

Info

Publication number
CN112507111B
CN112507111B CN202011305043.2A CN202011305043A CN112507111B CN 112507111 B CN112507111 B CN 112507111B CN 202011305043 A CN202011305043 A CN 202011305043A CN 112507111 B CN112507111 B CN 112507111B
Authority
CN
China
Prior art keywords
vocabulary
document
clustering
documents
automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011305043.2A
Other languages
English (en)
Other versions
CN112507111A (zh
Inventor
周玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Publication of CN112507111A publication Critical patent/CN112507111A/zh
Application granted granted Critical
Publication of CN112507111B publication Critical patent/CN112507111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本公开提供了一种用于生成式自动摘要生成的模型建立方法,包括:S1、对文档‑摘要数据对集合中的摘要进行预处理,对文档‑摘要数据对集合中文档进行向量化,生成多个向量化文档;S2、对所述向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;S3、获取每个所述文档簇中的高频词,作为每个聚类类别的特征词汇表;以及S4、将多个所述向量化文档以及多个预处理后的摘要输入至编码器&解码器框架进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型。

Description

用于生成式自动摘要生成的模型建立方法及摘要生成方法
技术领域
自动摘要是利用计算机系统自动实现文本分析、内容归纳和摘要自动生成的技术,就是按读者(或用户)的要求以简洁的形式表达原文的主要内容,自动摘要技术能够有效地帮助人们从检索到的文章中寻找自己感兴趣的内容,提高阅读速度和质量。该技术可以将文档压缩为更为简洁的表达,并且保证涵盖原始文档的有价值的主题。
生成式自动文摘直接根据源文本的语义去生成句子,生成的摘要中包含的词汇不受源文本词汇的限制。
现有技术中的生成式自动摘要技术主要借助深度学习完成文本的编码与解码,这种方法可能会生成与原文无关的内容,使得摘要的忠实度受到了一定程度的限制。
发明内容
为了解决上述技术问题中的至少一个,本公开提出根据原文的主题构建对应的约束词汇表,并基于所构建的约束词汇表进行文本推理,从而生成最终的摘要。本公开的用于生成式自动摘要生成的模型建立方法、生成式自动摘要生成方法、用于生成式自动摘要生成的模型建立装置、电子设备以及存储介质通过以下技术方案实现。
根据本公开的一个方面,提供一种用于生成式自动摘要生成的模型建立方法,包括:S1、对文档-摘要数据对集合中的摘要进行预处理,对文档-摘要数据对集合中文档进行向量化,生成多个向量化文档;S2、对所述向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;S3、获取每个所述文档簇中的高频词,作为每个聚类类别的特征词汇表;以及S4、将多个所述向量化文档以及多个预处理后的摘要输入至编码器&解码器框架进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型。
根据本公开的至少一个实施方式的用于生成式自动摘要生成的模型建立方法,所述预定数目为超参数。超参数通过预先设定。
根据本公开的至少一个实施方式的用于生成式自动摘要生成的模型建立方法,所述编码器&解码器框架为Google开源seq2seq。
根据本公开的至少一个实施方式的用于生成式自动摘要生成的模型建立方法,所述高频词的频次为5次以上。
根据本公开的至少一个实施方式的用于生成式自动摘要生成的模型建立方法,每个所述文档簇中包含多个向量化文档。
根据本公开的至少一个实施方式的用于生成式自动摘要生成的模型建立方法,步骤S1中,所述预处理包括对摘要进行分词处理。
根据本公开的至少一个实施方式的用于生成式自动摘要生成的模型建立方法,所述预处理还包括字母小写化处理。
根据本公开的至少一个实施方式的用于生成式自动摘要生成的模型建立方法,步骤S4中,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,基于该聚类类别的特征词汇表以及该文档的原文词汇表进行摘要词汇预测。
根据本公开的至少一个实施方式的用于生成式自动摘要生成的模型建立方法,使用tf-idf算法对文档进行所述向量化。
根据本公开的另一个方面,提供一种生成式自动摘要生成方法,使用上述任一个实施方式的方法建立的生成式自动摘要生成模型进行自动摘要生成,包括:SS1、判断目标文档隶属的类别;SS2、使用目标文档隶属的类别的特征词汇表以及该目标文档的原文词汇表作为约束词汇表;以及SS3、使用生成式自动摘要生成模型的解码器对所述目标文档的词汇进行搜索时,基于所述约束词汇表对搜索空间进行约束,生成所述目标文档的摘要。
根据本公开的至少一个实施方式的生成式自动摘要生成方法,判断目标文档隶属的类别,包括:SS11、对目标文档进行向量化处理,获得向量化目标文档;以及SS12、获取所述向量化目标文档与各个文档簇之间的距离,将与所述向量化目标文档距离最近的文档簇的类别作为目标文档隶属的类别。
根据本公开的又一个方面,提供一种用于生成式自动摘要生成的模型建立装置,包括:预处理模块,所述预处理模块对文档-摘要数据对集合中的摘要进行预处理;向量化模块,所述向量化模块对文档-摘要数据对集合中文档进行向量化,生成多个向量化文档;聚类处理模块,所述聚类处理模块对所述向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;特征词汇表生成模块,特征词汇表生成模块获取每个所述文档簇中的高频词,作为每个聚类类别的特征词汇表;以及编码器&解码器框架模块,将多个所述向量化文档以及多个预处理后的摘要输入至所述编码器&解码器框架模块进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型。
根据本公开的至少一个实施方式的用于生成式自动摘要生成的模型建立装置,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,基于该聚类类别的特征词汇表以及该文档的原文词汇表进行摘要词汇预测。
根据本公开的又一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的再一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是本公开的一个实施方式的用于生成式自动摘要生成的模型建立方法的流程示意图。
图2是本公开的又一个实施方式的用于生成式自动摘要生成的模型建立方法的流程示意图。
图3是本公开的一个实施方式的生成式自动摘要生成方法的流程示意图。
图4是本公开的又一个实施方式的生成式自动摘要生成方法的流程示意图。
图5是本公开的一个实施方式的用于生成式自动摘要生成的模型建立装置的结构示意框图。
图6示出了采用处理系统的硬件实现方式的用于生成式自动摘要生成的模型建立装置的示例图。
附图标记说明
1000 用于生成式自动摘要生成的模型建立装置
1001 预处理模块
1002 向量化模块
1003 聚类处理模块
1004 特征词汇表生成模块
1005 编码器&解码器框架模块
1100 总线
1200 处理器
1300 存储器
1400 其他电路。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
为了描述性目的,本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如,如在“侧壁”中)”等的空间相对术语,从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外,空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如,如果附图中的设备被翻转,则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此,示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外,设备可被另外定位(例如,旋转90度或者在其它方位处),如此,相应地解释这里使用的空间相对描述语。
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是本公开的一个实施方式的用于生成式自动摘要生成的模型建立方法的流程示意图。
如图1所示,用于生成式自动摘要生成的模型建立方法包括以下步骤:
S1、对文档-摘要数据对集合中的摘要进行预处理,对文档-摘要数据对集合中文档进行向量化,生成多个向量化文档;S2、对向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;S3、获取每个文档簇中的高频词,作为每个聚类类别的特征词汇表;以及S4、将多个向量化文档以及多个预处理后的摘要输入至编码器&解码器框架进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型。
其中,文档-摘要数据对集合可以包括大量的文档-摘要数据对。
优选地,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,基于该聚类类别的特征词汇表以及该文档的原文词汇表进行摘要词汇预测。
图2是本公开的一个实施方式的用于生成式自动摘要生成的模型建立方法的流程示意图。
如图2所示,用于生成式自动摘要生成的模型建立方法包括以下步骤:
S1、对文档摘要数据对集合中的摘要进行分词处理以及字母小写化处理,对文档摘要数据对集合中文档进行向量化,生成多个向量化文档;S2、对向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;S3、获取每个文档簇中的高频词,作为每个聚类类别的特征词汇表;以及S4、将多个向量化文档以及多个预处理后的摘要输入至编码器&解码器框架进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型。
根据本公开的优选实施方式,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,基于该聚类类别的特征词汇表以及该文档的原文词汇表进行摘要词汇预测。
根据本公开的优选实施方式,上述实施方式中的预定数目为超参数。
根据本公开的优选实施方式,上述实施方式中的编码器&解码器框架可以为Google开源seq2seq。
根据本公开的优选实施方式,上述实施方式中的高频词的频次为5次以上。
根据本公开的优选实施方式,上述实施方式中,每个文档簇中包含多个向量化文档。
根据本公开的优选实施方式,上述实施方式中,使用tf-idf算法对文档进行向量化。
下文以更具体的实例对上述两个实施方式的用于生成式自动摘要生成的模型建立方法进行说明。
步骤S1:对文本摘要数据进行预处理,包括分词和小写化处理,并使用tf-idf算法将数据集中的每篇文档向量化。
本领域技术人员应当理解,分词处理可以采用现有技术中的处理方法,例如采用中科院自动化所模式识别国家重点实验室的Urheen,小写化处理其作用在于将文本摘要数据中包含的大写字母转为小写。本领域技术人员应当理解,如果文本摘要数据中不包含大写字母,将不会进行小写化处理。
通过上述两个操作(分词、小写化),例如,可以将“我喜欢观看CBA”转化为“我喜欢观看cba”。之后,通过在整个数据集上统计词频和逆文档频率,将每篇文档表示成tf-idf向量的形式。
当然,每篇文档也可以被表示成其他向量形式。
步骤S2:根据数据集中的向量化文档表示对数据集中文档进行聚类,聚类类别数目为超参数,可以通过人工设定。
其中,对文档进行聚类可以通过K-Means方法实现,类别数可以预先设定。
步骤S3:根据文档簇分别计算各簇中文档集的高频词(例如词频大于5)作为针对各类文档进行摘要解码时的特征词汇表。
步骤S4:在训练阶段将文本摘要数据输入至“编码器-解码器”框架中进行模型训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型,并将模型的参数进行保存。
优选的,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,基于该聚类类别的特征词汇表以及该文档的原文词汇表进行摘要词汇预测。
其中“编码器-解码器”框架可以采用的是Transformer架构。
图3是本公开的一个实施方式的生成式自动摘要生成方法的流程示意图。
如图3所示,使用上述任一个实施方式的方法建立的生成式自动摘要生成模型进行自动摘要生成,包括:SS1、判断目标文档隶属的类别;SS2、使用目标文档隶属的类别的特征词汇表以及该目标文档的原文词汇表作为约束词汇表;以及SS3、使用生成式自动摘要生成模型的解码器对目标文档的词汇进行搜索时,基于约束词汇表对搜索空间进行约束,生成目标文档的摘要。
其中,目标文档(即待生成摘要的文档)的原文词汇表与文档类别所对应的特征词汇表的并集将构成摘要词汇预测时的约束词汇表。
通过约束词汇表的引入,不再需要得到整个词汇表(即整个模型的词汇表)上的概率预测分布,而只需得到约束词汇表上的概率预测分布即可。这种做法可以极大地缩小摘要词汇的搜索空间。
图4是本公开的一个实施方式的生成式自动摘要生成方法的流程示意图。
如图4所示,使用上述任一个实施方式的方法建立的生成式自动摘要生成模型进行自动摘要生成,包括:SS11、对目标文档进行向量化处理,获得向量化目标文档;SS12、获取向量化目标文档与各个文档簇之间的距离,将与向量化目标文档距离最近的文档簇的类别作为目标文档隶属的类别;SS2、使用目标文档隶属的类别的特征词汇表以及该目标文档的原文词汇表作为约束词汇表;以及SS3、使用生成式自动摘要生成模型的解码器对目标文档的词汇进行搜索时,基于约束词汇表对搜索空间进行约束,生成目标文档的摘要。
上述各个实施方式的生成式自动摘要生成方法,将输入文档(目标文档)进行向量化,需使用和步骤S1一致的词汇表去生成其对应的tf-idf向量,同时根据步骤S2中得到的文档簇计算每一个文档簇与该向量的距离,从中选出距离最小的文档簇,并将该文档划分至该文档簇的类别。之后,将该文档簇所属类别的特征词汇表与该文档的原文词汇表的并集作为摘要解码阶段的约束词汇表。
上述实施方式中,解码器可以通过Beam Search算法去贪心地寻找能使输出概率最大的一个摘要序列作为最终的输出,生成目标文档的摘要。
本公开的生成式自动摘要生成方法的基本思想是一篇文档的摘要所包含的词汇往往是与该文档是属于同一类别或同一主题,那么通过文档的类别对文本摘要解码时的词汇表施加类别或者主题约束,从而增强生成摘要的忠实度。
本公开的生成式自动摘要生成方法通过文章的类别可以预先估计其摘要词汇的大致范围,从而将文本摘要的词汇锁定在某一较小的搜索空间内,可一定程度上加快模型的收敛并且增强所生成摘要的忠实度。
图5是本公开的一个实施方式的用于生成式自动摘要生成的模型建立装置的结构示意框图。
如图5所示,用于生成式自动摘要生成的模型建立装置1000,包括:预处理模块1001,预处理模块1001对文档-摘要数据对集合中的摘要进行预处理;向量化模块1002,向量化模块1002对文档-摘要数据对集合中文档进行向量化,生成多个向量化文档;聚类处理模块1003,聚类处理模块1003对向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;特征词汇表生成模块1004,特征词汇表生成模块1004获取每个文档簇中的高频词,作为每个聚类类别的特征词汇表;以及编码器&解码器框架模块1005,将多个向量化文档以及多个预处理后的摘要输入至编码器&解码器框架模块1005进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型。
根据本公开的优选实施方式,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,基于该聚类类别的特征词汇表以及该文档的原文词汇表进行摘要词汇预测。
图6示出了采用处理系统的硬件实现方式的用于生成式自动摘要生成的模型建立装置1000的示例图。
该装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (9)

1.一种用于生成式自动摘要生成的模型建立方法,其特征在于,包括:
S1、对文档-摘要数据对集合中的摘要进行预处理,对文档-摘要数据对集合中文档进行向量化,生成多个向量化文档;
S2、对所述向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;
S3、获取每个所述文档簇中的高频词,作为每个聚类类别的特征词汇表;以及
S4、将多个所述向量化文档以及多个预处理后的摘要输入至编码器&解码器框架进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型;
其中,步骤S4中,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,基于该聚类类别的特征词汇表以及该文档的原文词汇表进行摘要词汇预测。
2.根据权利要求1所述的用于生成式自动摘要生成的模型建立方法,其特征在于,所述预定数目为超参数。
3.根据权利要求1所述的用于生成式自动摘要生成的模型建立方法,其特征在于,每个所述文档簇中包含多个向量化文档。
4.根据权利要求1所述的用于生成式自动摘要生成的模型建立方法,其特征在于,步骤S1中,所述预处理包括对摘要进行分词处理。
5.一种生成式自动摘要生成方法,使用权利要求1至4中任一项所述的方法建立的生成式自动摘要生成模型进行自动摘要生成,其特征在于,包括:
SS1、判断目标文档隶属的类别;
SS2、使用目标文档隶属的类别的特征词汇表以及该目标文档的原文词汇表作为约束词汇表;以及
SS3、使用生成式自动摘要生成模型的解码器对所述目标文档的词汇进行搜索时,基于所述约束词汇表对搜索空间进行约束,生成所述目标文档的摘要。
6.根据权利要求5所述的生成式自动摘要生成方法,其特征在于,SS1、判断目标文档隶属的类别,包括:
SS11、对目标文档进行向量化处理,获得向量化目标文档;以及
SS12、获取所述向量化目标文档与各个文档簇之间的距离,将与所述向量化目标文档距离最近的文档簇的类别作为目标文档隶属的类别。
7.一种用于生成式自动摘要生成的模型建立装置,其特征在于,包括:
预处理模块,所述预处理模块对文档-摘要数据对集合中的摘要进行预处理;
向量化模块,所述向量化模块对文档-摘要数据对集合中文档进行向量化,生成多个向量化文档;
聚类处理模块,所述聚类处理模块对所述向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;
特征词汇表生成模块,特征词汇表生成模块获取每个所述文档簇中的高频词,作为每个聚类类别的特征词汇表;以及
编码器&解码器框架模块,将多个所述向量化文档以及多个预处理后的摘要输入至所述编码器&解码器框架模块进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型;其中,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,基于该聚类类别的特征词汇表以及该文档的原文词汇表进行摘要词汇预测。
8.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至6中任一项所述的方法。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至6中任一项所述的方法。
CN202011305043.2A 2020-10-20 2020-11-20 用于生成式自动摘要生成的模型建立方法及摘要生成方法 Active CN112507111B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020111232987 2020-10-20
CN202011123298 2020-10-20

Publications (2)

Publication Number Publication Date
CN112507111A CN112507111A (zh) 2021-03-16
CN112507111B true CN112507111B (zh) 2024-02-06

Family

ID=74958841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011305043.2A Active CN112507111B (zh) 2020-10-20 2020-11-20 用于生成式自动摘要生成的模型建立方法及摘要生成方法

Country Status (1)

Country Link
CN (1) CN112507111B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11630958B2 (en) 2021-06-02 2023-04-18 Microsoft Technology Licensing, Llc Determining topic labels for communication transcripts based on a trained generative summarization model
CN114996441B (zh) * 2022-04-27 2024-01-12 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质
CN114968412B (zh) * 2022-06-20 2024-02-02 中国平安财产保险股份有限公司 基于人工智能的配置文件生成方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN111651996A (zh) * 2019-03-04 2020-09-11 北京嘀嘀无限科技发展有限公司 摘要生成方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法
CN111651996A (zh) * 2019-03-04 2020-09-11 北京嘀嘀无限科技发展有限公司 摘要生成方法、装置、电子设备及存储介质
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于K-means的政府公文聚类方法;王荻智;李建宏;施运梅;;软件导刊(06);全文 *
基于句子主题发现的中文多文档自动摘要研究;唐晓波;顾娜;谭明亮;;情报科学(03);全文 *

Also Published As

Publication number Publication date
CN112507111A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112507111B (zh) 用于生成式自动摘要生成的模型建立方法及摘要生成方法
Cocarascu et al. Identifying attack and support argumentative relations using deep learning
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN110598191B (zh) 一种基于神经网络的复杂pdf结构解析方法及装置
CN111626048A (zh) 文本纠错方法、装置、设备及存储介质
CN109670185B (zh) 基于人工智能的文本生成方法和装置
CN113822078B (zh) 融合xlm-r模型的机器翻译模型的训练方法
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
CN112269868A (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN110825843A (zh) 适于金融领域的训练方法、问答方法、装置及存储介质
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN113377909A (zh) 释义分析模型训练方法、装置、终端设备及存储介质
US20220375576A1 (en) Apparatus and method for diagnosing a medical condition from a medical image
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
CN112784884A (zh) 一种医学图像分类方法、系统、介质及电子终端
Wang et al. Unsupervised language model adaptation for handwritten Chinese text recognition
CN117332788B (zh) 一种基于英语口语文本的语义分析方法
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN116595979A (zh) 一种基于标签提示的命名实体识别方法、装置及介质
CN116248412A (zh) 共享数据资源异常检测方法、系统、设备、存储器及产品
CN115017260A (zh) 一种基于子主题建模的关键词生成方法
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
US20180276568A1 (en) Machine learning method and machine learning apparatus
CN114996466A (zh) 一种医学标准映射模型的建立方法、系统及使用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant