CN112417865A - 一种基于文章和标题动态融合的摘要提取方法及系统 - Google Patents
一种基于文章和标题动态融合的摘要提取方法及系统 Download PDFInfo
- Publication number
- CN112417865A CN112417865A CN202011392074.6A CN202011392074A CN112417865A CN 112417865 A CN112417865 A CN 112417865A CN 202011392074 A CN202011392074 A CN 202011392074A CN 112417865 A CN112417865 A CN 112417865A
- Authority
- CN
- China
- Prior art keywords
- vector
- article
- title
- abstract
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于文章和标题动态融合的摘要提取方法及系统,该方法包括:S1、获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量;S2、以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量;S3、将融合向量替换标题向量重新执行步骤S2直至达到预设循环次数,输出最终融合向量;S4、根据最终融合向量计算句子概率分布并按预设规则选择摘要句,得到文章摘要。该系统包括:预处理模块、动态融合与交互模块和预测与选择模块。本发明提高了最终提取摘要的精确性。本发明作为一种基于文章和标题动态融合的摘要提取方法及系统,可广泛应用于文本摘要提取领域。
Description
技术领域
本发明属于文本摘要提取领域,尤其涉及一种基于文章和标题动态融合的摘要提取方法及系统。
背景技术
文本摘要是自然语言处理的一项基本而富有挑战的工作,相关方法已经成为自然语言处理领域的重要组成部分。文本摘要的目标是从输入的文章中得到最符合文章意思的几句作为文章的摘要。文本摘要的方法主要分为提取式摘要和生成式摘要两种,提取式是指从文章中直接选择重要的句子作为摘要句,而生成式是指从根据文章内容生成单词组成摘要。传统提取式摘要的方法通常简单比对文章中单词占比或者句子特征之间的相似性,选择其中相似性最高的几个句子作为摘要句。显然这样的方法误差较大而且不同文章的差异性明显。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于文章和标题动态融合的摘要提取方法及系统,充分利用标题向量信息,并且捕获文本和提取摘要句之间的潜在逻辑关系来预测未来的摘要句,解决了当前提取式摘要精确度不高的问题。
本发明所采用的第一技术方案是:一种基于文章和标题动态融合的摘要提取方法,包括以下步骤:
S1、获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量;
S2、以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量;
S3、将融合向量替换标题向量重新执行步骤S2直至达到预设循环次数,输出最终融合向量;
S4、根据最终融合向量计算句子概率分布并按预设规则选择摘要句,得到文章摘要。
进一步,还包括:
基于交叉熵损失方法计算选择的摘要句与参考选择句的差异,得到模型损失;
基于模型损失更新网络参数。
进一步,所述获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量这一步骤,其具体包括:
获取数据集并根据数据集得到文章和标题;
对文章和标题进行句子拆分并添加分词重新拼接,初始化得到预处理向量;
基于预构建的自编码模型对预处理向量进行映射处理,得到文章向量和标题向量。
进一步,所述以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量这一步骤,其具体包括:
以标题向量为指引,并基于多头注意力机制学习向量之间的相关性,得到句子间的语义关系;
根据句子间的语义关系,采用线性映射和sigmoid函数计算文章向量中句子的分数值;
根据分数值排名,得到待融合向量和对应的分数值;
计算待融合向量中对应的句子的重要性比重,并转换为文章高级抽象表征;
将文章高级抽象表征与标题向量动态融合,得到融合向量。
进一步,计算文章向量中句子的分数值的具体计算公式如下:
进一步,选择分数排名前k的句子,计算这k个待融合向量中对应的句子的重要性比重,具体计算公式如下:
进一步,所述转换为文章高级抽象表征具体计算公式如下:
进一步,所述将文章高级抽象表征与标题向量动态融合具体计算公式如下:
本发明所采用的第二技术方案是:一种基于文章和标题动态融合的摘要提取系统,包括以下模块:
预处理模块,用于获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量;
动态融合与交互模块,用于以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量,在得到融合向量后将融合向量替换标题向量重新执行动态融合步骤直至达到预设循环次数,输出最终融合向量;
预测与选择模块,用于根据最终融合向量计算句子概率分布并按预设规则选择摘要句,得到文章摘要。
本发明方法及系统的有益效果是:本发明提出了一种新颖的标题与文章之间的信息交互动态融合块,能够充分利用标题向量信息,并且捕获文本和提取摘要句之间的潜在逻辑关系来预测未来的摘要句,以提高最终提取摘要的精确性。
附图说明
图1是本发明具体实施例一种基于文章和标题动态融合的摘要提取方法的步骤流程图;
图2是本发明具体实施例一种基于文章和标题动态融合的摘要提取系统的结构框图;
图3是本发明具体实施例整体流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
本发明提出基于文章和标题的动态融合模型提取式摘要模型及建模方法。该发明探索了提取式文本摘要的新视角,充分利用标题来指导摘要预测。同时提出了一种新颖的标题与文章之间的信息交互动态融合块,充分利用标题向量。并且捕获文本和已各提取摘要之间的潜在逻辑关系来预测未来的摘要句,最终提高提取摘要的精确性。本发明由下面几个部分组成
如图1和图3所示,本发明提供了一种基于文章和标题动态融合的摘要提取方法,该方法包括以下步骤:
S1、获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量;
S2、以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量;
S3、将融合向量替换标题向量重新执行步骤S2直至达到预设循环次数,输出最终融合向量;
S4、根据最终融合向量计算句子概率分布并按预设规则选择摘要句,得到文章摘要。
进一步作为本方法的优选实施例,还包括:
基于交叉熵损失方法计算选择的摘要句与参考选择句的差异,得到模型损失;
基于模型损失更新网络参数。
进一步作为本方法优选实施例,所述获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量这一步骤,其具体包括:
获取数据集并根据数据集得到文章和标题;
对文章和标题进行句子拆分并添加分词重新拼接,初始化得到预处理向量;
具体地,把文章及标题每句先拆分出来,然后在前后分别添加[CLS],[SEP]分词构成新的句子再拼接起来作为模型初始化输入。实际输入到模型是每个分词对应单词表的位置所构成的向量。令文章向量输出为其中Ls为文章长度;而对于文章中第i句向量表示其中为第i句话中的第j个单词。对于标题向量其中Lt为标题的单词数目。
基于预构建的自编码模型对预处理向量进行映射处理,得到文章向量和标题向量。
进一步作为本发明的优选实施例,所述以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量这一步骤,其具体包括:
以标题向量为指引,并基于多头注意力机制学习向量之间的相关性,得到句子间的语义关系;
具体地,该部分为匹配层,在这里采用了多头注意力机制,它能够学习两个向量之间的相关性,对于长文档中语义捕获有重要作用。对于每一层中第H个Attention的相关匹配学习公式为:
另外,之后将这H个Attention模块线性拼接起来,并对该拼接向量使用正则化和残差网络操作:
Ul+1=Gl;
在完成匹配层的计算和交互之后,能够学习到标题向量的高级语义,之后会再使用动态选择和融合的方式来选择核心的摘要语句与标题融合。
根据句子间的语义关系,采用线性映射和sigmoid函数计算文章向量中句子的分数值;
具体地,此时使用Gl作为计算文章各句子分数值的标准,采用线性映射并sigmoid的方式得到每个句子的分数值。
根据分数值排名,得到待融合向量和对应的分数值;
计算待融合向量中对应的句子的重要性比重,并转换为文章高级抽象表征;
具体地,获取前TOP–K对应的句子及其向量之后,先计算各个句子的重要性比重以便后续转换。
将文章高级抽象表征与标题向量动态融合,得到融合向量。
进一步作为本发明优选实施例,计算文章向量中句子的分数值的具体计算公式如下:
进一步作为本发明优选实施例,选择分数排名前k的句子,计算这k个待融合向量中对应的句子的重要性比重,具体计算公式如下:
进一步作为本方法的优选实施例,转换为文章高级抽象表征的具体计算公式如下:
进一步作为本方法的优选实施例,将文章高级抽象表征与标题向量动态融合的具体计算公式如下:
进一步作为本方法优选实施例,动态融合与交互模块的最后一层的GL,将作为预测与选择模块的输入,计算文章各个句子的被选择概率值,选择概率前三的句子作为这篇文章的摘要句,计算公式为:
Yp=sigmoid(WLGL+bl);
进一步作为本方法优选实施例,模型训练的损失函数是由最终对文章每个句子的预测值和参考选择句(依据贪心算法计算得到的ORACLE值)之间的交叉熵损失,相关损失函数为:
Loss=-(log(Yp)+(1-Yt)log(1-Yp));
通过最小化损失函数,优化整个模型参数以实现在测试集的最佳预测结果。
如图2和图3所示,一种基于文章和标题动态融合的摘要提取系统,包括以下模块:
预处理模块,用于获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量;
具体地,通过所述的预处理模块首先在实验数据中对文章和标题进行处理,并将两者使用自编码预训练模型BERT映射为高级向量U,V。
动态融合与交互模块,用于以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量,在得到融合向量后将融合向量替换标题向量重新执行动态融合步骤直至达到预设循环次数,输出最终融合向量;
具体地,模块具有多层结构,可利用它基于标题可以提高从文章中动态选择重要向量的准确性的假设,并且将这些向量与标题进行融合,以捕获文章和摘要之间的潜在逻辑,以提高模型的性能。该模块首先把预处理模块处理得到的高级特征向量作为输入,标题向量将作为指引,来指导计算文章各句子的分数值。之后选择分数排名前K的向量(当中包含摘要句的潜在信息)与标题向量融合作为下一层的输入。
预测与选择模块,用于根据最终融合向量计算句子概率分布并按预设规则选择摘要句,得到文章摘要。
具体地,该模块也会计算当前的损失函数loss,用于模型的参数调整。
上述系统实施例中的内容均适用于本方法实施例中,本方法实施例所具体实现的功能与上述系统实施例相同,并且达到的有益效果与上述系统实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种基于文章和标题动态融合的摘要提取方法,其特征在于,包括以下步骤:
S1、获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量;
S2、以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量;
S3、将融合向量替换标题向量重新执行步骤S2直至达到预设循环次数,输出最终融合向量;
S4、根据最终融合向量计算句子概率分布并按预设规则选择摘要句,得到文章摘要。
2.根据权利要求1所述一种基于文章和标题动态融合的摘要提取方法,其特征在于,还包括:
基于交叉熵损失方法计算选择的摘要句与参考选择句的差异,得到模型损失;
基于模型损失更新网络参数。
3.根据权利要求2所述一种基于文章和标题动态融合的摘要提取方法,其特征在于,所述获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量这一步骤,其具体包括:
获取数据集并根据数据集得到文章和标题;
对文章和标题进行句子拆分并添加分词重新拼接,初始化得到预处理向量;
基于预构建的自编码模型对预处理向量进行映射处理,得到文章向量和标题向量。
4.根据权利要求3所述一种基于文章和标题动态融合的摘要提取方法,其特征在于,所述以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量这一步骤,其具体包括:
以标题向量为指引,并基于多头注意力机制学习向量之间的相关性,得到句子间的语义关系;
根据句子间的语义关系,采用线性映射和sigmoid函数计算文章向量中句子的分数值;
根据分数值排名,得到待融合向量和对应的分数值;
计算待融合向量中对应的句子的重要性比重,并转换为文章高级抽象表征;
将文章高级抽象表征与标题向量动态融合,得到融合向量。
9.一种基于文章和标题动态融合的摘要提取系统,其特征在于,包括以下模块:
预处理模块,用于获取数据集并对数据集中的文章和标题进行预处理,得到文章向量和标题向量;
动态融合与交互模块,用于以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合,得到融合向量,在得到融合向量后将融合向量替换标题向量重新执行动态融合步骤直至达到预设循环次数,输出最终融合向量;
预测与选择模块,用于根据最终融合向量计算句子概率分布并按预设规则选择摘要句,得到文章摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011392074.6A CN112417865B (zh) | 2020-12-02 | 2020-12-02 | 一种基于文章和标题动态融合的摘要提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011392074.6A CN112417865B (zh) | 2020-12-02 | 2020-12-02 | 一种基于文章和标题动态融合的摘要提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417865A true CN112417865A (zh) | 2021-02-26 |
CN112417865B CN112417865B (zh) | 2023-01-31 |
Family
ID=74829739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011392074.6A Active CN112417865B (zh) | 2020-12-02 | 2020-12-02 | 一种基于文章和标题动态融合的摘要提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417865B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060080309A1 (en) * | 2004-10-13 | 2006-04-13 | Hewlett-Packard Development Company, L.P. | Article extraction |
US20060206806A1 (en) * | 2004-11-04 | 2006-09-14 | Motorola, Inc. | Text summarization |
WO2010053362A1 (en) * | 2008-11-05 | 2010-05-14 | Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno | A system for tracking a presence of persons in a building, a method and a computer program product |
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
CN109918496A (zh) * | 2018-12-27 | 2019-06-21 | 杭州环形智能科技有限公司 | 一种基于多词汇摘要的精确文档检索方法 |
CN111061862A (zh) * | 2019-12-16 | 2020-04-24 | 湖南大学 | 一种基于注意力机制生成摘要的方法 |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-02 CN CN202011392074.6A patent/CN112417865B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060080309A1 (en) * | 2004-10-13 | 2006-04-13 | Hewlett-Packard Development Company, L.P. | Article extraction |
US20060206806A1 (en) * | 2004-11-04 | 2006-09-14 | Motorola, Inc. | Text summarization |
WO2010053362A1 (en) * | 2008-11-05 | 2010-05-14 | Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno | A system for tracking a presence of persons in a building, a method and a computer program product |
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
CN109918496A (zh) * | 2018-12-27 | 2019-06-21 | 杭州环形智能科技有限公司 | 一种基于多词汇摘要的精确文档检索方法 |
CN111061862A (zh) * | 2019-12-16 | 2020-04-24 | 湖南大学 | 一种基于注意力机制生成摘要的方法 |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112417865B (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Keneshloo et al. | Deep reinforcement learning for sequence-to-sequence models | |
CN111581510A (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN110609897A (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN113779361A (zh) | 基于多层注意力机制的跨模态检索模型的构建方法及应用 | |
EP3707622A1 (en) | Generation of text from structured data | |
CN111324769A (zh) | 视频信息处理模型的训练方法、视频信息处理方法及装置 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN112699686A (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
Xiao et al. | A new attention-based LSTM for image captioning | |
do Carmo Nogueira et al. | Reference-based model using multimodal gated recurrent units for image captioning | |
CN114385806A (zh) | 一种基于深度学习的文本摘要方法及系统 | |
CN111739520A (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN114780582A (zh) | 基于表格问答的自然答案生成系统及其方法 | |
do Carmo Nogueira et al. | A reference-based model using deep learning for image captioning | |
Tarride et al. | A comparative study of information extraction strategies using an attention-based neural network | |
Hafeth et al. | Semantic representations with attention networks for boosting image captioning | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
CN113343692A (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
CN117131155A (zh) | 多类目识别方法、装置、电子设备及储存介质 | |
CN112989803A (zh) | 一种基于主题向量学习的实体链接模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |