CN112559729B - 一种基于层次多维变压器模型的文档摘要计算方法 - Google Patents
一种基于层次多维变压器模型的文档摘要计算方法 Download PDFInfo
- Publication number
- CN112559729B CN112559729B CN202011421016.1A CN202011421016A CN112559729B CN 112559729 B CN112559729 B CN 112559729B CN 202011421016 A CN202011421016 A CN 202011421016A CN 112559729 B CN112559729 B CN 112559729B
- Authority
- CN
- China
- Prior art keywords
- key
- model
- paragraphs
- words
- transformer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于层次多维变压器模型的文档摘要计算方法,属于自然语言处理领域和机器学习领域。该方法在段落拆分与识别阶段,通过文档主题特征词预处理,将文档划分成多个段落,保留以特征词开头的段落,舍弃无关键特征的非重点段落,提高了计算效率;在重点句识别阶段,利用海量语料预训练多层变压器语言模型,在标注句语料上,训练句子权重判断模型,实现了识别段落中重点句,舍弃一般语句的目的;在重点字词识别阶段,利用重点字词标注语料,基于无长度限制的海量语料预训练多层变压器语言模型,训练字词序列到序列的权重模型,根据字词评分保留阈值内高评分,舍弃其他字词,提高了摘要计算精度。
Description
技术领域
本发明提出一种基于层次多维多层变压器的文档摘要计算方法,属于自然语言处理领域和机器学习领域。
背景技术
随着互联网的蓬勃发展,近年来企业、政府、个人的信息化数据都在急剧增长。并且随着社交媒体的出现与发展,非正式生活场景语料也在急剧增长。
如何利用有限的时间资源与计算资源,迅速寻找满足用户需求的正式内容与非正式内容是一个学术界与工业界共同的研究热点。
在自然语言处理领域,传统的变压器模型是一种结构良好的深度神经网络表示组件,被广泛应用于各类语言任务中。
在文本摘要计算方面,已有的基于规则的摘要计算方法受到规则制约,迁移效果较差,不满足通用领域摘要计算需求。而基于深度神经网络的摘要算法如BERTSUM(变压器摘要算法)摘要粒度上仅支持句子级别处理,因而不够理想。对于文本摘要计算,经典变压器算法具有运算资源大、难以快速计算的缺点;对于海量文本摘要计算方法,近年来也较少新算法提出,海量文本摘要计算的时间代价仍很高。本发明利用文本中的重点段落和句子以及无长度限制的变压器语言模型字词级抽取方法,高效而准确计算文本摘要,为海量数据处理提供了高效摘要计算关键技术。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于重点段落和句子以及无长度限制的变压器语言模型字词级抽取文本摘要方法。该发明基于预训练变压器语言模型,能够突破变压器算法的长度限制,将长句中的关键字词提取到摘要中,保留了计算精度,且节省了资源开销。
本发明提出一种层次多维多层变压器的文档摘要计算方法,其层次性体现在对文本的段、句、字和词等不同层次的处理方法上,具有多粒度特性,其特征在于,包括以下步骤:
1.段落拆分与识别阶段;具体步骤如下:
1-1)根据文档主题特征词将文档划分成多个段落;
1-2)保留以特征词开头的段落,舍弃其他段落。
2.重点句识别阶段;具体步骤如下:2-1)在训练阶段,利用标注句语料,基于海量语料预训练多层变压器语言模型,训练句子权重判断模型;
2-2)识别阶段,利用基于变压器的句子权重判断模型识别段落中重点句,舍弃其他句子;
3.重点字词识别阶段;具体步骤如下:3-1)在训练阶段,利用重点字词标注语料,基于无长度限制的海量语料预训练多层变压器语言模型,训练字词序列到序列的权重模型;
3-2)在识别阶段,利用无长度限制的海量语料预训练多层变压器语言模型序列到序列模型,根据字词评分保留阈值内高评分,舍弃其他字词。
本发明的特点及有益效果在于:
本发明采用重点段落识别技术,利用段落特征词保留重点段落,舍弃了大部分非重点文本,提高了计算效率,节约了计算资源;另外,根据抽样原理,基于限定长度的预训练变压器语言模型,设计了重点句识别方法;最后,基于无长度限制的预训练变压器语言模型,设计了重点字词识别的序列到序列模型,提高了计算精度。
附图说明
图1为本发明方法的整体流程图。
图2为本发明段落拆分与识别阶段流程图。
图3为本发明重点句识别流程图。
图4为本发明重点字词识别流程图。
具体实施方式
本发明提出一种基于层次多维多层变压器的文档摘要计算方法,下面结合附图和具体实施例对本发明进一步详细说明。
整体流程如图1所示,包括以下步骤:
1.段落拆分与重点段落识别阶段;算法流程如图2所示;具体步骤如下:
1-1)根据文档主题特征词将文档划分成多个段落;
1-2)保留以特征词开头的段落,舍弃其他段落。
2.重点句识别阶段;算法流程如图3所示;具体步骤如下:
2-1)在训练阶段,在标注句语料上训练基于海量语料预训练多层变压器语言模型,得到句子权重判断模型;
2-2)文本句子经过裁剪保留固定长度,经长度限制的变压器预训练语言模型编码后,依次经过遗忘层、全连接层,最终连接到重要性分类输出;
2-3)识别阶段,利用基于多层变压器中句子的多个编码状态充分表示句子特征,计算句子重要性权重,从而识别段落重点句,舍弃其他句子;
3.重点字词识别阶段;算法流程如图4所示;具体步骤如下:
3-1)在训练阶段,利用重点字词标注语料,基于无长度限制的海量语料预训练多层变压器语言模型,训练字词序列到序列的权重模型;
3-2)文本字词序列经无长度限制的变压器预训练语言模型编码后,依次连接遗忘层、全连接层,最后连接到字词重点标记序列输出;
3-3)无长度限制的变压器其优点在于,采用段记忆模块与相对位置编码机制来解决变压器存在的长序列计算过程中的计算效率问题,从而解决长距离序列依赖问题;
3-4)在识别阶段,利用无长度限制的海量语料预训练多层变压器语言模型序列到序列模型,根据字词评分保留阈值内高评分,舍弃其他字词。
算法流程简明易懂,计算过程高效,大大提升了文档摘要计算方法的效率。
由此可见,本发明达到了预期目的。
Claims (1)
1.一种基于变压器模型的文档摘要计算方法,其特征在于,包括以下步骤:
步骤1.段落拆分与识别阶段;具体步骤如下:
步骤1-1.根据文档主题特征词将文档划分成多个段落;
步骤1-2.保留以特征词开头的段落,舍弃其他段落;
步骤2.重点句识别阶段;具体步骤如下:
步骤2-1.在训练阶段,利用标注句语料,基于海量语料预训练多层变压器语言模型,训练句子权重判断模型;
步骤2-2.识别阶段,利用基于变压器的句子权重判断模型识别段落中重点句,舍弃其他句子;
步骤3.重点字词识别阶段;具体步骤如下:
步骤3-1.在训练阶段,利用重点字词标注语料,基于无长度限制的海量语料预训练多层变压器语言模型,训练字词序列到序列的权重模型;
步骤3-2.在识别阶段,利用无长度限制的海量语料预训练多层变压器语言模型以及序列到序列模型,根据字词评分保留阈值内高评分的字词,舍弃其他字词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011421016.1A CN112559729B (zh) | 2020-12-08 | 2020-12-08 | 一种基于层次多维变压器模型的文档摘要计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011421016.1A CN112559729B (zh) | 2020-12-08 | 2020-12-08 | 一种基于层次多维变压器模型的文档摘要计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559729A CN112559729A (zh) | 2021-03-26 |
CN112559729B true CN112559729B (zh) | 2022-06-24 |
Family
ID=75059486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011421016.1A Active CN112559729B (zh) | 2020-12-08 | 2020-12-08 | 一种基于层次多维变压器模型的文档摘要计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559729B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03191475A (ja) * | 1989-12-20 | 1991-08-21 | Nec Corp | 文書要約方式 |
US7451395B2 (en) * | 2002-12-16 | 2008-11-11 | Palo Alto Research Center Incorporated | Systems and methods for interactive topic-based text summarization |
CN105808561A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种从网页中提取摘要的方法和装置 |
CN109086267B (zh) * | 2018-07-11 | 2022-07-26 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
CN111858912A (zh) * | 2020-07-03 | 2020-10-30 | 黑龙江阳光惠远知识产权运营有限公司 | 一种基于单篇长文本的摘要生成方法 |
-
2020
- 2020-12-08 CN CN202011421016.1A patent/CN112559729B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112559729A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
Zhang et al. | A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model | |
Alwehaibi et al. | Comparison of pre-trained word vectors for arabic text classification using deep learning approach | |
CN106096664B (zh) | 一种基于社交网络数据的情感分析方法 | |
CN111143549A (zh) | 一种基于主题的舆情情感演化的方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN112883171B (zh) | 基于bert模型的文档关键词抽取方法及装置 | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
CN112347255B (zh) | 基于图网络的标题和正文结合的文本分类方法 | |
CN111144119A (zh) | 一种改进知识迁移的实体识别方法 | |
CN113032541A (zh) | 一种基于bert并融合句群检索的答案抽取方法 | |
CN107894975A (zh) | 一种基于Bi‑LSTM的分词方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN117010387A (zh) | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
Ayifu et al. | Multilingual named entity recognition based on the BiGRU-CNN-CRF hybrid model | |
CN113609840B (zh) | 一种汉语法律判决摘要生成方法及系统 | |
Yu et al. | IDCNN-CRF-based domain named entity recognition method | |
CN107943783A (zh) | 一种基于lstm‑cnn的分词方法 | |
Antit et al. | TunRoBERTa: a Tunisian robustly optimized BERT approach model for sentiment analysis | |
CN116910272B (zh) | 基于预训练模型t5的学术知识图谱补全方法 | |
CN110414556A (zh) | 一种基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法 | |
CN110222344A (zh) | 一种针对小学生作文辅导的作文要素分析算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |