CN116976290B - 一种基于自回归模型的多场景资讯摘要生成方法以及装置 - Google Patents
一种基于自回归模型的多场景资讯摘要生成方法以及装置 Download PDFInfo
- Publication number
- CN116976290B CN116976290B CN202310724300.3A CN202310724300A CN116976290B CN 116976290 B CN116976290 B CN 116976290B CN 202310724300 A CN202310724300 A CN 202310724300A CN 116976290 B CN116976290 B CN 116976290B
- Authority
- CN
- China
- Prior art keywords
- information
- sentences
- text
- vector
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000006870 function Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于自回归模型的多场景资讯摘要生成方法以及装置,所述方法包括:获取用于生成摘要的规范化信息,其中,所述规范化信息包括多组同一类的语句;将多组所述语句输入到编码器中,依次转换为向量形式;将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量;将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本。与现有技术相比,本发明功能更加强大且全面,给予了更佳丰富的体验感觉,另外,摘要准确性及速度也得到了极大的提升。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于自回归模型的多场景资讯摘要生成方法以及装置。
背景技术
资讯摘要是以提供咨询内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。
目前,资讯摘要的现有技术主要有传统机器学习方法和基于规则的方法,其生成的摘要质量较差。
发明内容
本发明实施例提供了一种基于自回归模型的多场景资讯摘要生成方法以及装置,与现有技术相比,本发明功能更加强大且全面,给予了更佳丰富的体验感觉,另外,摘要准确性及速度也得到了极大的提升。
本发明提供一种基于自回归模型的多场景资讯摘要生成方法,所述方法包括:
获取用于生成摘要的规范化信息,其中,所述规范化信息包括多组同一类的语句;
将多组所述语句输入到编码器中,依次转换为向量形式;
将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量;
将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本。
在一可实施方式中,所述获取用于生成摘要的规范化信息,包括:
获取资讯文章信息;
对所述资讯文章信息进行数据清洗,以保留精炼的文章信息;
将经过数据清洗的资讯文章信息进行文本预处理,得到规范化数据。
在一可实施方式中,所述对所述资讯文章信息进行数据清洗,包括:
去除所述资讯文章信息中的噪声;
去除所述资讯文章信息中的重复信息;
去除所述资讯文章信息中的非法字符。
在一可实施方式中,所述将经过数据清洗的资讯文章信息进行文本预处理,得到规范化数据,包括:
针对所述资讯文章信息进行资讯场景分类;
去除所述所述资讯文章信息中无意义词汇;
筛选所述资讯文章信息中与摘要相关的文本段落;
将所述文本段落按照句子进行分割,生成多个语句;
对多个所述语句根据语义进行分类处理,得到规范化数据。
在一可实施方式中,权重系数s具体值为0.85。
在一可实施方式中,所述方法还包括:
对生成的摘要文本进行优化,以去除冗余信息、规范化句子结构以及优化语言表达。
在一可实施方式中,所述方法还包括:
对生成的摘要文本进行长度限制以及进行评分。
在一可实施方式中,所述方法还包括:
对生成的摘要文本进行后处理,以去除不必要的标点符号或重复的信息。
在一可实施方式中,在生成摘要文本的过程中,所述方法还包括:
通过相关领域的知识库,以检验所述摘要文本的准确性和可信度;
对所述摘要文本的长度、词句的出现次数进行限制;
通过对抗训练对摘要文本是否存在抄袭进行检验。
本发明另一方面提供一种基于自回归模型的多场景资讯摘要生成装置,所述装置包括:
信息获取模块,用于获取用于生成摘要的规范化信息,其中,所述规范化信息包括多组同一类的语句;
信息转换模块,用于将多组所述语句输入到编码器中,依次转换为向量形式;
上下文向量运算模块,用于将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量;
文本输出模块,用于将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本。
在本发明中,通过获取用于生成摘要的规范化信息,其中,规范化信息包括多组同一类的语句;将多组语句输入到编码器中,依次转换为向量形式;将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量;将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本。与现有技术相比,本发明功能更加强大且全面,给予了更佳丰富的体验感觉,另外,摘要准确性及速度也得到了极大的提升。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种基于自回归模型的多场景资讯摘要生成方法的实现流程示意图;
图2为本发明实施例一种基于自回归模型的多场景资讯摘要生成装置的结构组成图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种基于自回归模型的多场景资讯摘要生成方法,方法包括:
步骤101,获取用于生成摘要的规范化信息,其中,规范化信息包括多组同一类的语句;
步骤102,将多组语句输入到编码器中,依次转换为向量形式;
步骤103,将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量,其公式为:C=sum(alpha_i*h_i),其中,所述每个词的权重alpha_i的计算公式为:其中,C表示上下文向量,alpha_i表示每个词的权重,h_i表示每个词的隐层向量,sum表示对所有语句的加权求和,ei表示针对第i个位置的注意力得分,exp(ei)为指数函数,s表示权重提升系数,s的取值范围为0.25-1;
步骤104,将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本。
本实施例中,在步骤101中,规范化信息是用于后续生成摘要文本的前提,为资讯信息经过预处理后的信息数据,具体包括多组同一类的语句,其中,同一类的语句具体为相同含义、同义词、近义词的语句,例如“人工智能”与“AI”可以归为同一类。
在步骤102中,将多组语句依次输入到编码器中,将其转换为向量表示,其中,编码器具体可以是卷积神经网络(CNN)、循环神经网络(RNN)和Transformer Encoder。其中,RNN和Transformer Encoder对于序列文本数据的处理效果更好。
在步骤103中,在生成式摘要中,需要考虑上下文的影响,因此需要计算文本的上下文向量。通过RNN或Transformer Encoder进行计算,得到一个表示文本上下文信息的向量。具体地,上下文向量的计算可以采用词袋模型(Bag-of-Words)或TF-IDF(TermFrequency-Inverse Document Frequency)方法。词袋模型将文本中的每个词看作独立的单元,统计每个词出现的次数,并将其转化为向量形式。TF-IDF方法考虑了词频和逆文档频率,将文本中的每个词转化为一个向量表示,其中词频表示文本中某个词的出现次数,逆文档频率表示该词在整个语料库中的出现次数。
另外,为了更好地表达上下文信息,还可以使用基于神经网络的模型,如LSTM(Long Short-Term Memory)和Transformer等。这些模型可以自动学习上下文信息,并将其编码为向量形式。
其中,上下文信息的向量的公式为:C=sum(alpha_i*h_i),其中,所述每个词的权重alpha_i的计算公式为:其中,C表示上下文向量,alpha_i表示每个词的权重,h_i表示每个词的隐层向量,sum表示对所有语句的加权求和,ei表示针对第i个位置的注意力得分,exp(ei)为指数函数,s表示权重提升系数,s的取值范围为0.25-1。通过该公式,可提升每个语句权重,意味着提高了每个词句的重要性,使得最终生成的摘要文本更加准确且更加谨慎,不会丢失任何重要的信息。
在步骤104中,使用自回归模型(例如LSTM或Transformer Decoder)来解码生成,以逐步生成摘要文本,同时可提高摘要的可解决性。在生成的过程中,使用注意力机制帮助模型集中关注文本中的重要信息。
由此,通过获取用于生成摘要的规范化信息,其中,规范化信息包括多组同一类的语句;将多组语句输入到编码器中,依次转换为向量形式;将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量;将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本。与现有技术相比,本发明功能更加强大且全面,给予了更佳丰富的体验感觉,另外,摘要准确性及速度也得到了极大的提升。
在一可实施方式中,获取用于生成摘要的规范化信息,包括:
获取资讯文章信息;
对资讯文章信息进行数据清洗,以保留精炼的文章信息;
将经过数据清洗的资讯文章信息进行文本预处理,得到规范化数据。
本实施例中,步骤101的具体过程为:
首先获取整片资讯文章信息,对资讯文章信息进行数据清洗,清洗的主要目的是去除噪声、重复语句以及非法字符,最终保留精炼的文章信息,以便于后续摘要文本生成的准确率。
接着资讯文章信息对文本预处理,得到上述规范化数据,其中,文本预处理包括资讯场景分类、文本预处理、文本筛选、句子分割、规范化处理。
在一可实施方式中,对资讯文章信息进行数据清洗,包括:
去除资讯文章信息中的噪声;
去除资讯文章信息中的重复信息;
去除资讯文章信息中的非法字符。
本实施例中,噪声的去除,主要是去除HTML标签、图片、视频等,重复信息具体为相似或者重复的句子或段落,非法字符具体为毫无意义的符号。
噪声、重复信息以及非法字符的具体去除方式可以使用正则表达式和Python的re模块来实现。
在一可实施方式中,将经过数据清洗的资讯文章信息进行文本预处理,得到规范化数据,包括:
针对资讯文章信息进行资讯场景分类;
去除资讯文章信息中无意义词汇;
筛选资讯文章信息中与摘要相关的文本段落;
将文本段落按照句子进行分割,生成多个语句;
对多个语句根据语义进行分类处理,得到规范化数据。
本实施例中,规范化数据的具体步骤为:
首先需要对不同场景的资讯文章进行分类,以便为每个场景生成相应的摘要。目前实现场景分类主要采用了以下三种方法:
1、基于深度学习的分类方法:使用深度学习模型,例如卷积神经网络(CNN)、循环神经网络(RNN)、Transformer等,对资讯进行分类。通过训练模型,让其自动学习不同场景下的特征,从而实现分类。
2、基于关键词或短语的分类方法:根据每篇资讯所包含的关键词或短语,将其分类到对应的场景中。例如,一篇资讯包含“股票”、“金融”等关键词,则可以将其分类为金融类场景。
3、基于规则的分类方法:制定一些规则,例如资讯来源、关键词、文本长度等,根据这些规则将资讯分类到对应的场景中。
接着去除资讯文章信息中无意义词汇,具体包括文本的分词、停用词过滤、词性标注等。其中分词是指将一篇文章按照单词或汉字进行切割,停用词过滤是指去除一些常用的但没有实际意义的词汇,例如“的”、“了”、“在”等。词性标注是指将每个单词标注为其词性,例如“名词”、“动词”等。
接着筛选资讯文章信息中与摘要相关的文本段落,需要通过自然语言处理技术和机器学习算法来实现。以下是一些常用的方法:
1、使用文本摘要技术,比如基于TF-IDF或TextRank算法的自动摘要模型来提取出文本的关键句子和段落。
2、使用文本分类技术,比如基于朴素贝叶斯、支持向量机或深度学习神经网络的文本分类模型来对文本进行分类,从而找到主题句和核心段落。
3、使用主题建模技术,比如基于潜在狄利克雷分配(LDA)或隐含语义分析(LSA)的主题建模模型来识别文本的主题并提取相关句子和段落。
4、基于关键词提取:使用基于关键词提取的方法,比如使用TF-IDF或TextRank算法来提取出文本中的重要关键词,并据此找到相关的主题句和核心段落。
接着将文本段落按照句子进行分割,生成多个语句,可以采用标点符号或特定的分割符号来实现。
最后对多个语句根据语义进行分类处理,得到规范化数据,具体为将同义词和近义词进行统一处理,例如“人工智能”和“AI”可以归为同一类。
经过分类后的输入文本,依次执行文本筛选、句子分割、规范化处理操作,通过将原始的文本数据转换为适合进行自然语言处理的格式,以便于后续的分词、词向量化、文本分类、信息抽取等任务的进行。
在一可实施方式中,每个词的权重系数s=0.85。
本实施例中,每个词权重alpha_i是针对于资讯摘要领域所进行的改进,具体公式为相比较一般的权重公式,本实施例的权重值设置的比较高,含义为提高每个词句的重要性,实验测得,通过该公式,使得最终生成的摘要文本更加准确。
在一可实施方式中,方法还包括:
对生成的摘要文本进行优化,以去除冗余信息、规范化句子结构以及优化语言表达。
本实施例中,在生成摘要文本之后,对生成的摘要进行优化,例如去除冗余信息、规范化句子结构、优化语言表达等,以提高摘要质量。
在一可实施方式中,方法还包括:
对生成的摘要文本进行长度限制以及进行评分。
本实施例中,摘要文本在优化之后,采用一些技巧来控制生成的结果,限制器(例如最大长度或关键词)和评分机制(例如ROUGE评分),以帮助生成更加准确和流畅的摘要。评估主要从自动评估和人工评估两个角度考虑,其中BLEU、ROUGE等指标可用于自动评估,而人工评价则为对生成结果进行直观判断。
在一可实施方式中,方法还包括:
对生成的摘要文本进行后处理,以去除不必要的标点符号或重复的信息。
本实施例中,摘要文本在优化之后,生成的摘要需要进行后处理,例如去除不必要的标点符号或重复的信息,最终,将处理后的摘要输出给用户。
其中,后处理可以是:
1、使用正则表达式或字符串操作函数删除文本中的标点符号。
使用字符串操作函数或自然语言处理库去除文本中的重复信息,如重复单词、短语或句子。
2、对于长篇文章,可以使用自然语言处理技术,如词性标注、命名实体识别等,来提取有意义的信息,并去除无用的部分。
在一可实施方式中,在生成摘要文本的过程中,方法还包括:
通过相关领域的知识库,以检验摘要文本的准确性和可信度;
对摘要文本的长度、词句的出现次数进行限制;
通过对抗训练对摘要文本是否存在抄袭进行检验。
本实施例中,在生成摘要文本的过程中,需要对摘要文本进行抄袭限制,抄袭限制的具体过程详细说明如下:
1、引入知识库:在生成摘要时,通过引入相关的知识库或领域词典,来保证生成的摘要信息的准确性和可信度,从而减少抄袭现象的出现。
2、加入限制器:在生成摘要时,加入一些限制器,例如句子长度、单词出现次数等,来控制生成的结果,减少抄袭现象的出现。
3、采用对抗训练:通过采用对抗训练的方法,让模型不仅学习如何生成摘要,还学习如何检测和避免抄袭,从而提高模型的鲁棒性和可靠性。
4、结合人工审核:在生成摘要后,结合人工审核的方式进行抄袭检测,从而进一步提高摘要的质量和可信度。
通过将摘要处理模型引入知识库、加入限制器、采用对抗训练结合人工审核等方式,确保生成的摘要内容原创,不侵犯他人的知识产权,并将生成的摘要与原文进行比对,避免出现直接复制原文或者变换原文语序的情况。
综上所述,通过改进模型结构来提高精度,如引入注意力机制、增加层数、调整参数等。建立更大规模、更全面、更准确的摘要数据集,增加模型训练数据,提高模型的泛化能力。利用知识图谱等外部知识源来辅助生成摘要,增强生成摘要的精度和准确性。对生成的摘要进行后处理,如过滤一些无关信息、调整语言风格、减少重复内容等,提高生成摘要的质量。通过抄袭限制措施大大限制了抄袭现象的发生,对于资讯摘要的合法性、公正性和可信度都具有重要的意义。
本发明另一方面提供一种基于自回归模型的多场景资讯摘要生成装置,装置包括:
信息获取模块201,用于获取用于生成摘要的规范化信息,其中,规范化信息包括多组同一类的语句;
信息转换模块202,用于将多组语句输入到编码器中,依次转换为向量形式;
上下文向量运算模块203,用于将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量,其公式为:C=sum(alpha_i*h_i),其中,所述每个词的权重alpha_i的计算公式为: 其中,C表示上下文向量,alpha_i表示每个词的权重,h_i表示每个词的隐层向量,sum表示对所有语句的加权求和,ei表示针对第i个位置的注意力得分,exp(ei)为指数函数,s表示权重提升系数,s的取值范围为0.25-1;
文本输出模块204,用于将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本。
本实施例中,在信息获取模块201中,规范化信息是用于后续生成摘要文本的前提,为资讯信息经过预处理后的信息数据,具体包括多组同一类的语句,其中,同一类的语句具体为相同含义、同义词、近义词的语句,例如“人工智能”与“AI”可以归为同一类。
在信息转换模块202中,将多组语句依次输入到编码器中,将其转换为向量表示,其中,编码器具体可以是卷积神经网络(CNN)、循环神经网络(RNN)和TransformerEncoder。其中,RNN和Transformer Encoder对于序列文本数据的处理效果更好。
在上下文向量运算模块203中,在生成式摘要中,需要考虑上下文的影响,因此需要计算文本的上下文向量。通过RNN或Transformer Encoder进行计算,得到一个表示文本上下文信息的向量。具体地,上下文向量的计算可以采用词袋模型(Bag-of-Words)或TF-IDF(Term Frequency-Inverse Document Frequency)方法。词袋模型将文本中的每个词看作独立的单元,统计每个词出现的次数,并将其转化为向量形式。TF-IDF方法考虑了词频和逆文档频率,将文本中的每个词转化为一个向量表示,其中词频表示文本中某个词的出现次数,逆文档频率表示该词在整个语料库中的出现次数。
另外,为了更好地表达上下文信息,还可以使用基于神经网络的模型,如LSTM(Long Short-Term Memory)和Transformer等。这些模型可以自动学习上下文信息,并将其编码为向量形式。
在文本输出模块204中,使用自回归模型(例如LSTM或Transformer Decoder)来解码生成,以逐步生成摘要文本,同时可提高摘要的可解决性。在生成的过程中,使用注意力机制帮助模型集中关注文本中的重要信息。
由此,通过获取用于生成摘要的规范化信息,其中,规范化信息包括多组同一类的语句;将多组语句输入到编码器中,依次转换为向量形式;将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量;将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本。与现有技术相比,本发明功能更加强大且全面,给予了更佳丰富的体验感觉,另外,摘要准确性及速度也得到了极大的提升。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种基于自回归模型的多场景资讯摘要生成方法,其特征在于,所述方法包括:
获取用于生成摘要的规范化信息,其中,所述规范化信息包括多组同一类的语句;
将多组所述语句输入到编码器中,依次转换为向量形式;
将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量;
将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本;
将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量步骤中,其公式为:C=sum(alpha_i*h_i),其中,每个词的权重alpha_i的计算公式为:其中,C表示上下文向量,alpha_i表示每个词的权重,h_i表示每个词的隐层向量,sum表示对所有语句的加权求和,ei表示针对第i个位置的注意力得分,exp(ei)为指数函数,s表示权重提升系数,s的取值范围为0.25-1。
2.根据权利要求1所述的方法,其特征在于,所述获取用于生成摘要的规范化信息,包括:
获取资讯文章信息;
对所述资讯文章信息进行数据清洗,以保留精炼的文章信息;
将经过数据清洗的资讯文章信息进行文本预处理,得到规范化数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述资讯文章信息进行数据清洗,包括:
去除所述资讯文章信息中的噪声;
去除所述资讯文章信息中的重复信息;
去除所述资讯文章信息中的非法字符。
4.根据权利要求2所述的方法,其特征在于,所述将经过数据清洗的资讯文章信息进行文本预处理,得到规范化数据,包括:
针对所述资讯文章信息进行资讯场景分类;
去除所述所述资讯文章信息中无意义词汇;
筛选所述资讯文章信息中与摘要相关的文本段落;
将所述文本段落按照句子进行分割,生成多个语句;
对多个所述语句根据语义进行分类处理,得到规范化数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对生成的摘要文本进行优化,以去除冗余信息、规范化句子结构以及优化语言表达。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对生成的摘要文本进行长度限制以及进行评分。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对生成的摘要文本进行后处理,以去除不必要的标点符号或重复的信息。
8.根据权利要求1所述的方法,其特征在于,在生成摘要文本的过程中,所述方法还包括:
通过相关领域的知识库,以检验所述摘要文本的准确性和可信度;
对所述摘要文本的长度、词句的出现次数进行限制;
通过对抗训练对摘要文本是否存在抄袭进行检验。
9.一种基于自回归模型的多场景资讯摘要生成装置,其特征在于,所述装置包括:
信息获取模块,用于获取用于生成摘要的规范化信息,其中,所述规范化信息包括多组同一类的语句;
信息转换模块,用于将多组所述语句输入到编码器中,依次转换为向量形式;
上下文向量运算模块,用于将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量;
文本输出模块,用于将表示上下文信息的向量输入到自回归模型中进行解码,生成摘要文本;
将向量形式的多组语句进行上下文向量运算,得到表示上下文信息的向量步骤中,其公式为:C=sum(alpha_i*h_i),其中,每个词的权重alpha_i的计算公式为:其中,C表示上下文向量,alpha_i表示每个词的权重,h_i表示每个词的隐层向量,sum表示对所有语句的加权求和,ei表示针对第i个位置的注意力得分,exp(ei)为指数函数,s表示权重提升系数,s的取值范围为0.25-1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310724300.3A CN116976290B (zh) | 2023-06-19 | 2023-06-19 | 一种基于自回归模型的多场景资讯摘要生成方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310724300.3A CN116976290B (zh) | 2023-06-19 | 2023-06-19 | 一种基于自回归模型的多场景资讯摘要生成方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116976290A CN116976290A (zh) | 2023-10-31 |
CN116976290B true CN116976290B (zh) | 2024-03-19 |
Family
ID=88484003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310724300.3A Active CN116976290B (zh) | 2023-06-19 | 2023-06-19 | 一种基于自回归模型的多场景资讯摘要生成方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976290B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN109948162A (zh) * | 2019-03-25 | 2019-06-28 | 北京理工大学 | 融合序列语法标注框架的生成式文本摘要方法 |
CN111046672A (zh) * | 2019-12-11 | 2020-04-21 | 山东众阳健康科技集团有限公司 | 多场景文本摘要生成方法 |
CN111325571A (zh) * | 2019-12-30 | 2020-06-23 | 北京航空航天大学 | 一种多任务学习的商品评论标签自动生成方法、装置及系统 |
CN111597327A (zh) * | 2020-04-22 | 2020-08-28 | 哈尔滨工业大学 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
CN111897949A (zh) * | 2020-07-28 | 2020-11-06 | 北京工业大学 | 一种基于Transformer的引导性文本摘要生成方法 |
CN112765345A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种融合预训练模型的文本摘要自动生成方法及系统 |
CN113961706A (zh) * | 2021-11-02 | 2022-01-21 | 南京大学 | 一种基于神经网络自注意力机制的精确文本表示方法 |
CN115374270A (zh) * | 2021-12-21 | 2022-11-22 | 一拓通信集团股份有限公司 | 一种基于图神经网络的法律文本摘要生成方法 |
CN115906805A (zh) * | 2022-12-12 | 2023-04-04 | 长春理工大学 | 基于词细粒度的长文本摘要生成方法 |
-
2023
- 2023-06-19 CN CN202310724300.3A patent/CN116976290B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN109948162A (zh) * | 2019-03-25 | 2019-06-28 | 北京理工大学 | 融合序列语法标注框架的生成式文本摘要方法 |
CN111046672A (zh) * | 2019-12-11 | 2020-04-21 | 山东众阳健康科技集团有限公司 | 多场景文本摘要生成方法 |
CN111325571A (zh) * | 2019-12-30 | 2020-06-23 | 北京航空航天大学 | 一种多任务学习的商品评论标签自动生成方法、装置及系统 |
CN111597327A (zh) * | 2020-04-22 | 2020-08-28 | 哈尔滨工业大学 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
CN111897949A (zh) * | 2020-07-28 | 2020-11-06 | 北京工业大学 | 一种基于Transformer的引导性文本摘要生成方法 |
CN112765345A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种融合预训练模型的文本摘要自动生成方法及系统 |
CN113961706A (zh) * | 2021-11-02 | 2022-01-21 | 南京大学 | 一种基于神经网络自注意力机制的精确文本表示方法 |
CN115374270A (zh) * | 2021-12-21 | 2022-11-22 | 一拓通信集团股份有限公司 | 一种基于图神经网络的法律文本摘要生成方法 |
CN115906805A (zh) * | 2022-12-12 | 2023-04-04 | 长春理工大学 | 基于词细粒度的长文本摘要生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116976290A (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287822B (zh) | 一种中文相似问题生成系统与方法 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
Millstein | Natural language processing with python: natural language processing using NLTK | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN107315734A (zh) | 一种基于时间窗口和语义的变体词规范化的方法和系统 | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN111563167B (zh) | 文本分类系统及方法 | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
Saifullah et al. | Automated text annotation using a semi-supervised approach with meta vectorizer and machine learning algorithms for hate speech detection | |
CN111046168B (zh) | 用于生成专利概述信息的方法、装置、电子设备和介质 | |
Sukhavasi et al. | Effective automated transformer model based sarcasm detection using multilingual data | |
CN116976290B (zh) | 一种基于自回归模型的多场景资讯摘要生成方法以及装置 | |
Akhtar et al. | A machine learning approach for Urdu text sentiment analysis | |
Schönle et al. | Linguistic-Aware WordPiece Tokenization: Semantic Enrichment and OOV Mitigation | |
Kaur et al. | Text Generator using Natural Language Processing Methods | |
Xue et al. | Sentiment analysis based on weibo comments | |
Xin et al. | Text feature-based copyright recognition method for comics | |
AbuElAtta et al. | Arabic Regional Dialect Identification (ARDI) using Pair of Continuous Bag-of-Words and Data Augmentation. | |
Sarkar et al. | Sentiment analysis in Bengali Text using NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |