CN116894089A - 摘要生成方法、装置、设备、存储介质及产品 - Google Patents
摘要生成方法、装置、设备、存储介质及产品 Download PDFInfo
- Publication number
- CN116894089A CN116894089A CN202311009460.6A CN202311009460A CN116894089A CN 116894089 A CN116894089 A CN 116894089A CN 202311009460 A CN202311009460 A CN 202311009460A CN 116894089 A CN116894089 A CN 116894089A
- Authority
- CN
- China
- Prior art keywords
- abstract
- content
- key
- text object
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000003860 storage Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims description 77
- 238000004458 analytical method Methods 0.000 claims description 26
- 239000012634 fragment Substances 0.000 claims description 22
- 230000004931 aggregating effect Effects 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 14
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 13
- 230000000452 restraining effect Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 230000008014 freezing Effects 0.000 claims description 5
- 238000007710 freezing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 34
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract description 15
- 238000002360 preparation method Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 238000012916 structural analysis Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000282836 Camelus dromedarius Species 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 241001416177 Vicugna pacos Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013019 agitation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了摘要生成方法、装置、设备、存储介质及产品,属于人工智能技术领域。该方法包括对长文本对象进行分片,得到多个内容单元。对各内容单元分别进行关键内容提取,得到长文本对象的文本对象关键内容,基于该关键信息进行模板构造得到摘要提示信息,该摘要提示信息用于约束目标摘要的生成结果,将该摘要提示信息输入摘要生成模型的摘要生成器进行内容预测,得到目标摘要,该摘要生成器由大型生成式语言模型通过提示学习得到。该方法可以对长文本对象实现一次性的摘要生成。既利用到了大型生成式语言模型自身丰富的文本处理方面的知识提升了摘要生成效果,又对该大型生成式语言模型进行提示学习,缩短了训练周期,降低了数据准备难度。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种摘要生成方法、装置、设备、存储介质及产品。
背景技术
随着移动互联网和内容领域的快速发展,对文本内容的理解需求越来越强烈。对于不同的应用场景和应用需求,相关技术提供了多种摘要生成方案。但是,相关技术中的摘要生成方案普遍对于文本长度有较为明显的限制,也就是说,相关技术对于长文本的摘要提取能力不足。
而且,相关技术中用于进行摘要提取的摘要生成模型需要依赖大量的样本进行训练,导致了训练周期长和数据准备困难的问题。
发明内容
本申请实施例提供了一种摘要生成方法、装置、设备、存储介质及产品,能够提供针对长文本的准确的内容理解能力,并且基于内容理解结果生成准确的摘要,摘要的生成依赖于通过提示学习得到的摘要生成器,从而解决了训练周期长和数据准备困难的问题。
根据本申请实施例的一个方面,提供了一种摘要生成方法,所述方法包括:
对文本对象进行内容结构解析,得到所述文本对象对应的索引信息,所述文本对象的数据量大于关键内容提取模型的单次数据处理上限值;
根据所述索引信息对所述文本对象进行分片,得到所述文本对象对应的多个内容单元,每一所述内容单元的数据量小于或等于所述单次数据处理上限值;
基于所述关键内容提取模型分别对各所述内容单元进行关键内容提取,得到文本对象关键内容;根据所述文本对象关键内容,构造摘要提示信息,所述摘要提示信息为用于约束目标摘要的生成结果的提示数据,所述提示数据包括所述文本对象关键内容与预设摘要模板,所述预设摘要模板包括待预测的摘要内容标签;
将所述摘要提示信息输入摘要生成模型的摘要生成器,触发所述摘要生成器基于所述摘要提示信息对所述待预测的摘要内容标签进行内容预测,得到标签预测结果;
根据所述预设摘要模板和所述标签预测结果,得到目标摘要;
其中,所述摘要生成器由大型生成式语言模型通过提示学习得到。
根据本申请实施例的一个方面,提供了一种摘要生成装置,所述装置包括:
结构解析模块,用于对文本对象进行内容结构解析,得到所述文本对象对应的索引信息,所述文本对象的数据量大于关键内容提取模型的单次数据处理上限值;
分片模块,用于根据所述索引信息对所述文本对象进行分片,得到所述文本对象对应的多个内容单元,每一所述内容单元的数据量小于或等于所述单次数据处理上限值;
提示信息构造模块,用于基于所述关键内容提取模型分别对各所述内容单元进行关键内容提取,得到文本对象关键内容;根据所述文本对象关键内容,构造摘要提示信息,所述摘要提示信息为用于约束目标摘要的生成结果的提示数据,所述提示数据包括所述文本对象关键内容与预设摘要模板,所述预设摘要模板包括待预测的摘要内容标签;
摘要生成模块,用于将所述摘要提示信息输入摘要生成模型的摘要生成器,触发所述摘要生成器基于所述摘要提示信息对所述待预测的摘要内容标签进行内容预测,得到标签预测结果;以及,根据所述预设摘要模板和所述标签预测结果,得到目标摘要;
其中,所述摘要生成器由大型生成式语言模型通过提示学习得到。
根据本申请实施例的一个方面,提供了一种摘要生成系统,所述系统包括:关键内容提取模型、摘要生成模型和摘要评分模型,所述关键内容提取模型和所述摘要评分模型均与所述摘要生成模型通信连接,
所述关键内容提取模型用于对文本对象进行内容结构解析,得到所述文本对象对应的索引信息,所述文本对象的数据量大于所述关键内容提取模型的单次数据处理上限值;以及,根据所述索引信息对所述文本对象进行分片,得到所述文本对象对应的多个内容单元,每一所述内容单元的数据量小于或等于所述单次数据处理上限值;分别对各所述内容单元进行关键内容提取,得到文本对象关键内容;
所述摘要生成模型用于基于所述文本对象关键内容,构造摘要提示信息,所述摘要提示信息为用于约束目标摘要的生成结果的提示数据,所述提示数据包括所述文本对象关键内容与预设摘要模板,所述预设摘要模板包括待预测的摘要内容标签;将所述摘要提示信息输入所述摘要生成模型的摘要生成器,触发所述摘要生成器基于所述摘要提示信息对所述待预测的摘要内容标签进行内容预测,得到标签预测结果;根据所述预设摘要模板和所述标签预测结果,得到目标摘要;其中,所述摘要生成器由大型生成式语言模型通过提示学习得到;
所述摘要评分模型用于对所述目标摘要的质量进行评分。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述摘要生成方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述摘要生成方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现上述摘要生成方法。
本申请实施例提供的摘要生成方案可以带来如下有益效果:
该摘要生成方法可以对文件对应的长文本对象就其本身的内容进行结构解析,从而得到索引信息,基于该索引信息对长文本对象进行分片,得到多个内容单元。每个内容单元是在关键内容提取模型的单次数据处理上限值以内的,也就是说,本申请实施例通过内容切分突破了长文本对象的篇幅瓶颈。在结构解析的基础上,可以对各内容单元分别进行关键内容提取,然后得到长文本对象的文本对象关键内容,因为该文本对象关键内容是基于各内容单元各自的关键内容所得到的,所以该文本对象关键内容既包括了长文本对象的核心内容,又不会占据较大数据量。
基于该文本对象关键内容即可构造摘要提示信息,该摘要提示信息用于约束目标摘要的生成结果,将该摘要提示信息输入摘要生成模型的摘要生成器进行内容预测,即可得到目标摘要,其中,该摘要生成器由预设的大型生成式语言模型通过提示学习得到。大型生成式语言模型本身就是通过大量语料预训练得到的文本处理模型,其包括丰富的文本理解知识和内容背景知识,通过提示学习对大型生成式语言模型进行摘要生成指导,可以提升摘要生成效果上限。本申请实施例的提示学习作为一种预训练大型生成式语言模型的新的微调范式,可以通过添加提示约束的方法来避免为预训练大型生成式语言模型的调参过程引入额外的参数,从而让该预训练大型生成式语言模型可以在小样本场景下针对下游的摘要生成任务达到理想的效果。既利用到了大型生成式语言模型自身丰富的文本处理方面的知识,又可以对该大型生成式语言模型进行提示学习,指导该大型生成式语言模型自动输出高质量的摘要,从而提高摘要生成效果上限。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的应用程序运行环境的示意图;
图2是本申请一个实施例提供的摘要生成方法的流程图;
图3是本申请一个实施例提供的摘要提示信息构造方法的流程图;
图4是本申请一个实施例提供的摘要生成系统示意图;
图5是本申请一个实施例提供的即时通讯系统的技术框架示意图;
图6是本申请一个实施例提供的群组信息处理过程示意图;
图7是本申请一个实施例提供的摘要生成装置的框图;
图8是本申请一个实施例提供的摘要生成系统的框图;
图9是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
在介绍本申请提供的方法实施例之前,先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍,以便于本申请领域技术人员理解。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
自然语言处理(NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
LLM:大型语言模型(英文Large Language Model,简称LLM)是指能够处理和生成自然语言的计算机模型。它代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子,随着输入数据集与参数空间的不断扩大,LLM的能力也会相应提高。它用于多种应用领域,如机器人学、机器学习、机器翻译、语音识别、图像处理等,所以被称为多模态大型语言模型(MLLM)。
Instruction Tuning:指令微调,是指针对每个任务,单独生成指令(instruction),通过在若干个任务上进行微调,然后在具体的任务上进行评估泛化能力。通常是在公开的大量的NLP任务数据集合上进行的,用于激发语言模型的理解能力,通过给出更明显的指令,让模型去理解并做出正确的反馈。
Prompt tuning: 提示学习,机器学习当中的一类学习方法:在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加“提示信息”、 作为一种信息增强来通过指令微调大幅改善模型的效果,他可以看作是一种对任务的指令,同时也是一种对预训练目标的复用,其本质是参数有效性训练的增强,通过单独生成模板,然后在每个任务上进行微调与评估。
RLHF: 人类反馈强化学习(Reinforcement Learning with Human Feedback)是强化学习的一个扩展,它将人类的反馈纳入训练过程,为机器提供了一种自然的、人性化的互动学习过程。除了奖励信号外,RLHF 代理从人类得到反馈,以更广泛的视角和更高的效率学习,与人类从另一个人的专业知识中学习的方式相似。通过在代理和人类之间架起一座桥梁,RLHF 允许人类直接指导机器,并允许机器掌握明显嵌入人类经验中的决策要素,作为一种有效的对齐技术,RLHF 能够一定程度上帮助减轻大型语言模型(LLM)产生的有害内容并提高信息完整性。
BERT(Bidirectional Encoder Representation from Transformers,基于转换模型的双向编码表示模型),是大规模文本预训练模型,BERT用12层的transformerencoder (转换模型编码器)将自然语言处理任务的基准性能提高了一大截。相比word2vec(词向量),经过海量文本预训练的BERT能够在分类算法中引入更多的迁移知识,提供更精准的文本特征。
Transformer:是一种神经网络,它通过分析序列数据中的关系来学习上下文并因此学习含义。Transformer 模型应用了一组不断发展的数学技术,称为注意力或自我注意力,以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。在2017 年Google 的一篇论文中首次描述,Transformer 是迄今为止发明的最新和最强大的模型类别之一,也可以称之为 transformer AI。
摘要:Summary摘要又称概要、内容提要,意思是摘录要点或摘录下来的要点,它是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。其基本要素包括研究目的、方法、结果和结论。具体地讲就是研究工作的主要对象和范围,采用的手段和方法,得出的结果和重要的结论,有时也包括具有情报价值的其他重要的信息。 摘要应具有独立性和自明性,并且拥有与文献同等量的主要信息,即不阅读全文,就能获得必要的信息。这里引申为对长文件大篇幅内容的关键信息总结和提炼描述,便于快速熟悉和了解文件内容的概要,不是完全学术定义上的摘要。
在具体阐述本申请实施例之前,对与本申请实施例有关的相关技术背景进行介绍,以便于本申请领域技术人员理解。
社交网络,即社交网络服务(SNS,Social Networking Services),是指以一定社会关系或共同兴趣为纽带、以各种形式为在线聚合的用户提供沟通、交互服务的互联网应用。这种以人与人关系为核心的方式建立的社会关系网络映射在互联网上就形成了以用户为中心、以人为本的互联网应用。社交网络含义包括硬件、软件、服务及应用,由于四字构成的词组更符合人的构词习惯,因此人们习惯上用社交网络。
社交需求、尊重需求和自我实现需求等人们精神有关的人文需求是社会发展中的更高层次。这些需求在“社交网络”中实现随着一切皆网络化,现在的互联网比任何时候都与日常生活息息相关,社交网络出现与发展,都是网络满足信息需求的具体体现。这些社交网络存在各种海量的用户形成了海量用户关系,而且还有各种各样的用户群组。群主在创建群以后,可以邀请朋友或者有共同兴趣爱好的人到一个群里面聊天。在群内除了聊天,还提供了群空间服务,在群空间中,用户可以使用群相册、共享文件、群视频等方式进行交流。
典型的群包括:(1)兴趣爱好类:以兴趣爱好为主题,如音乐、电影、旅游、美食等等;(2) 行业交流类:以各行各业为主题,如IT、金融、医疗、教育等等;(3)生活服务类:以生活服务为主题,如房屋租赁、二手交易、拼车出行、宠物养护等等。用户可以在群内发布信息和需求,方便快捷地解决生活中的问题;(4)学术研究类:以学术研究为主题,如科研、论文写作、学术交流等等;(5)娱乐休闲类:以娱乐休闲为主题,如游戏、娱乐、聊天、交友等等。用户可以在群内找到志同道合的伙伴,一起玩乐和聊天。
群组可以分为公共群组、私人群组和秘密群组三种类型。这些群组的讨论随着参与人员的变多,有一些变得非常活跃会沉淀不少有用的信息,一段时间都会有大量的文件内容产生,目前对这些文件的检索和处理主要是基于文件本身的名称或者用户在上传内容的时候对文件本身的分类和标签或者介绍描述信息,基于这些浅层的数据建立关键字或者词索引来实现搜索和文件级的定位处理等功能,对于文件内部的内容本身缺乏深入了解,也没有办法基于文件内部的内容进行理解比如基于文件内容的来回答各种问题。如果需要理解文件内容,还需要人工打开文件,人工阅读和理解内容,而且没法把理解的结果和信息固化下来,因此,目前指示把群文件当做文件保存的空间,没有办法根据用户针对文件内容提出的问题,如果文档中有相关答案则直接返回答案,否则就提示用户文档中没有涉及相关内容等的深度理解与处理。类似还有各种网盘保存文件的应用也是一样,没办法提供基于深度理解与处理的服务。为了快速分析和提炼这些内容,通常就需要对这些内容进行摘要提取和总结。好的摘要结果应具有独立性和自明性,并且拥有与文件内容同等量的主要信息,即不阅读全文,就能获得必要的信息,这样才能对于文件的处理和阅读效率得到极大的改善。传统的摘要提取模型的选择取决于应用场景和需求,种类很多:
1.基于统计:统计词频,位置等信息,计算句子权值,再简选取权值高的句子作为文摘,实现简单,速度快,但是忽略上下文信息和语义关系,对于群聊这种存在复杂上下文关系的场景适用效果不好;
2.基于图模型:构建拓扑结构图,对词句进行排序,然后根据排序结果生成文本摘要。
3.基于潜在语义:使用主题模型,挖掘词句隐藏信息,达到摘要提取的目的。
4.基于整数规划:将文摘问题转为整数线性规划,求全局最优解,形成摘要。
5.基于机器学习的算法:如分类器、聚类等。这些算法通过训练模型来识别文本中的重要内容。但缺点是需要大量标注数据和计算资源。
6.基于深度学习的算法:如Seq2Seq(序列到序列)、Transformer等。这些算法通过神经网络学习文本的表示和生成摘要。优点是可以处理复杂的文本结构和语义关系,但缺点是需要大量的训练数据和计算资源。
总结一下,上述这些方案对文件的长度篇幅均有明显的限制,更重要的基于人工智能的摘要生成方案均需要大量的训练数据和计算资源,同时需要人工标注对应的类型文件和领域内容的大量的样本,才能取得一定的效果,成本很高,开发和建模的周期也很长。更何况,社交网络的群组聊天参与人员很多,讨论的主题和共享的文本文件类型也非常多,而且有非常多垃圾和冗余信息,许多信息并不是所有人都需要知道或关心的,传统的文件摘要技术更偏向的是学术性质内容提取,不适合群组件场景,这就更加需要提供一种能够对文本进行处理并生成长摘要信息的技术方案,该技术方案应当具备下述技术效果:
(1)可以帮助用户快速了解长文件内容的主题,并筛选出文件当中重要信息,从而提高工作效率和减少信息过载,节省用户的时间和精力;
(2)通过有效提取在办公场景下保存的文本文件的长摘要信息,对摘要建立索引实现对文件内容本身的高效理解和处理。
为了突破摘要提取场景下相关技术对于文件长度的限制,扩大摘要提取技术的适用范围,尤其是提供针对长篇幅的文件内容的摘要信息的提取能力,本申请实施例提供一种摘要生成方法。该摘要生成方法可以对文件本身的内容进行结构解析,从而得到索引信息,基于该索引信息对文件对应的长文本对象进行分片,得到多个内容单元。每个内容单元是在关键内容提取模型的单次数据处理上限值以内的,也就是说,本申请实施例通过内容切分突破了长文本对象的篇幅瓶颈。在结构解析的基础上,可以对各内容单元分别进行关键内容提取,然后得到长文本对象的文本对象关键内容,因为该长文本对象的文本对象关键内容是基于各内容单元各自的关键内容所得到的,所以该文本对象关键内容既包括了长文本对象的核心内容,又不会占据较大数据量。
基于该文本对象关键内容即可构造摘要提示信息,该摘要提示信息用于约束目标摘要的生成结果,将该摘要提示信息输入上述摘要生成模型的摘要生成器进行内容预测,即可得到目标摘要,其中,该摘要生成器由预设的大型生成式语言模型通过提示学习得到。大型生成式语言模型本身就是通过大量语料预训练得到的文本处理模型,其包括丰富的文本理解知识和内容背景知识,通过提示学习对大型生成式语言模型进行摘要生成指导,可以提升摘要生成效果上限。本申请实施例的提示学习作为一种预训练大型生成式语言模型的新的微调范式,可以通过添加提示约束的方法来避免为预训练大型生成式语言模型的调参过程引入额外的参数,从而让该预训练大型生成式语言模型可以在小样本场景下针对下游的摘要生成任务达到理想的效果。既利用到了大型生成式语言模型自身丰富的文本处理方面的知识,又可以对该大型生成式语言模型进行提示学习,指导该大型生成式语言模型自动输出高质量的摘要,从而提高摘要生成效果上限。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式做进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。
在本申请实施例中,上述应用程序可以是任何能够提供摘要生成服务的应用程序。典型地,该应用程序为通讯类应用程序。当然,除了通讯类应用程序之外,其它类型的应用程序中也可以提供依赖摘要生成的服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality,VR)类应用程序、增强现实(Augmented Reality,AR)类应用程序等,本申请实施例对此不作限定。本申请实施例对此不作限定。可选地,终端10中运行有上述应用程序的客户端。
服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器20同时为多个终端10中的应用程序提供后台服务。
可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参考图2,其示出了本申请一个实施例提供的摘要生成方法的流程图。该方法可应用于计算机设备中,上述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤:
步骤201,对文本对象进行内容结构解析,得到上述文本对象对应的索引信息,上述文本对象的数据量大于关键内容提取模型的单次数据处理上限值。
在一些实施方式中,本申请可以获取多媒体对象,上述多媒体对象可以包括但不限于文本内容对象、图片内容对象、图文内容对象、音频内容对象、视频内容对象、音视频内容对象、音视频图文内容对象。将多媒体对象中的内容文字化形成文本对象后,即可使用本申请实施例的摘要生成方法。
在一个可行的实施方式中,上述方法应用于摘要生成系统,上述摘要生成系统包括文本内容存储器和索引管理器,上述对文本对象进行内容结构解析,得到上述文本对象对应的索引信息,包括:对上述文本内容存储器中存储的文本对象进行内容结构解析,生成索引信息;将上述索引信息存储在上述索引管理器中,上述索引信息至少包括下述一种:显示索引、结构索引,上述结构索引包括下述至少一个:篇章索引、段落索引。
本申请实施例并不限定文本内容存储器,比如,其可以是COS存储。COS存储(CloudObject Storage, COS),是由云架构平台提供的存储服务,优点是存储无格式限制、无存储容量上限、稳定性高。本申请实施例使用的多媒体对象或者文本对象,都可以被存储在COS存储服务之中。本申请实施例并不限定索引管理器,比如,其可以基于FAISS构建。FAISS全称(Facebook Al Similarity Search)是开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类. 支持十亿级别向量的搜索,是目前较成熟的近似近邻搜索库。
本申请实施例所针对的文本对象可以是长文本对象,也就是指,上述文本对象的数据量大于关键内容提取模型的单次数据处理上限值。本申请实施例并不对关键内容提取模型进行限定,其可以基于相关技术的文本处理模型训练得到,或者直接使用相关技术中预训练的语言处理模型,比如,可以使用大型语言模型,即LLM模型。LLM模型底层输入长度有限,如果将LLM模型用于关键内容提取,则该LLM模型底层输入长度即为关键内容提取模型的单次数据处理上限值。文本对象的来源可以有很多,比如,电子书或者群消息记录等,这类文本对象可以先进行内容结构解析,得到索引信息。本申请实施例并不对内容结构解析的具体方式进行限定,比如,如果文本对象是文档,则可以使用相关技术中的文档分析组件,依据文档的具体格式来对文本对象进行解析。如果文本对象是扫描文件,则可以对该扫描文件进行光学字符识别,根据识别结果解析其中的章节、段落等结构信息。
本申请实施例可以得到的索引信息可以包括下述至少一个:显示索引、结构索引,上述结构索引包括下述至少一个:篇章索引、段落索引。为了便于按照章节或者段落等结构显示文本对象中特定内容而设置的索引为显示索引。为了便于提取文本对象中特定内容而设置的索引为结构索引。结构索引包括篇章索引和段落索引的至少一个。结构索引不仅可以用于快速定位到实际的文本内容,还可以用于基于具体的文本内容快速检索该文本内容的上下文信息。
步骤202,根据上述索引信息对上述文本对象进行分片,得到上述文本对象对应的多个内容单元,每一上述内容单元的数据量小于或等于上述单次数据处理上限值。
本申请实施例并不限定分片的具体方法,只需要使得分片后所得到的每个内容单元的数据量小于或等于上述单次数据处理上限值即可,这样每个内容单元中的数据即可被输入关键内容提取模型进行处理。
S203. 基于上述关键内容提取模型分别对各上述内容单元进行关键内容提取,得到文本对象关键内容;根据上述文本对象关键内容,构造摘要提示信息,上述摘要提示信息为用于约束目标摘要的生成结果的提示数据,上述提示数据包括上述文本对象关键内容与预设摘要模板,上述预设摘要模板包括待预测的摘要内容标签。
本申请实施例中上述关键内容提取模型分别对各上述内容单元进行关键内容提取。本申请实施例中的关键内容可以包括对应的内容单元中的重点段落或者重点章节中的内容,为了便于说明,本申请实施例将该重点段落或者重点章节中的内容简称为关键片段,在一些实施方式中,该关键内容还可以包括关键片段相关的上下文,本申请实施例并不限定单个内容单元中的关键片段数量。在一些实施方式中,关键内容还可以包括关键片段的索引。
上述摘要生成模型还包括模板构造器,该模板构造器用于构造摘要提示信息。请参考图3,其示出摘要提示信息构造方法的流程图,该方法包括:
S301.基于上述关键内容提取模型分别对各上述内容单元进行关键内容提取,得到各上述内容单元分别对应的关键内容。
本申请实施例中可以基于上述关键内容提取模型分别对每一上述内容单元进行关键内容提取,得到上述内容单元中的至少一个关键片段。在对每一个内容单元进行处理的时候,还可以提取每一上述关键片段的上下文信息;聚合各上述关键片段、以及每一上述关键片段对应的上下文信息,得到上述关键内容。本申请实施例并不限定具体的聚合方式,可以直接拼接,也可以在拼接之后删除重复的内容后得到聚合结果,并将该聚合结果作为上述关键内容。
在一些实施方式中,还可以针对每一上述关键内容执行下述操作:提取上述关键内容对应的关联内容,上述关联内容为上述关键内容所在的内容单元中与上述关键内容的语义相似度满足预设要求的内容。关联内容中包括与该内容单元中与关键内容是语义高度相关的重点段落或者重点章节。本申请实施例并不对预设要求进行限定,比如,可以设定语义相似度阈值,或者设定内容单元中与该关键内容语义相似度最高的TOPN的内容作为该关联内容,其中N是大于等于1的正整数,其值可以自行设定。
在一些实施例中,可以对每个内容单元中的关键片段以及关键片段的上下文进行编码,得到该内容单元对应的关键片段编码结果,将该关键片段编码结果存储在索引管理器中。当然,本申请实施例对该编码不做限定,比如,可以使用BERT模型进行编码,或者使用Transformer进行编码,也可以使用预训练模型(Pre-Training Model,PTM)编码。在步骤S301执行过程中,可以针对每一内容单元,基于上述内容单元对应的关键片段的索引,在上述文本内容存储器中提取关键片段。基于上述内容单元对应的关键片段编码结果,在上述索引管理器中进行检索,得到同一内容单元中的关联内容的索引信息,上述关联内容的编码结果与上述内容单元对应的关键片段编码结果的相似度满足上述预设要求。
S302.基于各上述关键内容进行信息聚合,得到上述文本对象关键内容。
在一个实施例中,可以聚合各上述关键内容,以及各上述关键内容分别对应的关联内容,得到上述文本对象关键内容。本申请实施例并不对聚合进行限定,文本处理领域常见的聚合方式都可以使用,比如,可以直接拼接得到文本对象关键内容。在一个可行的实施方式中,可以根据上述关联内容的索引信息,在上述文本内容存储器中提取关联段落片段;聚合各关键片段以及各关联段落片段,得到上述文本对象关键内容。还可以进一步地,聚合各关键片段以及各关联段落片段各自的上下文,得到上述文本对象关键内容。
S303.将上述文本对象关键内容输入上述模板构造器,得到上述摘要提示信息。
摘要提示信息包括上述文本对象关键内容与预设摘要模板,其中,预设摘要模板是为了得到符合要求的目标摘要所构建的模板,用于约束目标摘要的生成结果,提升目标摘要的质量,预设摘要模板中包括若干摘要内容标签,从而将目标摘要的生成过程转化为摘要内容标签的预测过程。本申请实施例并不限定模板构造器的具体操作,该模板构造器可以生成任务定义描述信息、任务输入信息和任务输出提示信息。任务定义描述信息表示所有摘要生成任务定义的描述提示方式和要求,比如摘要的具体字数限制要求,输出摘要的条数,包括的内容以及所属类目、及关注内容含量的约束,用户的个性设置要求等等。任务输入信息具体表示任务输入的信息,其可以包括上述文本对象关键内容。上述任务输出提示信息包括下述至少一项内容:字数要求信息、关键字信息、生成结果提示信息。任务输出提示信息可以对输出的摘要的要求进一步定义更多细节,通过细节约束提升后验效果。上述任务描述信息、上述任务输入信息和上述任务输出提示信息中可自由设计待预测的摘要内容标签的占位个数,当然这个占位个数受控于摘要生成器能预测的内容体量。
S204. 将上述摘要提示信息输入摘要生成模型的摘要生成器,触发上述摘要生成器基于上述摘要提示信息对上述待预测的摘要内容标签进行内容预测,得到标签预测结果。根据上述预设摘要模板和上述标签预测结果,得到目标摘要。其中,上述摘要生成器由大型生成式语言模型通过提示学习得到。
为了提升本申请实施例的摘要生成的效果上限,本申请实施例中的摘要生成器由预设的大型生成式语言模型通过结合上述模板构造器输出的摘要提示信息进行提示学习得到。随着技术的快速发展,自从2022年底ChatGPT出现之后,各种类型大型生成式语言模型发展非常快速,本申请实施例中的摘要生成器就属于这一类大型生成式语言模型,可以将其理解为主体架构为基于Transform模型构建的参数数量大于预设值的生成式语言模型,当然,对于该预设值本领域技术人员可以自行确定。
相关技术中大型生成式语言模型有很多,比如 GPT 3.0 和 GPT 3.5 就有一系列的模型版本,还有Alpaca、Camel等,本申请实施例可以使用开源的双语(英汉)双向密集预训练大型生成式语言模型,其拥有 130B亿个参数,使用通用语言模型(General LanguageModel, GLM)的算法进行预训练,在该模型基础上通过提示学习得到本申请实施例的摘要生成器。
本申请实施例中,为充分发挥大模型的能力,设计了一种基于提示学习的方案来激发大型生成式语言模型的能力,核心是通过构造提示信息进行小规模调整参数适配服务,来达到充分利用大模型能力为具体的摘要生成服务的目的。提示信息作为一种信息增强的数据,目的是使得大模型明确需要做什么任务,输出什么内容,即本质是复用大型预训练生成式语言模型在预训练阶段所使用的目标和参数,在其基础上冻结部分参数和层,从而在节省硬件计算资源和存储资源的基础上,通过冻结部分模型参数,调整部分参数使得调参后的大型生成式语言模型在实际的业务场景落地使用,同时能够降低建模的成本和提升建模的效率。
在一个实施例中,上述摘要生成系统中的摘要生成器通过下述方法训练得到:对样本文本对象进行内容结构解析,得到上述样本文本对象对应的索引信息;根据上述索引信息对上述样本文本对象进行分片,得到多个样本内容单元;基于上述关键内容提取模型分别对各上述样本内容单元进行关键内容提取所得到的结果,构造样本摘要提示信息;将上述样本摘要提示信息输入大型生成式语言模型,触发上述大型生成式语言模型基于上述样本摘要提示信息输出样本摘要;根据上述样本摘要、与上述样本文本对象对应的预设摘要之间的差异,调节上述大型生成式语言模型的参数,得到上述摘要生成器。
本申请实施例中训练环节中模板构造器和大型生成式语言模型所执行的操作分别与前文中模板构造器以及摘要生成器执行的操作一致,在此不做赘述。在一个实施方式中,上述根据上述样本摘要、与上述样本文本对象对应的预设摘要之间的差异,调节上述大型生成式语言模型的参数,得到上述摘要生成器,包括:对上述大型生成式语言模型中预设参数进行冻结处理;基于上述样本摘要、与上述样本文本对象对应的预设摘要之间的差异,计算交叉熵损失;根据上述交叉熵损失,调整上述大型生成式语言模型中未被冻结的参数,得到上述摘要生成器。
本申请实施例并不限定具体冻结哪些参数,可以根据实际情况进行选择,这也跟具体使用的大型生成式语言模型的具体结构有关,选择方式并不构成本申请实施例的实施障碍,对此,不做赘述。
本申请实施例中可以基于梯度下降法对未被冻结的参数进行调整。梯度下降法是机器学习和深度学习领域中进行网络参数调整时经常使用的、通过梯度下降的方式对网络参数进行一阶最优化调整的方法。本申请实施例中梯度下降法可以引导上述参数向减少损失的方向进行调整。当调整次数达到预设的次数阈值,或者当损失小于预设的损失阈值的情况下,停止调参,得到上述摘要生成器。
摘要生成器的训练过程其实是一种提示学习,这一学习方法充分利用大型生成式语言模型包含的背景知识。在训练过程中设计了样本摘要提示信息,将其构造以后注入大型生成式语言模型当中,利用更优更好的基础预训练模型获取基础信息,结合提示学习得到更适合摘要生成这一业务的垂直领域的模型,最后在智能摘要生成中实现字数可控和质量多样性可控的最终结果,并且能够通过持续利用业务反馈收集的数据,补充少量导向样本,定期通过后验目标样本快速进行生成模型周期更新,使摘要生成模型更快捕捉新的内容摘要范式,更好适应业务的发展。
在一些实施方式中,为提高摘要生成的准确率,还通过统计分析挖掘关键易错词,在训练样本过程中,引导模型向不生成包含关键易错词的摘要的方向学习,使摘要生成器具有关键易错词知识去躁能力,这样最终对业务很有帮助。为了保证最后实际任务输出的效果能够达到预期,还可以引入RLHF持续控制最终输出的摘要质量。
在一个实施方式中,本申请实施例还可以获取上述目标摘要对应的评分,上述评分表征上述目标摘要的摘要质量;根据上述目标摘要和上述摘要评分,构建摘要评分模型;根据上述摘要评分模型对上述摘要生成器生成的、针对同一文本对象的不同摘要进行选择,得到上述同一文本对象的推荐摘要。也就是说,通过对摘要质量进行RLHF持续评分控制,可以筛选优质摘要,使得推荐摘要的质量更加稳定。评分越高摘要质量也越好,可以根据场景需要选择评分满足用户期望摘要作为推荐摘要。
请参考图4,其示出本申请实施例的摘要生成系统示意图。该摘要生成系统包括文本内容存储器和索引管理器,其中文本内容存储器可以用于存储原始的多媒体对象,或者由多媒体对象文字化而来的文本对象,该文本对象可以来自pdf、doc、web等格式的文件。对文本对象进行内容结构解析,可以得到索引信息,索引信息被存储在索引管理器中。
如果文本对象过大,则对文本对象进行分片处理,得到多个内容单元。针对每个内容单元,都使用关键内容提取模型进行关键内容提取,以及基于相似度匹配定位的思想进行关联内容提取,将各内容单元对应的这两部分的提取结果及其上下文信息一并进行聚合,得到文本对象关键内容。该关键内容提取模型可以为大型语言模型(LLM)。当然,LLM输出的关键内容还可以被编码,将编码结果存储在索引管理器中。文本对象关键内容可以被送入摘要生成模型生成目标摘要。在分布式向量检索中,利用FAISS框架,可以实现分布式的高维近邻检索平台,采用大规模向量检索的K临近算法可以在千万级向量中以几十毫秒的效率高效召回TopN相似内容,从而实现关联内容快速的定位和检索。本申请实施例即可利用FAISS框架构建索引管理器,从而实现快速关联内容提取。针对每个内容单元,都可以使用相似度匹配定位模块来实现该关联提取。
当然,如果文本对象并不过大,可以不进行分片,而是直接进行关键内容提取和关联内容提取,将这两部分的提取结果及其上下文信息一并进行聚合,得到文本对象关键内容。文本对象关键内容可以被送入摘要生成模型生成目标摘要。
具体地,文本对象关键内容被输入摘要生成模型的模板构造器,得到摘要提示信息,将该摘要提示信息一次性输入到摘要生成器,得到目标摘要。摘要生成器是基于大型语言模型通过提示学习得到的。
上述摘要生成方案是一种一次性输出摘要的技术方案,有别于相关技术中先生成每个分片对应的摘要,然后根据各分片的摘要再生成一次摘要的技术方案,本申请的一次性输出摘要的技术方案可以避免摘要再摘要的错误累计,通过分片方式,可以循环提取各内容单元的关键信息得到最终的文本对象关键内容,最终可以适配任意长度的文本内容的摘要提取要求,最终一次性输出整体内容的摘要。
本申请实施例提供的摘要生成方法尤其适合于对长文本对象进行摘要生成。该技术方案有别于相关技术中的摘要算法,充分发挥大型语言模型的能力,充分利用大型语言模型当中的知识和一定逻辑推理能力,对各种不同结构的长篇幅的文本文件,都能够很好适配。通过分片和聚合2个大的环节,提取到长文本对象的核心内容,然后基于该核心内容构建摘要提示信息,从而一次性提取摘要,避免摘要再摘要的累积误差,确保摘要生成结果描述的连贯性。
在分片和聚合环节,通过对长文本对象进行解析,建立相关的索引,结合语义匹配相似度召回,聚合各个位置的核心内容,构造最终的摘要提示信息。基于摘要生成器即可一次性输出摘要。摘要生成器是由大型语言模型的极少部分参数在提示学习中进行微调所得到的,可以实现大型语言模型能力的有效复用。大型语言模型有很强的自然语言处理能力,可以理解上下文,因此对于复杂上下文场景下生成的长文本对象具备很好的摘要生成能力。比如,对于社交软件中的群组中的信息生成的长文本对象、网盘中的长文本对象等,都可以进行很好的摘要生成。
本申请实施例可以广泛地应用于任意需要长文本对象理解的应用场景之中。以社交场景为例,社交网络比如群组,群空间中存在大量的文件内容,尤其是长文件内容,使用本申请实施例提供的摘要生成方法可以快速理解出长文件中的摘要主题,筛选出重要信息,从而提高工作效率和减少信息过载,节省用户的时间和精力,比传统的摘要系统能够有更好的扩展和花费更低的建模成本。并且摘要提取过程中充分利用大型生成式语言模型强大的自然语言处理能力,理解上下文信息和语义关系,从而生成更准确、更全面、更可读的文件摘要,减少累积的误差和有更好的适应性。再比如,在网云场景中,能够对群文件和网盘文件中长文件进行深度理解,可以大大降低用户的使用和理解文件内容的门槛,提升用户活跃和网云平台的粘性,释放大量存量文件的内容价值和信息提纯。
在示例性实施例中,上述摘要生成方法可应用于即时通讯系统。请参考图5所示,其示例性示出了即时通讯系统的技术框架示意图。在图5所示的即时通讯系统中,使用本申请实施例提出的摘要生成方法,可以对于群组中的文件或者群组中的消息所生成的长文本对象进行摘要生成。
请参考图6,其示出群组信息处理过程示意图。图6中Userid表示用户标识,Groupid表示群标识。群组消息循环和处理原理过程简述为:广播通道可以理解为就是消息循环触发中心,主要作用是帮助理解群消息循环的过程,当中收件和发件也就是指消息,消息是富媒体内容或者长统一资源定位符等信息,群组的共享空间会接收端用户上传和发布的各种文件内容,其中有大量的文本文件内容,文件涉及的内容领域也是非常丰富,包括PDF,doc ,Web 等各种格式的内容。群组当中用户可以上传和下载发布大量的文件内容,方便实现文件内容在不同群体之间的共享和传播,通过使用本申请实施例对这些群组共享长文本文件进行摘要处理,也能够理解出文件本身的主题信息,对群本身的理解和标签标记也会带来一定的帮助。
下面,对图5所示的即时通讯系统中各个服务模块及其主要功能简述如下。
一.端
(1)通过和消息接口服务通讯,完成社交网络当中各种消息功能上下行处理;
(2)实现长文件摘要能力在产品端的各种功能和内容处理,调用长文件摘要生成服务功能,完成长文件理解的能力实现及和与用户的功能交互;
(3)实现群组聊天在端的各种功能和消息交互,群组管理等等,群文件内容的上传及下载等等;
(4)将用户对长文件摘要生成与处理的各种反馈信息通过上报分析与接口服务上报,供后续模型微调和对齐人类期望提供数据源头。
二.接入服务器
(1)和端同步,完成消息的上下行通讯及同步;
(2)将消息内容通过消息队列系统与消息数据库存储及索引系统对接,完成消息处理的核心业务逻辑;
(3)和群组业务服务器通讯,完整群组的各种功能,包括添加删除群,群文件的上传下载的中间桥梁。
三.消息内容数据库
(1)临时保存用户对话的消息,实现消息的漫游和多端消息的同步;
(2)作为消息系统的核心模块,对消息的存储和索引处理高效率优化;
(3)消息多端同步的信息来源。
四.消息系统
(1)负责消息同步和通讯的整个流转调动分发;
(2)负责和消息内容数据库通讯,完成消息的分发和处理,包括各种群组消息内容。
五.上报与分析接口服务
(1)和消息端通讯,接收上报上来消息消费和分发过程当中的各种反馈,包括对长文件摘要内容生成结果的用户反馈。
六.文件分片数据库及索引信息
(1)和接入服务期通讯,包括文档的显示索引,文档的结构索引,篇章索引,段落索引,索引信息主要用于快速定位到实际的文本内容,同时保存文件解析以后得各种粒度的内容块实体文本信息;
(2)同时保存各种文件摘要及摘要相关的公开及人工标注的数据集合;
(3)给大语言模型进行微调和构建多个粒度的文本相似度模型,比如篇章,段落级别语义相似度基础模型提供原始监督样本数据服务。
七.摘要生成模型
(1)按照上面描述的基于大型语言模型提示信息构造的方法和上下文段落定位方法完成摘要生成模型的构造,在此模型基础上进行服务化得到摘要生成的最终服务。
(2)和端通讯,完成用户指定筛选的文长文本文件进行摘要生成的处理并且返回结果供消息端进行展示。
八.长文件摘要生成服务
(1)基于上述构建的摘要生成模型及一系列依赖的基础,比如篇章,段落粒度的基础模型提供服务,完成分片摘要的片段的定位;
(2)在定位的基础上,基于大型语言模型完成最后长文件摘要结果的生成;
(3)和端通讯,完成用户指定筛选的文件进行长文件摘要处理并且返回结果供端进行展示。
九.大型语言模型
这里不限于一个固定大型语言模型,只要是使用生成的Transform架构的模型都可以归为这一类,这里具体实现的时候可以基于LLaMa(LLaMA大模型是Meta研发的大语言模型)和GLM模型的作为基础的模型,同时也会借助摘要领域的专门数据集合进行指令微调,从而能够适应更多文件内容领域,获得更好的摘要结果。
十.群组业务系统
完成群组的各种消息同步及处理;同时完成群成员上传和发布的各种群文件的索引保存和共享,同时和文件数据库及索引系统通讯,提供需要进行长文件摘要生成与处理的原始文件数据源。
下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图7,其示出了本申请一个实施例提供的摘要生成装置的框图。该装置具有实现上述摘要生成方法的功能,上述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置可以包括:
结构解析模块701,用于对文本对象进行内容结构解析,得到上述文本对象对应的索引信息,上述文本对象的数据量大于关键内容提取模型的单次数据处理上限值;
分片模块702,用于根据上述索引信息对上述文本对象进行分片,得到上述文本对象对应的多个内容单元,每一上述内容单元的数据量小于或等于上述单次数据处理上限值;
提示信息构造模块703,用于基于上述关键内容提取模型分别对各上述内容单元进行关键内容提取,得到文本对象关键内容;根据上述文本对象关键内容,构造摘要提示信息,上述摘要提示信息为用于约束目标摘要的生成结果的提示数据,上述提示数据包括上述文本对象关键内容与预设摘要模板,上述预设摘要模板包括待预测的摘要内容标签;
摘要生成模块704,用于将上述摘要提示信息输入摘要生成模型的摘要生成器,触发上述摘要生成器基于上述摘要提示信息对上述待预测的摘要内容标签进行内容预测,得到标签预测结果;以及,根据上述预设摘要模板和上述标签预测结果,得到目标摘要;
其中,上述摘要生成器由大型生成式语言模型通过提示学习得到。
在一个实施例中,上述摘要生成模型还包括模板构造器,上述提示信息构造模块703,用于执行下述操作:
基于上述关键内容提取模型分别对各上述内容单元进行关键内容提取,得到各上述内容单元分别对应的关键内容;
基于各上述关键内容进行信息聚合,得到上述文本对象关键内容;
将上述文本对象关键内容输入上述模板构造器,得到上述摘要提示信息。
在一个实施例中,上述提示信息构造模块703,用于执行下述操作:
基于上述关键内容提取模型分别对每一上述内容单元进行关键内容提取,得到上述内容单元中的至少一个关键片段;
提取每一上述关键片段的上下文信息;
聚合各上述关键片段、以及每一上述关键片段对应的上下文信息,得到上述关键内容。
在一个实施例中,上述提示信息构造模块703,用于执行下述操作:
提取上述关键内容对应的关联内容,上述关联内容为上述关键内容所在的内容单元中与上述关键内容的语义相似度满足预设要求的内容;
聚合各上述关键内容,以及各上述关键内容分别对应的关联内容,得到上述文本对象关键内容。
在一个实施例中,上述方法应用于摘要生成系统,上述摘要生成系统包括文本内容存储器和索引管理器,上述结构解析模块701,用于执行下述操作:
对上述文本内容存储器中存储的文本对象进行内容结构解析,生成索引信息;
将上述索引信息存储在上述索引管理器中,上述索引信息至少包括下述一种:显示索引、结构索引,上述结构索引包括下述至少一个:篇章索引、段落索引。
在一个实施例中,上述关键内容包括关键片段的索引,上述索引管理器还存储每一内容单元对应的关键片段编码结果,上述提示信息构造模块703,用于执行下述操作:
针对每一内容单元,基于上述内容单元对应的关键片段的索引,在上述文本内容存储器中提取关键片段;
基于上述内容单元对应的关键片段编码结果,在上述索引管理器中进行检索,得到同一内容单元中的关联内容的索引信息,上述关联内容的编码结果与上述关键片段编码结果的相似度满足预设要求;
根据上述关联内容的索引信息,在上述文本内容存储器中提取关联段落片段;
聚合各关键片段以及各关联段落片段,得到文本对象关键内容;
根据上述文本对象关键内容,构造上述摘要提示信息。
在一个实施例中,上述摘要生成系统包括训练模块705,该训练模块705用于执行下述操作:
对样本文本对象进行内容结构解析,得到上述样本文本对象对应的索引信息;
根据上述索引信息对上述样本文本对象进行分片,得到多个样本内容单元;
基于上述关键内容提取模型分别对各上述样本内容单元进行关键内容提取所得到的结果,构造样本摘要提示信息;
将上述样本摘要提示信息输入大型生成式语言模型,触发上述大型生成式语言模型基于上述样本摘要提示信息输出样本摘要;
根据上述样本摘要、与上述样本文本对象对应的预设摘要之间的差异,调节上述大型生成式语言模型的参数,得到上述摘要生成器。
在一个实施例中,该训练模块705用于执行下述操作:
对上述大型生成式语言模型中预设参数进行冻结处理;
基于上述样本摘要、与上述样本文本对象对应的预设摘要之间的差异,计算交叉熵损失;
根据上述交叉熵损失,调整上述大型生成式语言模型中未被冻结的参数,得到上述摘要生成器。
在一个实施例中,该摘要生成模块704,还用于执行下述操作:
获取上述目标摘要对应的评分,上述评分表征上述目标摘要的摘要质量;
根据上述目标摘要和上述摘要评分,构建摘要评分模型;
根据上述摘要评分模型对上述摘要生成器生成的、针对同一文本对象的不同摘要进行选择,得到上述同一文本对象的推荐摘要。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供一种摘要生成系统,请参考图8,其示出摘要生成系统框架示意图,上述系统包括:关键内容提取模型801、摘要生成模型802和摘要评分模型803,上述关键内容提取模型801和上述摘要评分模型803均与上述摘要生成模型802通信连接,
上述关键内容提取模型801用于对文本对象进行内容结构解析,得到上述文本对象对应的索引信息,上述文本对象的数据量大于上述关键内容提取模型801的单次数据处理上限值;以及,根据上述索引信息对上述文本对象进行分片,得到上述文本对象对应的多个内容单元,每一上述内容单元的数据量小于或等于上述单次数据处理上限值;
上述摘要生成模型802用于基于上述关键内容提取模型801分别对各上述内容单元进行关键内容提取所得到的结果,构造摘要提示信息,上述摘要提示信息为用于约束目标摘要的生成结果的提示数据,上述提示数据包括上述文本对象关键内容与预设摘要模板,上述预设摘要模板包括待预测的摘要内容标签;将上述摘要提示信息输入摘要生成模型802的摘要生成器,触发上述摘要生成器基于上述摘要提示信息对上述待预测的摘要内容标签进行内容预测,得到标签预测结果;根据上述预设摘要模板和上述标签预测结果,得到目标摘要;其中,上述摘要生成器由大型生成式语言模型通过提示学习得到;
上述摘要评分模型803用于对上述目标摘要的质量进行评分。
需要说明的是,上述实施例提供的系统,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的系统与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图9,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器,以用于执行上述摘要生成方法。具体来讲:
计算机设备900包括中央处理单元(Central Processing Unit ,CPU)901、包括随机存取存储器(Random Access Memory ,RAM)902和只读存储器(Read Only Memory,ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说,大容量存储设备907可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本申请的各种实施例,计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述摘要生成方法。
在示例性实施例中,还提供了一种计算机可读存储介质,上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、上述至少一段程序、上述代码集或上述指令集在被处理器执行时以实现上述摘要生成方法。
具体地,该摘要生成方法包括:
对文本对象进行内容结构解析,得到上述文本对象对应的索引信息,上述文本对象的数据量大于关键内容提取模型的单次数据处理上限值;
根据上述索引信息对上述文本对象进行分片,得到上述文本对象对应的多个内容单元,每一上述内容单元的数据量小于或等于上述单次数据处理上限值;
基于上述关键内容提取模型分别对各上述内容单元进行关键内容提取,得到文本对象关键内容;根据上述文本对象关键内容,构造摘要提示信息,上述摘要提示信息为用于约束目标摘要的生成结果的提示数据,上述提示数据包括上述文本对象关键内容与预设摘要模板,上述预设摘要模板包括待预测的摘要内容标签;
将上述摘要提示信息输入摘要生成模型的摘要生成器,触发上述摘要生成器基于上述摘要提示信息对上述待预测的摘要内容标签进行内容预测,得到标签预测结果;
根据上述预设摘要模板和上述标签预测结果,得到目标摘要;
其中,上述摘要生成器由大型生成式语言模型通过提示学习得到。
在一个实施例中,上述摘要生成模型还包括模板构造器,上述基于上述关键内容提取模型分别对各上述内容单元进行关键内容提取,得到文本对象关键内容;根据上述文本对象关键内容,构造摘要提示信息,包括:
基于上述关键内容提取模型分别对各上述内容单元进行关键内容提取,得到各上述内容单元分别对应的关键内容;
基于各上述关键内容进行信息聚合,得到上述文本对象关键内容;
将上述文本对象关键内容输入上述模板构造器,得到上述摘要提示信息。
在一个实施例中,上述基于上述关键内容提取模型分别对各上述内容单元进行关键内容提取,得到各上述内容单元分别对应的关键内容,包括:
基于上述关键内容提取模型分别对每一上述内容单元进行关键内容提取,得到上述内容单元中的至少一个关键片段;
提取每一上述关键片段的上下文信息;
聚合各上述关键片段、以及每一上述关键片段对应的上下文信息,得到上述关键内容。
在一个实施例中,上述基于各上述关键内容进行信息聚合,得到上述文本对象关键内容之前,上述方法还包括针对每一上述关键内容执行下述操作:提取上述关键内容对应的关联内容,上述关联内容为上述关键内容所在的内容单元中与上述关键内容的语义相似度满足预设要求的内容;
上述基于各上述关键内容进行信息聚合,得到上述文本对象关键内容,包括:
聚合各上述关键内容,以及各上述关键内容分别对应的关联内容,得到上述文本对象关键内容。
在一个实施例中,上述方法应用于摘要生成系统,上述摘要生成系统包括文本内容存储器和索引管理器,上述对文本对象进行内容结构解析,得到上述文本对象对应的索引信息,包括:
对上述文本内容存储器中存储的文本对象进行内容结构解析,生成索引信息;
将上述索引信息存储在上述索引管理器中,上述索引信息至少包括下述一种:显示索引、结构索引,上述结构索引包括下述至少一个:篇章索引、段落索引。
在一个实施例中,上述关键内容包括关键片段的索引,上述索引管理器还存储每一内容单元对应的关键片段编码结果,上述基于上述关键内容提取模型分别对各上述内容单元进行关键内容提取,得到文本对象关键内容;根据上述文本对象关键内容,构造摘要提示信息,包括:
针对每一内容单元,基于上述内容单元对应的关键片段的索引,在上述文本内容存储器中提取关键片段;
基于上述内容单元对应的关键片段编码结果,在上述索引管理器中进行检索,得到同一内容单元中的关联内容的索引信息,上述关联内容的编码结果与上述关键片段编码结果的相似度满足预设要求;
根据上述关联内容的索引信息,在上述文本内容存储器中提取关联段落片段;
聚合各关键片段以及各关联段落片段,得到文本对象关键内容;
根据上述文本对象关键内容,构造上述摘要提示信息。
在一个实施例中,上述摘要生成系统中的摘要生成器通过下述方法训练得到:
对样本文本对象进行内容结构解析,得到上述样本文本对象对应的索引信息;
根据上述索引信息对上述样本文本对象进行分片,得到多个样本内容单元;
基于上述关键内容提取模型分别对各上述样本内容单元进行关键内容提取所得到的结果,构造样本摘要提示信息;
将上述样本摘要提示信息输入大型生成式语言模型,触发上述大型生成式语言模型基于上述样本摘要提示信息输出样本摘要;
根据上述样本摘要、与上述样本文本对象对应的预设摘要之间的差异,调节上述大型生成式语言模型的参数,得到上述摘要生成器。
在一个实施例中,上述根据上述样本摘要、与上述样本文本对象对应的预设摘要之间的差异,调节上述大型生成式语言模型的参数,得到上述摘要生成器,包括:
对上述大型生成式语言模型中预设参数进行冻结处理;
基于上述样本摘要、与上述样本文本对象对应的预设摘要之间的差异,计算交叉熵损失;
根据上述交叉熵损失,调整上述大型生成式语言模型中未被冻结的参数,得到上述摘要生成器。
在一个实施例中,上述方法还包括:
获取上述目标摘要对应的评分,上述评分表征上述目标摘要的摘要质量;
根据上述目标摘要和上述摘要评分,构建摘要评分模型;
根据上述摘要评分模型对上述摘要生成器生成的、针对同一文本对象的不同摘要进行选择,得到上述同一文本对象的推荐摘要。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory, 电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述摘要生成方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
另外,在本申请的具体实施方式中,涉及用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种摘要生成方法,其特征在于,所述方法包括:
对文本对象进行内容结构解析,得到所述文本对象对应的索引信息,所述文本对象的数据量大于关键内容提取模型的单次数据处理上限值;
根据所述索引信息对所述文本对象进行分片,得到所述文本对象对应的多个内容单元,每一所述内容单元的数据量小于或等于所述单次数据处理上限值;
基于所述关键内容提取模型分别对各所述内容单元进行关键内容提取,得到文本对象关键内容;根据所述文本对象关键内容,构造摘要提示信息,所述摘要提示信息为用于约束目标摘要的生成结果的提示数据,所述提示数据包括所述文本对象关键内容与预设摘要模板,所述预设摘要模板包括待预测的摘要内容标签;
将所述摘要提示信息输入摘要生成模型的摘要生成器,触发所述摘要生成器基于所述摘要提示信息对所述待预测的摘要内容标签进行内容预测,得到标签预测结果;
根据所述预设摘要模板和所述标签预测结果,得到目标摘要;
其中,所述摘要生成器由大型生成式语言模型通过提示学习得到。
2.根据权利要求1所述的方法,其特征在于,所述摘要生成模型还包括模板构造器,所述基于所述关键内容提取模型分别对各所述内容单元进行关键内容提取,得到文本对象关键内容;根据所述文本对象关键内容,构造摘要提示信息,包括:
基于所述关键内容提取模型分别对各所述内容单元进行关键内容提取,得到各所述内容单元分别对应的关键内容;
基于各所述关键内容进行信息聚合,得到所述文本对象关键内容;
将所述文本对象关键内容输入所述模板构造器,得到所述摘要提示信息。
3.根据权利要求2所述的方法,其特征在于,所述基于所述关键内容提取模型分别对各所述内容单元进行关键内容提取,得到各所述内容单元分别对应的关键内容,包括:
基于所述关键内容提取模型分别对每一所述内容单元进行关键内容提取,得到所述内容单元中的至少一个关键片段;
提取每一所述关键片段的上下文信息;
聚合各所述关键片段、以及每一所述关键片段对应的上下文信息,得到所述关键内容。
4.根据权利要求2所述的方法,其特征在于,所述基于各所述关键内容进行信息聚合,得到所述文本对象关键内容之前,所述方法还包括针对每一所述关键内容执行下述操作:提取所述关键内容对应的关联内容,所述关联内容为所述关键内容所在的内容单元中与所述关键内容的语义相似度满足预设要求的内容;
所述基于各所述关键内容进行信息聚合,得到所述文本对象关键内容,包括:
聚合各所述关键内容,以及各所述关键内容分别对应的关联内容,得到所述文本对象关键内容。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述方法应用于摘要生成系统,所述摘要生成系统包括文本内容存储器和索引管理器,所述对文本对象进行内容结构解析,得到所述文本对象对应的索引信息,包括:
对所述文本内容存储器中存储的文本对象进行内容结构解析,生成索引信息;
将所述索引信息存储在所述索引管理器中,所述索引信息至少包括下述一种:显示索引、结构索引,所述结构索引包括下述至少一个:篇章索引、段落索引。
6.根据权利要求5所述的方法,其特征在于,所述关键内容包括关键片段的索引,所述索引管理器还存储每一内容单元对应的关键片段编码结果,所述基于所述关键内容提取模型分别对各所述内容单元进行关键内容提取,得到文本对象关键内容,包括:
针对每一内容单元,基于所述内容单元对应的关键片段的索引,在所述文本内容存储器中提取关键片段;
基于所述内容单元对应的关键片段编码结果,在所述索引管理器中进行检索,得到同一内容单元中的关联内容的索引信息,所述关联内容的编码结果与所述关键片段编码结果的相似度满足预设要求;
根据所述关联内容的索引信息,在所述文本内容存储器中提取关联段落片段;
聚合各关键片段以及各关联段落片段,得到文本对象关键内容。
7.根据权利要求1所述的方法,其特征在于,所述摘要生成系统中的摘要生成器通过下述方法训练得到:
对样本文本对象进行内容结构解析,得到所述样本文本对象对应的索引信息;
根据所述索引信息对所述样本文本对象进行分片,得到多个样本内容单元;
基于所述关键内容提取模型分别对各所述样本内容单元进行关键内容提取所得到的结果,构造样本摘要提示信息;
将所述样本摘要提示信息输入大型生成式语言模型,触发所述大型生成式语言模型基于所述样本摘要提示信息输出样本摘要;
根据所述样本摘要、与所述样本文本对象对应的预设摘要之间的差异,调节所述大型生成式语言模型的参数,得到所述摘要生成器。
8.根据权利要求7所述的方法,其特征在于,所述根据所述样本摘要、与所述样本文本对象对应的预设摘要之间的差异,调节所述大型生成式语言模型的参数,得到所述摘要生成器,包括:
对所述大型生成式语言模型中预设参数进行冻结处理;
基于所述样本摘要、与所述样本文本对象对应的预设摘要之间的差异,计算交叉熵损失;
根据所述交叉熵损失,调整所述大型生成式语言模型中未被冻结的参数,得到所述摘要生成器。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标摘要对应的评分,所述评分表征所述目标摘要的摘要质量;
根据所述目标摘要和所述摘要评分,构建摘要评分模型;
根据所述摘要评分模型对所述摘要生成器生成的、针对同一文本对象的不同摘要进行选择,得到所述同一文本对象的推荐摘要。
10.一种摘要生成装置,其特征在于,所述装置包括:
结构解析模块,用于对文本对象进行内容结构解析,得到所述文本对象对应的索引信息,所述文本对象的数据量大于关键内容提取模型的单次数据处理上限值;
分片模块,用于根据所述索引信息对所述文本对象进行分片,得到所述文本对象对应的多个内容单元,每一所述内容单元的数据量小于或等于所述单次数据处理上限值;
提示信息构造模块,用于基于所述关键内容提取模型分别对各所述内容单元进行关键内容提取,得到文本对象关键内容;根据所述文本对象关键内容,构造摘要提示信息,所述摘要提示信息为用于约束目标摘要的生成结果的提示数据,所述提示数据包括所述文本对象关键内容与预设摘要模板,所述预设摘要模板包括待预测的摘要内容标签;
摘要生成模块,用于将所述摘要提示信息输入摘要生成模型的摘要生成器,触发所述摘要生成器基于所述摘要提示信息对所述待预测的摘要内容标签进行内容预测,得到标签预测结果;以及,根据所述预设摘要模板和所述标签预测结果,得到目标摘要;
其中,所述摘要生成器由大型生成式语言模型通过提示学习得到。
11.一种摘要生成系统,其特征在于,所述系统包括:关键内容提取模型、摘要生成模型和摘要评分模型,所述关键内容提取模型和所述摘要评分模型均与所述摘要生成模型通信连接,
所述关键内容提取模型用于对文本对象进行内容结构解析,得到所述文本对象对应的索引信息,所述文本对象的数据量大于所述关键内容提取模型的单次数据处理上限值;以及,根据所述索引信息对所述文本对象进行分片,得到所述文本对象对应的多个内容单元,每一所述内容单元的数据量小于或等于所述单次数据处理上限值;分别对各所述内容单元进行关键内容提取,得到文本对象关键内容;
所述摘要生成模型用于基于所述文本对象关键内容,构造摘要提示信息,所述摘要提示信息为用于约束目标摘要的生成结果的提示数据,所述提示数据包括所述文本对象关键内容与预设摘要模板,所述预设摘要模板包括待预测的摘要内容标签;将所述摘要提示信息输入所述摘要生成模型的摘要生成器,触发所述摘要生成器基于所述摘要提示信息对所述待预测的摘要内容标签进行内容预测,得到标签预测结果;根据所述预设摘要模板和所述标签预测结果,得到目标摘要;其中,所述摘要生成器由大型生成式语言模型通过提示学习得到;
所述摘要评分模型用于对所述目标摘要的质量进行评分。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的摘要生成方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的摘要生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311009460.6A CN116894089B (zh) | 2023-08-11 | 2023-08-11 | 摘要生成方法、装置、设备、存储介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311009460.6A CN116894089B (zh) | 2023-08-11 | 2023-08-11 | 摘要生成方法、装置、设备、存储介质及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116894089A true CN116894089A (zh) | 2023-10-17 |
CN116894089B CN116894089B (zh) | 2023-12-15 |
Family
ID=88312183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311009460.6A Active CN116894089B (zh) | 2023-08-11 | 2023-08-11 | 摘要生成方法、装置、设备、存储介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894089B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489543A (zh) * | 2019-08-14 | 2019-11-22 | 北京金堤科技有限公司 | 一种新闻摘要的提取方法及装置 |
CN114860915A (zh) * | 2022-06-02 | 2022-08-05 | 鼎富智能科技有限公司 | 一种模型提示学习方法、装置、电子设备及存储介质 |
CN115393849A (zh) * | 2022-07-28 | 2022-11-25 | 北京达佳互联信息技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN115455175A (zh) * | 2022-08-11 | 2022-12-09 | 北京智谱华章科技有限公司 | 基于多语言模型的跨语言摘要生成方法和装置 |
CN115600593A (zh) * | 2022-11-02 | 2023-01-13 | 北京百分点科技集团股份有限公司(Cn) | 一种获取文献关键内容的方法和装置 |
CN116186244A (zh) * | 2023-01-19 | 2023-05-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 生成文本摘要的方法、训练摘要生成模型的方法及装置 |
CN116450813A (zh) * | 2023-06-19 | 2023-07-18 | 深圳得理科技有限公司 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
TWM644307U (zh) * | 2023-05-15 | 2023-07-21 | 中國信託商業銀行股份有限公司 | 用於基於提示工程產生摘要的運算裝置 |
CN116484879A (zh) * | 2023-04-04 | 2023-07-25 | 上海墨百意信息科技有限公司 | 提示信息的生成方法、装置、电子设备及存储介质 |
CN116501861A (zh) * | 2023-06-25 | 2023-07-28 | 知呱呱(天津)大数据技术有限公司 | 基于层级bert模型与标签迁移的长文本摘要生成方法 |
-
2023
- 2023-08-11 CN CN202311009460.6A patent/CN116894089B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489543A (zh) * | 2019-08-14 | 2019-11-22 | 北京金堤科技有限公司 | 一种新闻摘要的提取方法及装置 |
CN114860915A (zh) * | 2022-06-02 | 2022-08-05 | 鼎富智能科技有限公司 | 一种模型提示学习方法、装置、电子设备及存储介质 |
CN115393849A (zh) * | 2022-07-28 | 2022-11-25 | 北京达佳互联信息技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN115455175A (zh) * | 2022-08-11 | 2022-12-09 | 北京智谱华章科技有限公司 | 基于多语言模型的跨语言摘要生成方法和装置 |
CN115600593A (zh) * | 2022-11-02 | 2023-01-13 | 北京百分点科技集团股份有限公司(Cn) | 一种获取文献关键内容的方法和装置 |
CN116186244A (zh) * | 2023-01-19 | 2023-05-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 生成文本摘要的方法、训练摘要生成模型的方法及装置 |
CN116484879A (zh) * | 2023-04-04 | 2023-07-25 | 上海墨百意信息科技有限公司 | 提示信息的生成方法、装置、电子设备及存储介质 |
TWM644307U (zh) * | 2023-05-15 | 2023-07-21 | 中國信託商業銀行股份有限公司 | 用於基於提示工程產生摘要的運算裝置 |
CN116450813A (zh) * | 2023-06-19 | 2023-07-18 | 深圳得理科技有限公司 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
CN116501861A (zh) * | 2023-06-25 | 2023-07-28 | 知呱呱(天津)大数据技术有限公司 | 基于层级bert模型与标签迁移的长文本摘要生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116894089B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116702737B (zh) | 文案生成方法、装置、设备、存储介质及产品 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN113392651B (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
US20240320441A1 (en) | Natural Language Processing Dialog Methods and Systems for Virtual Scenes | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
CN116958997B (zh) | 一种基于异质图神经网络的图文摘要方法及系统 | |
CN112188312A (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN113656561A (zh) | 实体词识别方法、装置、设备、存储介质及程序产品 | |
US20190220544A1 (en) | Accuracy determination for media | |
CN113011126B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN116956866A (zh) | 剧情数据处理方法、装置、设备、存储介质及程序产品 | |
CN118014086B (zh) | 数据处理方法、装置、设备、存储介质及产品 | |
CN116956818A (zh) | 文本素材的处理方法、装置、电子设备以及存储介质 | |
CN114357204B (zh) | 媒体信息的处理方法及相关设备 | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN115273856A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN113569068B (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN116894089B (zh) | 摘要生成方法、装置、设备、存储介质及产品 | |
Wang et al. | RSRNeT: a novel multi-modal network framework for named entity recognition and relation extraction | |
CN116628232A (zh) | 标签确定方法、装置、设备、存储介质及产品 | |
Amato et al. | A hybrid approach for document analysis in digital forensic domain | |
CN114330296A (zh) | 新词发现方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |