CN117216185A - 分发内容的评论生成方法、装置、设备及存储介质 - Google Patents

分发内容的评论生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117216185A
CN117216185A CN202310922907.2A CN202310922907A CN117216185A CN 117216185 A CN117216185 A CN 117216185A CN 202310922907 A CN202310922907 A CN 202310922907A CN 117216185 A CN117216185 A CN 117216185A
Authority
CN
China
Prior art keywords
comment
content
prompt
model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310922907.2A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310922907.2A priority Critical patent/CN117216185A/zh
Publication of CN117216185A publication Critical patent/CN117216185A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种分发内容的评论生成方法、装置、设备及存储介质,涉及大模型技术领域。所述方法包括:获取带提示信息的分发内容,该提示信息用于引导生成指定领域下的评论,提示信息包括指定领域对应的不同领域等级下的提示语;获取分发内容对应的多模态特征;根据多模态特征,生成分发内容对应的预测评论;在不同领域等级下的提示语的约束下,根据预测评论生成分发内容对应的最终预测评论;根据最终预测评论和分发内容对应的标签数据,对评论生成模型进行训练。本申请通过基于指定领域对应的不同领域等级下的提示语,生成指定领域下的预测评论,使得评论生成模型能够从不同领域等级下的提示语中学习到知识,从而提高预测评论的生成准确性。

Description

分发内容的评论生成方法、装置、设备及存储介质
技术领域
本申请实施例涉及大模型技术领域,特别涉及一种分发内容的评论生成方法、装置、设备及存储介质。
背景技术
大语言模型是指一类基于神经网络的、具有大规模参数(通常是数十亿个或更多)的语言模型,它代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。
目前,大语言模型在自然语言文本生成、语言文本理解等任务中有着重要影响。在信息流业务中,相关技术通过采用大量存量分发内容和存量评论,来训练大语言模型,使得大语言模型能够针对分发内容自动生成新评论。
然而,采用相关技术得到新评论的质量不够高。
发明内容
本申请实施例提供了一种分发内容的评论生成方法、装置、设备及存储介质,能够提高评论的生成准确性,进而提高评论的生成质量,所述技术方案可以包括如下内容。
根据本申请实施例的一个方面,提供了一种分发内容的评论生成方法,所述方法包括:
获取带提示信息的分发内容,所述提示信息用于引导生成指定领域下的评论,所述提示信息包括所述指定领域对应的不同领域等级下的提示语;
获取所述分发内容对应的多模态特征,所述多模态特征包括所述分发内容在至少两种模态下的特征;
通过评论生成模型根据所述多模态特征,生成所述分发内容对应的预测评论;
通过所述评论生成模型在所述不同领域等级下的提示语的约束下,根据所述预测评论生成所述分发内容对应的最终预测评论;
根据所述最终预测评论和所述分发内容对应的标签数据,对所述评论生成模型进行训练,得到训练后的评论生成模型,所述训练后的评论生成模型用于对所述分发内容进行评论生成。
根据本申请实施例的一个方面,提供了一种分发内容的评论生成装置,所述装置包括:
分发内容获取模块,用于获取带提示信息的分发内容,所述提示信息用于引导生成指定领域下的评论,所述提示信息包括所述指定领域对应的不同领域等级下的提示语;
模态特征获取模块,用于获取所述分发内容对应的多模态特征,所述多模态特征包括所述分发内容在至少两种模态下的特征;
预测评论生成模块,用于通过评论生成模型根据所述多模态特征,生成所述分发内容对应的预测评论;
预测评论调整模块,用于通过所述评论生成模型在所述不同领域等级下的提示语的约束下,根据所述预测评论生成所述分发内容对应的最终预测评论;
生成模型训练模块,用于根据所述最终预测评论和所述分发内容对应的标签数据,对所述评论生成模型进行训练,得到训练后的评论生成模型,所述训练后的评论生成模型用于对所述分发内容进行评论生成。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述分发内容的评论生成方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述分发内容的评论生成方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述分发内容的评论生成方法。
本申请实施例提供的技术方案至少包括如下有益效果。
通过基于指定领域对应的不同领域等级下的提示语,引导评论生成模型生成分发内容对应的最终预测评论,再根据最终预测评论对评论生成模型进行训练,使得评论生成模型能够从不同领域等级下的提示语中学习到知识,从而提高了评论生成模型的生成准确性,进而使得评论生成模型所生成的预测评论更加准确,提高了预测评论的生成质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的预训练网络的示意图;
图3是本申请一个实施例提供的评论生成网络的示意图;
图4是本申请一个实施例提供的适配网络的示意图;
图5是本申请一个实施例提供的分发内容的评论生成方法的流程图;
图6是本申请一个实施例提供的分发内容和提示信息的获取方法的流程图;
图7是本申请一个实施例提供的评论生成模型的训练方法的流程图;
图8是本申请一个实施例提供的本申请实施例与相关技术的效果对比示意图;
图9是本申请一个实施例提供的本申请实施例的落地场景的示意图;
图10是本申请一个实施例提供的分发内容的评论生成装置的框图;
图11是本申请另一个实施例提供的分发内容的评论生成装置的框图;
图12是本申请一个实施例提供的计算机设备的结构示意图。
具体实施方式
在对本申请实施例进行介绍说明之前,首先对本申请中涉及的相关名词进行解释说明。
1、PGC:Professional Generated Content,专业生产内容,互联网术语,如由专业机构或组织生产的内容。
2、UGC:User Generated Content,用户生成内容,是伴随着以提倡个性化为主要特点的Web2.0概念而兴起的。它并不是某一种具体的业务,而是一种用户使用互联网的新方式,即由原来的以下载为主变成下载和上传并重。
3、MCN:Multi-Channel Network,多频道网络,一种产品形态,其将PGC联合起来,并保障内容的持续输出,从而最终实现商业的稳定变现。
4、Feeds:消息来源,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源等,其是一种资料格式,网站透过它将最新资讯传播给用户,其通常以时间轴方式排列。
5、LLM:Large Language Model,大语言模型或大型语言模型或大模型。大语言模型是指一类基于神经网络的、具有大规模参数(通常是数十亿个或更多)的语言模型,其可以是能够处理和生成自然语言的计算机模型。LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子,随着训练数据集与参数空间的不断扩大,LLM的能力也会相应提高。LLM可用于多种应用领域,诸如机器人学、机器学习、机器翻译、语音识别、图像处理等,所以LLM又可被称为多模态大型语言模型(MLLM)。
可选地,LLM可以是诸如GPT3(Generative Pre-trained Transformer 3,生成式预训练Transformer模型3)、ChatGPT(Chat Generative Pre-trained Transformer,生成式预训练变换模型)、LLaMA(Large Language Model Meta AI,羊驼模型)、ChatGLM(ChatGeneral Language Model,一种开源的双语大语言模型)等。
6、Instruction Tuning:指令微调,是指针对每个任务,单独生成instruction,通过在若干个full-shot任务上进行微调,然后在具体的任务上进行评估泛化能力(zeroshot)。其中,指令微调过程中,预训练模型的参数是unfreeze的,该过程通常是在公开的大量的NLP(Natural Language Processing,自然语言处理)任务数据集合上进行的,其通过给出更明显的指令,让语言模型去理解并做出正确的反馈,从而激发语言模型的理解能力。
7、Prompt Tuning:提示学习,机器学习当中的一类学习方法:其在不显著改变预训练的语言模型的结构和参数的情况下,通过向输入增加“提示信息”、作为一种信息增强来大幅改善模型的效果,它可以看做是一种对任务的指令,同时也是一种对预训练目标的复用,其本质可以看做是参数有效性训练的增强。Prompt Tuning通过单独生成prompt模板,然后在每个任务上进行full-shot微调与评估。
8、预训练模型(Pre-training Model,PTM),也称基石模型、大模型,指具有大参量的深度神经网络(Deep Neural Network,DNN),可在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(PEFT)、Prompt Tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO(Embedding From Language Model,基于语言模型的词向量),BERT(Bidirectional Encoder Representation From Transformers,双向Transformer的编码器),GPT)、视觉模型(Swin-Transformer,ViT(Vision Transformer),V-MOE(VisionMixture-of-Experts))、语音模型(VALL-E(神经编码器语言模型))、多模态模型(ViBERT(Vision-and-language BERT,视觉语言预训练模型),CLIP(Contrastive Language-ImagePre-training,对比语言-图像预训练),Flamingo(一种用于小样本学习的视觉语言模型),Gato(Generalist-Agent,通用的agent))等,其中,多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC,Artificial IntelligenceGenerated Content)重要工具,也可以作为连接多个具体任务模型的通用接口。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,Swin-Transformer、ViT、V-MOE、MAE(Masked Autoencoders,掩码自动编码器)等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(Three-Dimensional)技术、虚拟现实、增强现实、同步定位与地图构建等技术。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR,AutomaticSpeech Recognition)、语音合成技术(TTS,Text to Speech),以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革,WavLM、UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性,可以优秀完成各方向的语音处理任务。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学等人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
本申请实施例提供的技术方案涉及人工智能的计算机视觉技术、语音技术、自然语言处理技术、机器学习技术和大模型技术,利用计算机视觉技术、语音技术、自然语言处理技术和大模型技术,构建评论生成模型,其中利用计算机视觉技术、语音技术和自然语言处理技术,构建论生成模型的预测训练网络,以进行特征提取,得到多模态特征。利用大模型技术构建评论生成网络,以基于多模态特征生成预测评论。再利用机器学习技术构建适配网络,以对评论生成模型进行训练,得到可用于评论生成的评论生成模型。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC(PersonalComputer,个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人、车载等终端设备;也可以是服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
本申请实施例提供技术方案适用于任何需要评论生成的场景中,诸如分发内容(如UGC、PGC等)的评论生成场景、评论辅助生成场景(生成多个评论以供用户选择)等。本申请实施例提供的技术方案能够提高评论的生成准确性,进而提高评论的生成质量。
示例性地,本申请实施例的落地场景包括以下至少一项:
1、对内容消费者来说,通过评论生成模型自动生成评论,能够降低内容的0评论内容占比,可以有效改善用户的阅读体验,增加用户互动活跃度,改善信息流内容的冷启动体验,可以有效提升内容消费的平均时长。
2、对于内容创作者来说,通过评论生成模型自动生成评论,能够激发创作者的活跃性、发布内容的频率,以及登录留存率,从而鼓励创作者更好地进行内容的创作,提升其被关注度,引发更多交互促进社区氛围的活跃。
3、在用户需要对分发内容进行评论的情况下,通过评论生成模型自动生成多个评论,以供用户进行选择,能够提高用户体验,节约用户时间。
下述将对本申请实施例提供方案实施环境和评论生成模型的模型架构进行说明。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。
模型训练设备10可以是诸如PC、电脑、平板电脑、服务器、智能机器人、车载终端等电子设备,或者是其他一些具有较强计算能力的电子设备。模型训练设备10用于对评论生成模型30进行训练。可选地,模型训练设备10可以采用机器学习的方式对该评论生成模型30进行训练,以使得其具备较好的性能。
评论生成模型30是用于对分发内容进行评论生成的神经网络模型。其中,分发内容可以是指由Feeds提供的内容,如信息流业务中的PGC、UGC(如视频、语音、评论、图像等)等。本申请实施例对分发内容的模态不作限定,例如分发内容的模态可以包括以下至少一项:视频模态、音频模态、文本模态和图像模态。评论是指针对事物进行主观或客观的自我印象阐述,本申请实施例中的评论可以是指文本内容,该文本内容可由自然语言组成。例如上述评论生成模型30用于针对视频,生成一段与视频相关的文本内容(即评论)。本申请实施例对评论生成模型30可应用至的业务不作限定,诸如信息流业务、短视频业务、直播业务、购物业务等。
示例性地,模型训练设备10通过评论生成模型30获取分发内容的多模态特征,再通过评论生成模型30根据分发内容的多模态特征和提示信息,生成分发内容对应的最终预测评论,最后基于最终预测评论对评论生成模型30进行训练,以得到训练完成的评论生成模型30。
该训练过程是一个迭代过程,如采用多个分发内容(即样本数据),对评论生成模型30的参数进行迭代调整。可选地,迭代的终止条件包括以下至少一种:最小化评论预测模型30的总损失、迭代次数大于或等于阈值、评论预测模型30的总损失小于或等于阈值等,本申请实施例对此不作限定。
上述训练完成的评论生成模型30可部署在模型使用设备20中使用,以提供评论生成服务。模型使用设备20可以是诸如手机、电脑、智能电视、多媒体播放设备、可穿戴设备、医疗设备等终端设备,也可以是服务器,本申请对此不作限定。
在一些实施例中,参考图1,上述评论生成模型30包括预训练网络31、评论生成网络32和适配网络33。
预训练网络31用于对分发内容进行特征提取,以获取分发内容对应的多模态特征,该多模态特征包括分发内容在至少两种模态下的特征,如上述视频模态、音频模态、文本模态和图像模态中的至少两种。
可选地,预训练网络31基于预训练模型构建。示例性地,预训练网络31包括至少两种预训练模型,每种预训练模型用于提取分发内容在不同模态下的特征。例如,参考图2,预训练网络31包括四种预训练模型:Image Encoder、Video Encoder、Wav Encoder和TextEncoder。
其中,Image Encoder用于提取分发内容(如视频)在图像模态下(如视频帧)的特征,其可以基于ViT构建得到。
Video Encoder用于提取分发内容在视频模态下(如视频内容)的特征,其可以基于诸如Video SwinT、Swin-Transformer、ViT、FastRCNN(Faster Region basedConvolutional Neural Network,一种目标检测网络)等构建得到。
Wav Encoder用于提取分发内容在音频模态下(如视频对应的音频内容)的特征,其可以基于诸如WavLM、UniSpeech等构建得到。可选地,在对音频内容进行处理之前,先采用Wav2wec方法,对音频内容进行编码。
Text Encoder用于提取分发内容在文本模态下(如视频对应的标题、话题、编号、名称、内容标签等)的特征,其可以基于诸如CNN、Transformer、RNN(Recurrent NeuralNetwork,循环神经网络)、DNN(Deep Neural Networks,深度神经网络)、BERT等构建得到。
可选地,分发内容在图像模态下的特征和分发内容在视频模态下的特征可以统称为分发内容对应的视觉特征,分发内容在音频模态下的特征和分发内容在文本模态下的特征可以统称为分发内容对应的文本特征。其中,对于分发内容所不具有的模态,该模态对应的预训练模型不工作。
可选地,预训练网络31中的各个预训练模型均是经过预训练的,也即预训练网络31中的各个预训练模型均经过大规模训练数据训练过,其已经具备良好的特征提取能力,因此,在评论生成模型30的训练过程中,可以不对预训练网络31的参数进行调整。
评论生成网络32以预训练网络31的输出为输入,其用于根据分发内容对应的多模态特征,生成分发内容对应的预测评论。该预测评论可以特指由神经网络模型生成的评论,区别于用户生成的评论。
可选地,评论生成网络32可以采用大语言模型构建得到,诸如GPT3、ChatGPT、LLaMA、ChatGLM、GLM,以及任何使用生成式Transform架构的模型。示例性地,对大语言模型进行预训练,得到与训练后的大语言模型,再对训练后的大语言模型进行指令微调,得到一个经过部分能力和对齐的大语言模型,进而将其作为评论生成网络32。
例如,参考图3,评论生成网络32包括多层Transformers-Decoder模型结构(如12层),各层Transformers-Decoder模型结构的参数均经过预训练和指令微调。
适配网络33用于对评论生成网络32进行Prompt Tuning,以对评论生成网络32的部分参数进行微调,进而得到训练完成的评论生成网络32。适配网络33以评论生成网络32的输出为输入,其用于在不同领域等级下的提示语的约束下,根据预测评论生成分发内容对应的最终预测评论,分发内容对应的最终预测评论与分发内容更适配。
可选地,适配网络33可采用一层或多层MLP(Multi-Layer Perceptron,多层感知器)进行构建。
例如,参考图4,适配网络33包括提示信息构建函数(如Category PromptConstructor)和适配器(如Category Adapter),提示信息构建函数用于构建分发内容的提示信息,适配器用于将提示信息注入评论生成网络32,以实现微调评论生成网络32的部分参数。
在一个示例中,评论生成模型30之外还部署有打分模型(其也可以被称之为偏好模型、奖励模型等),该打分模型用于以RLHF(Reinforcement Learning From HumanFeedback,以强化学习方式依据人类反馈优化语言模型)的训练方法,对评论生成模型30的部分参数再次进行微调。
其中,RLHF是强化学习(RL)的一个扩展,它将人类的反馈纳入训练过程,为机器提供了一种自然的、人性化的互动学习过程。除了奖励信号外,RLHF代理从人类得到反馈,通过在代理和人类之间架起一座桥梁,RLHF允许人类直接指导机器,并允许机器掌握明显嵌入人类经验中的决策要素,作为一种有效的对齐技术,RLHF能够一定程度上减轻大语言模型产生的有害内容,并提高信息完整性。
本申请实施例对评论生成模型的模型架构不作限定,上述实施例中的评论生成模型仅为示例性地和解释性地,凡是能够实现评论生成的模型应当均在本申请实施例的保护范围内。
下述为本申请方法实施例,对于本申请方法实施例中未披露的细节,请参照上述实施例。
请参考图5,其示出了本申请一个实施例提供的分发内容的评论生成方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型训练设备。该方法可以包括如下几个步骤(501~505)。
步骤501,获取带提示信息的分发内容,该提示信息用于引导生成指定领域下的评论,该提示信息包括指定领域对应的不同领域等级下的提示语。
本申请实施例中的提示信息是指提示学习过程中构建的提示信息,该提示信息用于对上述评论生成模型进行提示学习,以微调评论生成模型的部分参数,使得评论生成模型与指定领域更适配。
可选地,提示信息可以是指一段有占位符和自然语言描述的字符串。每个提示信息可自由设计占位符个数,例如P0-P4为某个提示信息的占位符,且P0-P4分别在编码中对应一个embedding(词嵌入)空间。其中,P0-P4的占位符数为5,占位数多少决定了编码空间大小。占位符对应的内容(如为空)即为评论预测模型需要预测的内容。
本申请实施例中的提示信息可以包括多个提示语,每个提示语可以被单独实现为一个提示信息。每个提示语可对应不同的领域等级。领域等级用于表示领域的范围大小,领域的领域等级越高,领域所能包容的内容越多。例如,视频领域可以包括各种类型的视频,某一类型的视频可以包括不同内容的视频,视频领域的领域等级高于某一类型的视频的领域等级,某一类型的视频的领域等级高于该类型下的某一个视频的领域等级。
本申请实施例对提示语的模板不进行限定,其可以根据实际使用需求进行设置与调整。示例性地,提示语可以以询问语句的形式进行构建,如“A是[mask]?”,提示语也可以提示词的形式进行构建,如若提示语被设置为B情感,则分发内容对应的预测标签中需要出现B情感对应的一类预测词,本申请实施例对此不作限定。本申请实施例对每个提示语所对应的占位符个数不作限定,其可以根据实际使用需求进行设置与调整。
指定领域可以是指生成任务对应的领域,如以某个角色生成分发内容的预测评论、以某种情绪生成分发内容的预测评论、以某种风格(如幽默、严肃等)生成分发内容的预测评论、以某种年龄生成分发内容的预测评论等,本申请实施例对此不作限定。
该生成任务可以包括一个或多个生成任务,则每个生成任务需构建一个对应的提示语,或者合在一起构建一个提示语。生成任务对应的提示语可引导评论生成模型在生成任务的约束下生成分发内容的预测评论。
示例性地,在分发内容为视频的情况下,视频对应的提示信息用于引导生成该视频在某一生成任务下的评论;在分发内容为音频的情况下,音频对应的提示信息用于引导生成该音频在某一生成任务下的评论;在分发内容为文本的情况下,文本对应的提示信息用于引导生成该文本在某一生成任务下的评论。
可选地,本申请实施例中的分发内容为样本数据,其用于对评论生成模型进行提示学习,以微调评论生成模型的部分参数。其中,评论生成模型的参数是经过预训练和指令微调处理的,其已具有一定的评论生成能力。
在一个示例中,为了提高评论生成模型的生成质量,本申请实施例中的分发内容均是经过质量筛选得到的,如此可以使得评论生成模型所输出的预测评论的质量符合一定的质量条件。参考图6,步骤501还包括如下几个子步骤。
步骤501a,获取多个存量分发内容,以及多个存量分发内容分别对应的存量评论。
存量分发内容可以是指历史时段内的分发内容,该历史时段可以是指当前时刻之前的任一历史时段,如该多个存量分发内容包括当前时刻之前的所有分发内容。可选地,该多个存量分发内容均属于某一类分发内容,如视频、音频等。该多个分发内容包括历史时段内的PGC和UGC。存量分发内容也可以被称之为历史分发内容。
存量评论是指历史时段内针对存量分发内容的评论,存量评论也可以被称之为历史评论。可选地,每个存量分发内容对应至少一个存量评论。
步骤501b,根据存量评论的质量,从多个存量分发内容中获取分发内容。
存量评论与其对应的存量分发内容之间具有一定的相关性,如存量评论是用户针对存量分发内容的内容而生成的。根据存量评论的质量,可合理地对存量分发内容进行筛选。存量评论的质量用于表示存量评论的好坏。
示例性地,分发内容的获取过程可以如下:
1、分别对多个存量评论进行预处理,得到多个预处理评论,该预处理包括以下至少一项:繁简转换、大小写归、隐藏文字去除、评论过滤、关键词清洗、情感过滤、评论噪声处理、冗余字符处理和语法基础优化。
可选地,对于各个存量评论,针对存量评论的具体内容,先进行系统化插件式的预处理,诸如繁简转换、大小写归、隐藏文字去除、评论过滤(如全表情评论)、关键词清洗(如低俗关键词)、情感过滤、评论噪声处理等通用过滤方法,以及诸如冗余字符处理(如重复单字:“哈哈哈哈哈哈”,重复拼音:“红红火火恍恍惚惚”等)、语法基础优化(如不通顺评论)等规则判别方法。
通过对存量评论进行预处理,可以确保预处理评论的质量。
2、分别对多个预处理评论进行质量分级,得到多个预处理评论分别对应的质量等级,该预处理评论的质量等级与预处理评论的质量之间呈正相关关系。
质量等级用于表示评论的质量高低,质量等级越高,评论的质量越高。
可选地,质量等级可以采用基于BERT的文本分类模型进行确定,也可以由人工按照质量点进行分级确定,该质量点可以包括评论的趣味性、观点的独特性、情感正向、评论获得的点赞数等。
3、将质量等级满足等级条件的预处理评论所对应的存量分发内容,确定为分发内容。
示例性地,质量等级包括1-5级,则可以将质量等级为1-2的预测处理评论确定为优质评论(或高质量评论),进而可以将优质评论对应的存量分发内容确定为优质分发内容,本申请实施例中的分发内容可以是指优质分发内容中的任一分发内容。
可选地,为了进一步提高预测评论的完整性和丰富性,以及提高预测评论与分发内容之间的相关性,本申请实施例还支持对提示信息进行精细化构建,如针对上中下三种领域等级,分别构建一个提示语。其中,中等领域等级即为上述指定领域对应的任务等级,上等领域等级即为中等领域等级的上位等级,下等领域等级即为中等领域等级的下位等级。参考图6,步骤501b之后,还可以包括下几个子步骤。
步骤501c,获取分发内容对应的全局信息、任务信息和标签信息;其中,全局信息的领域等级大于任务信息的领域等级,任务信息的领域等级大于标签信息的领域等级。
全局信息包括指定领域中各个分发内容所共享的类目。以视频为例,对于短视频、电影、动画等分发内容,其共享视频类目。又例如,对于电影对应的何种视频,其共享电影类目。可选地,各个分发内容所共享的类目可以以分发内容的标题进行表示,如各个分发内容统一在视频标题下。
任务信息包括指定领域对应的任务类目,即生成任务对应的任务类目。以视频为例,若以视频中的某个角色的身份来生成评论,则该任务类目为角色模仿。又例如,若以视频对应的情感(如伤感、理智等)来生成评论,则任务类目为情感模仿。可选地,指定领域对应的任务类目可以以分发内容的话题进行表示,如指定领域对应视频的话题:情感。
标签信息包括分发内容的内容标签。内容标签用于表示分发内容的内容,针对不同的内容,可以具有不同的内容标签。以视频为例,视频可以包括不同场景下的内容,则每个场景下的内容可以对应一个内容标签。
步骤501d,根据分发内容对应的全局信息、任务信息和标签信息,得到分发内容的提示信息。
可选地,对于全局信息中的各个类目,分别生成一个提示语,对于任务信息中的各个任务类目,分别生成一个提示语,对于标签信息中的各个内容标签,分别生成一个提示语,然后将所有提示语进行拼接,即可得到分发内容的提示信息。
在一个示例中,各个提示语的具体构建过程可以如下:
1、根据全局信息,构建分发内容对应的第一子提示语,该第一子提示语为指定领域中各个分发内容所共享。
例如,第一子提示语可以表示为“标题是[mask][mask]”,若为视频1、视频2、…、视频n生成一段评论,则[mask][mask]可以是指视频1、视频2、…、视频n所共享的标题或HashTag(哈希标签)。
2、根据任务信息,构建分发内容对应的第二子提示语,该第二子提示语用于引导评论生成模型在任务类目约束下生成预测评论。
例如,第二子提示语可以表示为“话题是[mask][mask]”,若分发内容对应的任务类目为:游戏和颜值,则[mask][mask]可以是指游戏和颜值。或者,若分发内容对应的任务类目为:A情绪和B角色,则[mask][mask]可以分别是A情绪对应的一类词,B角色对应的关键词。
3、根据标签信息,构建分发内容对应的第三子提示语,该第三子提示语用于引导评论生成模型生成与内容标签相关的预测评论。
例如,第三字提示语可以表示为“内容标签是[mask][mask]”,若分发内容对应的内容标签为:情侣和情感共鸣,则[mask][mask]可以是情侣和情感共鸣。
4、对第一子提示语、第二子提示语和第三子提示语进行拼接,得到分发内容的提示信息。
可选地,在第一子提示语之后拼接第二子提示语,然后在第二子提示语之后拼接第三子提示语。各个子提示语之间可以采用分隔符进行区分。
本申请实施例根据与生成预测评论所相关的信息,精细化构建提示信息,实现更加精确的控制预测评论的生成,从而使得评论生成模型的参数,能够适配分发内容对应的全局信息、任务信息和标签信息,进而提高预测评论的生成准确性。
步骤502,获取分发内容对应的多模态特征,该多模态特征包括分发内容在至少两种模态下的特征。
可选地,采用评论生成模型中的预训练网络,分别提取分发内容在至少两种模态下的特征,以得到分发内容对应的多模态特征。
示例性地,在分发内容为视频的情况下,视频可以包括视频模态、音频模态、文本模态和图像模态,分发内容对应的多模态特征则可以包括视频模态、音频模态、文本模态和图像模态中的至少两种模态下的特征。在分发内容为图文的情况下,图文可以包括文本模态和图像模态,分发内容对应的多模态特征则可以包括文本模态和图像模态下的特征;在分发内容为语音的情况下,语音可以包括文本模态和音频模态,分发内容对应的多模态特征则可以包括文本模态和音频模态下的特征。
以视频为例,视频模态下的特征可以根据视频的视频内容获取,图像模态下的特征可以根据视频的视频帧(如封面图和关键帧)获取,视频模态下的特征相对于图像模态下的特征,多了时间维度。音频模态下的特征可以根据视频的音频内容获取,文本模态可以根据视频的标题、抽取帧和封面图的OCR识别结果、音频内容的ASR转换结果,以及视频的内容标签等获取。其中,若音频内容很长,则可对音频内容的ASR转换结果进行主题识别,以简化输入的文本内容。
内容标签可以看做是用户对视频内容一个抽象维度的理解,对于视频分类、视频标签和视频封面图,通常都会有发布作者提供或者内容理解算法等得到的多级分类和多级标签信息,这些多级分类和多级标签信息可被确定为内容标签。
其中,多模态特征可以是指分发内容的编码,也即采用分发内容在至少两种模态下的编码,可拼接得到分发内容的编码。可选地,不同模态下的编码对应的编码空间相同;或者,不同模态下的编码对应的编码空间不相同。
步骤503,通过评论生成模型根据多模态特征,生成分发内容对应的预测评论。
可选地,通过评论生成模型中的评论生成网络,对分发内容的多模态特征进行处理,即可得到分发内容对应的预测评论。
预测评论是指评论生成网络针对分发内容的内容而生成的评论。可选地,预测评论可以是文本形式,也可以是编码形式,本申请实施例对此不作限定。
通过根据多模态特征生成预测评论,可以使得评论生成模型在更多与分发内容相关的信息下,生成预测评论,进而提高预测评论的准确性。
步骤504,通过评论生成模型在不同领域等级下的提示语的约束下,根据预测评论生成分发内容对应的最终预测评论。
可选地,通过评论生成模型中的适配网络,在不同领域等级下的提示语的约束下,对预测评论进行调整,即可生成分发内容对应的最终预测评论。示例性地,通过评论生成模型中的适配网络,对预测评论和不同领域等级下的提示语进行拼接,得到拼接数据,再通过适配网络对拼接数据进行处理,即可得到分发内容对应的最终预测评论。该最终预测评论可以包括提示信息所指示的预测词,如上述第一子提示语对应的共享的类目对应的预测词,第二子提示语对应的任务类目对应的预测词,以及第三子提示语对应的内容标签对应的预测词。
通过提示信息,能够激活评论生成模型的内在能力(即激活大语言模型中所蕴含的知识和能力)。同时,提示信息与分发内容高相关,则最终预测评论与分发内容的相关性更好,从而使得最终预测评论更真实、更准确。
其中,在预测评论为文本形式的情况下,可以对预测评论和不同领域等级下的提示语进行拼接,得到拼接文本,再对拼接文本进行编码,得到拼接数据。
在预测评论为编码形式的情况下,可分别对不同领域等级下的提示语进行编码,得到各个提示语分别对应的编码,再直接将各个提示语分别对应的编码,拼接在预测评论之后,即可得到拼接数据。
可选地,提示信息可以被拼接在预测评论之前,也可以被拼接在预测评论之后,本申请实施例对此不作限定。在拼接过程中,可以采用[SEP]等标识符,来标识提示信息。
步骤505,根据最终预测评论和分发内容对应的标签数据,对评论生成模型进行训练,得到训练后的评论生成模型,该训练后的评论生成模型用于对分发内容进行评论生成。
可选地,分发内容对应的标签数据包括分发内容对应的真实评论和提示信息对应的词类目。其中,真实评论不是由人工标记撰写的评论,而是分发内容对应的高质量存量评论,其具有口语化特征。提示信息对应的词类目可以是指预测词所属的类目,如“好、不错、很棒”等词对应于正面类目,“槽糕、难吃、差”等词对应于负面类目。在一些实施例中,提示信息对应的词类目也可以直接采用预测词来代替,本申请实施例对此不作限定。
在本申请实施例中,训练后的评论生成模型可以是指经过提示学习后的评论生成模型。评论生成模型的提示学习为一个迭代过程,可以采用多个高质量存量分发内容,对评论生成模型进行迭代提示学习,以得到更加适配生成任务和分发内容的评论生成模型。
在一个示例中,如图7所示,步骤505还可以包括如下几个子步骤。
步骤505a,根据最终预测评论和真实评论之间的差异,确定第一损失,该第一损失用于表示评论生成模型对评论的生成准确性。
可选地,可以采用诸如交叉熵损失函数、焦点损失函数、均方差损失函数等来计算第一损失。
以交叉熵损失函数为例,该第一损失可以表示如下:
其中,m为分发内容的数量,yi为第i个分发内容的真实评论,为第i个分发内容的最终预测评论。
步骤505b,根据最终预测评论中与提示信息对应的预测词,以及提示信息对应的词类目,确定第二损失,该第二损失用于表示预测词与词类目之间的匹配程度。
可选地,可以采用诸如交叉熵损失函数、焦点损失函数、均方差损失函数等来计算第二损失,也可以采用诸如欧式距离、余弦相似度、曼哈顿距离等来计算第二损失,本申请实施例对此不作限定。
例如,若预测词为“高兴”,词类目为“正面类目”,则第二损失则较小,预测词与词类目之间的匹配程度较高。
步骤505c,根据第一损失和第二损失,对评论生成网络的参数和适配网络的参数进行调整,得到训练后的评论生成模型。
可选地,以最小化第一损失和第二损失为目标,对评论生成网络的参数和适配网络的参数进行迭代调整,得到训练后的评论生成模型。
在迭代过程中,评论生成网络的部分参数或部分层可以冻结,也即评论生成网络的部分参数或部分层不变,仅对评论生成网络的剩余部分参数或剩余部分层进行微调。适配网络的参数则无需冻结,参与迭代,预训练网络的参数则可以冻结,不参与迭代。
在一个示例中,本申请实施例还支持采用RLHF的训练方法,继续对训练后的评论生成模型进行微调,以使得评论生成模型所生成的评论更完整、更符合用户的期望,则在步骤505c之后,本申请实施例还可以包括如下子步骤。
步骤505d,通过打分模型对最终预测评论进行打分,得到最终预测评论的奖励分,该奖励分用于表示最终预测评论符合用户期望的程度,该打分模型是根据用户针对打分模型的表现的反馈信息校准得到的。
可选地,打分模型也可以被称之为偏好模型、奖励模型等,其是根据用户针对强化学习中的奖励模型的表现的反馈信息校准得到的。
示例性地,打分模型的校准过程可以如下:
首先构建训练数据,可以通过人工对“Prompt问题”写回答(demonstration),来构建训练数据,也可以采用多个模型(可以是初始评论生成网络、微调后的评论生成网络等)给出“Prompt问题”的回答,来构建训练数据。然后人工给这些问题和回答对,按一些标准(如可读性、无害、正确性等等)进行排序,然后采用奖励模型对这些问题进行打分,选择奖励分最高的作为输出,以使得奖励模型学习到如何对相同问题下不同备回答,赋予不同的奖励,从而让奖励模型输出更符合用户所期望的结果。
步骤505e,根据奖励分,对训练后的评论生成模型中评论生成网络的参数进行调整,得到训练完成的评论生成模型。
可选地,根据奖励分,以强化学习方式对对训练后的评论生成模型中评论生成网络的参数进行调整,得到训练完成的评论生成模型。示例性地,可以采用诸如PPO(ProximalPolicy Optimization,近端策略优化)算法,以及类似的算法,对训练后的评论生成模型中评论生成网络的部分参数进行微调。
例如,针对每个最终预测评论,均得到一个奖励分(即标量奖励),奖励分的高低表示回复的质量高低,采用强化学习方式,基于多个奖励分的累计值,不断更新策略网络(Policy)和评论生成网络的部分参数,直到策略网络的参数收敛,即可得到训练完成的评论生成模型。
在一个示例中,上述训练后的评论生成模型或训练完成的评论生成模型可以被部署在模型使用设备中,以提供评论生成服务。示例性地,模型使用设备采用训练完成的评论生成模型中的预训练网络和评论生成网络,构建目标模型。模型使用设备在获取输入分发内容之后,采用目标模型获取输入分发内容对应的多模态特征,再采用评论生成网络根据输入分发内容对应的多模态特征,得到输入分发内容对应的输出评论,并将该输出评论投放至输入分发内容的评论区中。
示例性地,参考图8,将本申请实施例提供的技术方案应用至视频的评论生成场景中,对于视频801、视频802和视频803,相对于采用相关技术生成的评论,采用本申请实施例提供的技术方案生成的评论,在评论的丰富度和完整性上,有明显的改善和提升。进一步观察评论的具体内容,采用本申请实施例提供的技术方案生成的评论与视频之间的贴合度更高。
综上所述,本申请实施例提供的技术方案,通过基于指定领域对应的不同领域等级下的提示语,引导评论生成模型生成分发内容对应的最终预测评论,再根据最终预测评论对评论生成模型进行训练,使得评论生成模型能够从不同领域等级下的提示语中学习到知识,从而提高了评论生成模型的生成准确性,进而使得评论生成模型所生成的预测评论更加准确,提高了预测评论的生成质量。
另外,本申请实施例根据与生成预测评论所相关的信息,精细化构建提示信息,实现更加精确的控制预测评论的生成,从而使得评论生成模型的参数,能够适配分发内容对应的全局信息、任务信息和标签信息,进而提高预测评论的生成准确性。
另外,通过精细化的提示信息,能够激活评论生成模型的内在能力(即激活大语言模型中所蕴含的知识和能力)。同时,精细化的提示信息与分发内容高相关,则最终预测评论与分发内容的相关性更好,从而使得最终预测评论更真实、更准确。
在一些实施例中,结合图9,对本申请实施例中的评论生成模型和评论生成服务,在典型的信息流推荐系统中和其他模块所处的关系和发挥的作用进行说明,其具体可以包括如下内容。
一、内容生产端901和内容消费端902
(1)PGC、UGC、MCN、PUGC(PGC+UGC)等内容的生产者,通过移动端或者后端接口API(Application Programming Interface,应用程序编程接口)系统,提供本地或者拍摄的视频内容、图文内容、音频内容等,这些都是分发内容的主要来源。
(2)内容生产端901通过和上下行内容接口服务器903的通讯,先获取上传服务器接口地址,然后再上传本地文件,在本地文件的拍摄过程中,本地图文内容可以选择搭配的音乐、滤镜模板和图文的美化功能等等。
(3)内容消费端902作为消费者,和上下行内容接口服务器903进行通讯,以获取访问图文或者视频文件的索引信息,然后下载对应的流媒体文件并且通过本地播放器来播放观看。
(4)内容消费端902同时将上传和下载过程当中用户播放的行为数据、卡顿、加载时间、播放点击等上报给上下行内容接口服务器903。
(5)内容消费端902消费内容的互动信息,重点是评论内容产生的UGC短文本、评论点赞、转发、收藏等互动信息,内容消费端902通过UGC互动及系统上报接口服务,统计上报至评论内容数据库904。
(6)评论内容的低质举报也会标记上报到评论内容数据库904,评论内容在作为样本之前需经过人工复核,用于质量过滤模型的语料可以进行评论质量的评价建模。
二、上下行内容接口服务器903
(1)上下行内容接口服务器903和内容生产端901直接通讯,从前端提交的内容通常是内容的标题、发布者、摘要、封面图、发布时间等,本地文件可直接通过上下行内容接口服务器903进入服务端,以存入内容数据库905。
(2)上下行内容接口服务器903将内容的元信息,如视频文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、关键词等信息写入内容数据库905。
(3)上下行内容接口服务器903将上传的文件提交给调度中心服务器906,以进行后续的内容处理和流转。
三、内容数据库905
(1)内容数据库905为分发内容的核心数据库,所有生产者发布内容的元信息都保存在这个内容数据库905中,重点存储的是内容本身的元信息,如文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、视频文件大小、视频格式、是否原创的标记、首发还包括人工审核过程中对内容的分类(包括一、二和三种级别分类和标签信息)等。
(2)人工审核过程当中会读取内容数据库905中的信息,同时人工审核的结果和状态也会回传进入内容数据库905。
(3)调度中心服务器906对内容的处理主要包括:机器处理和人工审核处理,机器处理的核心是各种质量判断,如低质过滤、内容标签分类、标签信息,以及内容排重,它们的处理结果会写入内容数据库905中,完全重复一样的内容不会给人工进行重复的二次处理。
四、调度中心服务器906
(1)其负责内容流转的整个调度过程,通过上下行内容接口服务器903接收入内容数据库905的内容,然后从内容数据库905中获取内容的元信息。
(2)其调度人工审核系统907和机器处理系统(未示出),控制调度的顺序和优先级。
(3)对于分发内容,调度中心服务器906先和排重服务通讯,后者对不同码率、不同清晰度、不同尺寸、部分黑屏、有无滤镜、有无logo、在相似图文内容中插入的部分广告内容,以及片头片尾的裁剪都可以进行排重处理,对于图文内容,排重服务通过内容的向量或标题是否重复,来进行排重。
(4)调度中心服务器906调用评论生成服务,完成用户评论生成工作,同时将生成的评论内容输出到分发端,以改善社区的氛围。
(5)调度中心服务器906最后通过人工审核系统907进行内容启用,通过内容出口分发服务供给内容消费端902,通常是通过推荐引擎、搜索引擎、运营等的展示页面直接提供给内容消费者。
五、人工审核系统907
(1)人工审核系统907需要读取内容数据库905中内容本身的原始信息,人工审核系统907通常是一个业务复杂的基于web数据库网站的系统,其通过人工来对内容审核与过滤。
(2)人工审核系统907在初步审核的基础之上,对内容进行二次审核,主要是对内容进行分类和标签的标注等的抽检,以防止评论生成模型训练时发生衰退。
六、排重服务
(1)排重服务提供图文、视频和图集的排重服务,主要是对图文、图集及视频进行向量化,然后建立向量的索引,然后通过比较向量之间的距离来确定相似程度。
(2)对于图文内容,排重服务可以通过BERT进行向量化,所有排重任务之前,先对标题短文本进行排重。
七、UGC互动及统计上报接口服务
(1)UGC互动及统计上报接口服务和内容消费端902通讯,其接收上报上来的内容评论UGC短文本、评论点赞、评论转发、评论收藏等互动信息,并且将这些信息写入评论内容数据库904。
(2)UGC互动及统计上报接口服务可为评论质量评价服务和评论生成服务,提供评论的原始内容数据和互动数据语料。
八、评论内容数据库904
(1)评论内容数据库904接收和保存内容消费端902上报的评论原始数据,以为后续进一步处理提供数据源。
(2)评论内容数据库904为评论生成模型的构建,及评论生成服务提供原始样本数据服务。
九、评论质量评价服务
(1)评论质量评价服务用于根据存量评论的质量,从存量分发内容中获取高质量分发内容。
十、评论语料库(未示出)
(1)评论语料库用于存放经过质量筛选后的存量分发内容和存量评论,构建评论生成模型时,可从评论语料库中获取评论的语料信息,以及进行评论生成模型的提示学习。
十一、评论生成模型与评论生成服务
(1)评论生成服务与调度中心服务器906通讯,以输出生成的最终预测评论。采用上述实施例提供的基于大语言模型的方法,构建评论生成模型,并采用Prompt Tuning,集合RLHF的训练方法,对评论生成模型进行训练,在评论生成模型的基础上提供进行评论生成的服务。
综上所述,本申请实施例提供的技术方案,通过基于指定领域对应的不同领域等级下的提示语,引导评论生成模型生成分发内容对应的最终预测评论,再根据最终预测评论对评论生成模型进行训练,使得评论生成模型能够从不同领域等级下的提示语中学习到知识,从而提高了评论生成模型的生成准确性,进而使得评论生成模型所生成的预测评论更加准确,提高了预测评论的生成质量。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图10,其示出了本申请一个实施例提供的分发内容的评论生成装置的框图。该装置可用于实现上述分发内容的评论生成方法。该装置1000可以包括:分发内容获取模块1001、模态特征获取模块1002、预测评论生成模块1003、预测评论调整模块1004和生成模型训练模块1005。
分发内容获取模块1001,用于获取带提示信息的分发内容,所述提示信息用于引导生成指定领域下的评论,所述提示信息包括所述指定领域对应的不同领域等级下的提示语。
模态特征获取模块1002,用于获取所述分发内容对应的多模态特征,所述多模态特征包括所述分发内容在至少两种模态下的特征。
预测评论生成模块1003,用于通过评论生成模型根据所述多模态特征,生成所述分发内容对应的预测评论。
预测评论调整模块1004,用于通过所述评论生成模型在所述不同领域等级下的提示语的约束下,根据所述预测评论生成所述分发内容对应的最终预测评论。
生成模型训练模块1005,用于根据所述最终预测评论和所述分发内容对应的标签数据,对所述评论生成模型进行训练,得到训练后的评论生成模型,所述训练后的评论生成模型用于对所述分发内容进行评论生成。
在一些实施例中,如图11所示,所述分发内容获取模块1001,包括:存量内容获取子模块1001a、分发内容获取子模块1001b、领域信息获取子模块1001c和提示信息获取子模块1001d。
存量内容获取子模块1001a,用于获取多个存量分发内容,以及所述多个存量分发内容分别对应的存量评论。
分发内容获取子模块1001b,用于根据所述存量评论的质量,从所述多个存量分发内容中获取所述分发内容。
领域信息获取子模块1001c,用于获取所述分发内容对应的全局信息、任务信息和标签信息;其中,所述全局信息的领域等级大于所述任务信息的领域等级,所述任务信息的领域等级大于所述标签信息的领域等级,所述全局信息包括所述指定领域中各个分发内容所共享的类目,所述任务信息包括所述指定领域对应的任务类目,所述标签信息包括所述分发内容的内容标签;
提示信息获取子模块1001d,用于根据所述分发内容对应的全局信息、任务信息和标签信息,得到所述分发内容的提示信息。
在一些实施例中,所述提示信息获取子模块1001d,用于:
根据所述全局信息,构建所述分发内容对应的第一子提示语,所述第一子提示语为所述指定领域中各个分发内容所共享;
根据所述任务信息,构建所述分发内容对应的第二子提示语,所述第二子提示语用于引导所述评论生成模型在所述任务类目约束下生成所述预测评论;
根据所述标签信息,构建所述分发内容对应的第三子提示语,所述第三子提示语用于引导所述评论生成模型生成与所述内容标签相关的预测评论;
对所述第一子提示语、所述第二子提示语和所述第三子提示语进行拼接,得到所述分发内容的提示信息。
在一些实施例中,所述分发内容获取子模块1001b,用于:
分别对多个所述存量评论进行预处理,得到多个预处理评论,所述预处理包括以下至少一项:繁简转换、大小写归、隐藏文字去除、评论过滤、关键词清洗、情感过滤、评论噪声处理、冗余字符处理和语法基础优化;
分别对所述多个预处理评论进行质量分级,得到所述多个预处理评论分别对应的质量等级,所述预处理评论的质量等级与所述预处理评论的质量之间呈正相关关系;
将所述质量等级满足等级条件的预处理评论所对应的存量分发内容,确定为所述分发内容。
在一些实施例中,所述评论生成模型包括预训练网络、评论生成网络和适配网络;其中,所述预训练网络基于预训练模型构建,所述评论生成网络基于大语言模型构建,所述适配网络基于多层感知机构建;
所述预训练网络用于获取所述分发内容对应的多模态特征;
所述评论生成网络用于根据所述多模态特征,生成所述分发内容对应的预测评论;
所述适配网络用于在所述不同领域等级下的提示语的约束下,根据所述预测评论生成所述分发内容对应的最终预测评论。
在一些实施例中,所述分发内容对应的标签数据包括所述分发内容对应的真实评论和所述提示信息对应的词类目;所述生成模型训练模块1005,用于:
根据所述最终预测评论和所述真实评论之间的差异,确定第一损失,所述第一损失用于表示所述评论生成模型对评论的生成准确性;
根据所述最终预测评论中与所述提示信息对应的预测词,以及所述提示信息对应的词类目,确定第二损失,所述第二损失用于表示所述预测词与所述词类目之间的匹配程度;
根据所述第一损失和所述第二损失,对所述评论生成网络的参数和所述适配网络的参数进行调整,得到所述训练后的评论生成模型。
在一些实施例中,如图11所示,所述装置1000还包括:奖励分获取模块1006和网络参数调整模块1007。
奖励分获取模块1006,用于通过打分模型对所述最终预测评论进行打分,得到所述最终预测评论的奖励分,所述奖励分用于表示所述最终预测评论符合用户期望的程度,所述打分模型是根据用户针对所述打分模型的表现的反馈信息校准得到的。
网络参数调整模块1007,用于根据所述奖励分,对所述训练后的评论生成模型中评论生成网络的参数进行调整,得到训练完成的评论生成模型。
综上所述,本申请实施例提供的技术方案,通过基于指定领域对应的不同领域等级下的提示语,引导评论生成模型生成分发内容对应的最终预测评论,再根据最终预测评论对评论生成模型进行训练,使得评论生成模型能够从不同领域等级下的提示语中学习到知识,从而提高了评论生成模型的生成准确性,进而使得评论生成模型所生成的预测评论更加准确,提高了预测评论的生成质量。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图12,其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以是任何具备数据计算、处理和存储功能的电子设备,该计算机设备可以实现成为图1所示方案实施环境中的模型训练设备10或模型使用设备20。具体来讲可以包括如下内容。
该计算机设备1200包括中央处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable GateArray,现场可编程逻辑门阵列)等)1201、包括RAM(Random-Access Memory,随机存取存储器)1202和ROM(Read-Only Memory,只读存储器)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。该计算机设备1200还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System,I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
在一些实施例中,该基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中,该显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。该基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。该大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,该大容量存储设备1207可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本申请实施例,该计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在该系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述分发内容的评论生成方法。
在一些实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述分发内容的评论生成方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在一些实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机程序,所述处理器执行所述计算机程序,使得所述计算机设备执行上述分发内容的评论生成方法。
需要说明的是,本申请实施例在收集用户的相关数据之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据,处理严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意都是在用户同意并授权的情况下进行采集的,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的分发内容、评论、反馈信息等都是在充分授权的情况下获取的。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种分发内容的评论生成方法,其特征在于,所述方法包括:
获取带提示信息的分发内容,所述提示信息用于引导生成指定领域下的评论,所述提示信息包括所述指定领域对应的不同领域等级下的提示语;
获取所述分发内容对应的多模态特征,所述多模态特征包括所述分发内容在至少两种模态下的特征;
通过评论生成模型根据所述多模态特征,生成所述分发内容对应的预测评论;
通过所述评论生成模型在所述不同领域等级下的提示语的约束下,根据所述预测评论生成所述分发内容对应的最终预测评论;
根据所述最终预测评论和所述分发内容对应的标签数据,对所述评论生成模型进行训练,得到训练后的评论生成模型,所述训练后的评论生成模型用于对所述分发内容进行评论生成。
2.根据权利要求1所述的方法,其特征在于,所述获取带提示信息的分发内容,包括:
获取多个存量分发内容,以及所述多个存量分发内容分别对应的存量评论;
根据所述存量评论的质量,从所述多个存量分发内容中获取所述分发内容;
获取所述分发内容对应的全局信息、任务信息和标签信息;其中,所述全局信息的领域等级大于所述任务信息的领域等级,所述任务信息的领域等级大于所述标签信息的领域等级,所述全局信息包括所述指定领域中各个分发内容所共享的类目,所述任务信息包括所述指定领域对应的任务类目,所述标签信息包括所述分发内容的内容标签;
根据所述分发内容对应的全局信息、任务信息和标签信息,得到所述分发内容的提示信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述分发内容对应的全局信息、任务信息和标签信息,得到所述分发内容的提示信息,包括:
根据所述全局信息,构建所述分发内容对应的第一子提示语,所述第一子提示语为所述指定领域中各个分发内容所共享;
根据所述任务信息,构建所述分发内容对应的第二子提示语,所述第二子提示语用于引导所述评论生成模型在所述任务类目约束下生成所述预测评论;
根据所述标签信息,构建所述分发内容对应的第三子提示语,所述第三子提示语用于引导所述评论生成模型生成与所述内容标签相关的预测评论;
对所述第一子提示语、所述第二子提示语和所述第三子提示语进行拼接,得到所述分发内容的提示信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述存量评论的质量,从所述多个存量分发内容中获取所述分发内容,包括:
分别对多个所述存量评论进行预处理,得到多个预处理评论,所述预处理包括以下至少一项:繁简转换、大小写归、隐藏文字去除、评论过滤、关键词清洗、情感过滤、评论噪声处理、冗余字符处理和语法基础优化;
分别对所述多个预处理评论进行质量分级,得到所述多个预处理评论分别对应的质量等级,所述预处理评论的质量等级与所述预处理评论的质量之间呈正相关关系;
将所述质量等级满足等级条件的预处理评论所对应的存量分发内容,确定为所述分发内容。
5.根据权利要求1所述的方法,其特征在于,所述评论生成模型包括预训练网络、评论生成网络和适配网络;其中,所述预训练网络基于预训练模型构建,所述评论生成网络基于大语言模型构建,所述适配网络基于多层感知机构建;
所述预训练网络用于获取所述分发内容对应的多模态特征;
所述评论生成网络用于根据所述多模态特征,生成所述分发内容对应的预测评论;
所述适配网络用于在所述不同领域等级下的提示语的约束下,根据所述预测评论生成所述分发内容对应的最终预测评论。
6.根据权利要求5所述的方法,其特征在于,所述分发内容对应的标签数据包括所述分发内容对应的真实评论和所述提示信息对应的词类目;
所述根据所述最终预测评论和所述分发内容对应的标签数据,对所述评论生成模型进行训练,得到训练后的评论生成模型,包括:
根据所述最终预测评论和所述真实评论之间的差异,确定第一损失,所述第一损失用于表示所述评论生成模型对评论的生成准确性;
根据所述最终预测评论中与所述提示信息对应的预测词,以及所述提示信息对应的词类目,确定第二损失,所述第二损失用于表示所述预测词与所述词类目之间的匹配程度;
根据所述第一损失和所述第二损失,对所述评论生成网络的参数和所述适配网络的参数进行调整,得到所述训练后的评论生成模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一损失和所述第二损失,对所述评论生成网络的参数和所述适配网络的参数进行调整,得到所述训练后的评论生成模型之后,还包括:
通过打分模型对所述最终预测评论进行打分,得到所述最终预测评论的奖励分,所述奖励分用于表示所述最终预测评论符合用户期望的程度,所述打分模型是根据用户针对所述打分模型的表现的反馈信息校准得到的;
根据所述奖励分,对所述训练后的评论生成模型中评论生成网络的参数进行调整,得到训练完成的评论生成模型。
8.一种分发内容的评论生成装置,其特征在于,所述装置包括:
分发内容获取模块,用于获取带提示信息的分发内容,所述提示信息用于引导生成指定领域下的评论,所述提示信息包括所述指定领域对应的不同领域等级下的提示语;
模态特征获取模块,用于获取所述分发内容对应的多模态特征,所述多模态特征包括所述分发内容在至少两种模态下的特征;
预测评论生成模块,用于通过评论生成模型根据所述多模态特征,生成所述分发内容对应的预测评论;
预测评论调整模块,用于通过所述评论生成模型在所述不同领域等级下的提示语的约束下,根据所述预测评论生成所述分发内容对应的最终预测评论;
生成模型训练模块,用于根据所述最终预测评论和所述分发内容对应的标签数据,对所述评论生成模型进行训练,得到训练后的评论生成模型,所述训练后的评论生成模型用于对所述分发内容进行评论生成。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的分发内容的评论生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至7任一项所述的分发内容的评论生成方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如权利要求1至7任一项所述的分发内容的评论生成方法。
CN202310922907.2A 2023-07-25 2023-07-25 分发内容的评论生成方法、装置、设备及存储介质 Pending CN117216185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310922907.2A CN117216185A (zh) 2023-07-25 2023-07-25 分发内容的评论生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310922907.2A CN117216185A (zh) 2023-07-25 2023-07-25 分发内容的评论生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117216185A true CN117216185A (zh) 2023-12-12

Family

ID=89049968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310922907.2A Pending CN117216185A (zh) 2023-07-25 2023-07-25 分发内容的评论生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117216185A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494693A (zh) * 2023-12-25 2024-02-02 广东省科技基础条件平台中心 一种测评文档生成方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494693A (zh) * 2023-12-25 2024-02-02 广东省科技基础条件平台中心 一种测评文档生成方法、装置及设备
CN117494693B (zh) * 2023-12-25 2024-03-15 广东省科技基础条件平台中心 一种测评文档生成方法、装置及设备

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
Li et al. Visual to text: Survey of image and video captioning
US20170357720A1 (en) Joint heterogeneous language-vision embeddings for video tagging and search
CN111444357B (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN113590849A (zh) 多媒体资源分类模型训练方法和多媒体资源推荐方法
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN116702737B (zh) 文案生成方法、装置、设备、存储介质及产品
CN116721334B (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN114390218A (zh) 视频生成方法、装置、计算机设备和存储介质
CN117216234A (zh) 基于人工智能的话术改写方法、装置、设备及存储介质
CN117216185A (zh) 分发内容的评论生成方法、装置、设备及存储介质
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及系统
CN113761156A (zh) 人机交互对话的数据处理方法、装置、介质及电子设备
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN117218482A (zh) 模型训练方法、视频处理方法、装置及电子设备
CN110505520B (zh) 信息推荐方法及系统、介质及电子设备
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质
CN115658964B (zh) 预训练模型以及体感画风识别模型的训练方法及装置
Dehaqi et al. Adversarial image caption generator network
CN118014086B (zh) 数据处理方法、装置、设备、存储介质及产品
CN117093785B (zh) 基于社交引导用户的方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication