CN117177013A - 一种基于语言模型的媒体内容预测方法、设备及介质 - Google Patents

一种基于语言模型的媒体内容预测方法、设备及介质 Download PDF

Info

Publication number
CN117177013A
CN117177013A CN202311190594.2A CN202311190594A CN117177013A CN 117177013 A CN117177013 A CN 117177013A CN 202311190594 A CN202311190594 A CN 202311190594A CN 117177013 A CN117177013 A CN 117177013A
Authority
CN
China
Prior art keywords
media content
preset
determining
data
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311190594.2A
Other languages
English (en)
Other versions
CN117177013B (zh
Inventor
宋业臻
肖维斌
黄杰
李小龙
陈婷
林振林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Xinfa Technology Co ltd
Original Assignee
Shandong Xinfa Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Xinfa Technology Co ltd filed Critical Shandong Xinfa Technology Co ltd
Priority to CN202311190594.2A priority Critical patent/CN117177013B/zh
Priority claimed from CN202311190594.2A external-priority patent/CN117177013B/zh
Publication of CN117177013A publication Critical patent/CN117177013A/zh
Application granted granted Critical
Publication of CN117177013B publication Critical patent/CN117177013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种基于语言模型的媒体内容预测方法、设备及介质,方法包括:确定预设种类内容的预设种类标准,根据预设种类标准进行加权计算,以得到预设种类指标;获取历史媒体内容,根据预设种类标准确定历史媒体内容的预设种类数据,并确定历史媒体内容的内容指标,根据内容指标确定历史媒体内容的标签数据;将标签数据作为输入数据,并根据预设种类指标和预设种类数据确定验证数据,根据输入数据和验证数据对预先设置的语言模型进行训练,以得到媒体预测模型;确定媒体内容,将媒体内容输入预测模型,以得到预测结果,根据预测结果判断媒体内容是否为预设种类内容。

Description

一种基于语言模型的媒体内容预测方法、设备及介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于语言模型的媒体内容预测方法、设备及介质。
背景技术
新媒体平台通常是大众消遣娱乐的主要网络公共场所和空间,大众关注的内容也通常是短小的、简洁的、执行简单的、确定性强的。而科普内容或者行业知识普及内容,普遍是长篇的、复杂的、不确定性强的,科普型KOL通常难以平衡上述两种内容属性上的内生矛盾。在微信公众号、微博、推特等新媒体平台上,新媒体编辑常常由于上述矛盾无法准确地预测爆款媒体内容。
发明内容
为了解决上述问题,本申请提出了一种基于语言模型的媒体内容预测方法,包括:确定预设种类内容的预设种类标准,根据所述预设种类标准进行加权计算,以得到预设种类指标;获取历史媒体内容,根据所述预设种类标准确定所述历史媒体内容的预设种类数据,并确定所述历史媒体内容的内容指标,根据所述内容指标确定所述历史媒体内容的标签数据;将所述标签数据作为输入数据,并根据所述预设种类指标和所述预设种类数据确定验证数据,根据所述输入数据和所述验证数据对预先设置的语言模型进行训练,以得到媒体预测模型;确定媒体内容,将所述媒体内容输入所述预测模型,以得到预测结果,根据所述预测结果判断所述媒体内容是否为预设种类内容。
在一个示例中,所述方法还包括:若所述媒体内容为预设种类内容,则根据所述媒体内容确定多个媒体标题;将所述媒体标题输入预先设置的标题模型,以根据所述多个媒体标题确定预设种类标题,并根据所述预设种类标题将所述媒体内容进行发布。
在一个示例中,将所述媒体标题输入预先设置的标题模型之前,所述方法还包括:确定预先设置的数据元素,根据所述数据元素确定所述历史媒体内容的训练数据,并根据所述训练数据对所述标题模型进行训练,以通过训练后的所述标题模型确定预设种类标题,其中,所述数据元素包括媒体内容、媒体标题、标题满意度,所述媒体内容和媒体标题为输入数据,所述标题满意度为验证数据。
在一个示例中,所述预设种类标准包括播放量标准和点赞量标准;根据所述预设种类指标和所述预设种类数据确定验证数据,具体包括:确定预先设置的权重,根据所述权重、所述播放量标准和所述点赞量标准计算所述预设种类指标;确定所述历史媒体内容的预设种类数据,其中,所述预设种类数据包括播放量和点赞量,根据所述预设种类数据和所述权重计算所述历史媒体内容的预设种类指数,并将所述预设种类指数与所述预设种类指标进行比较;若所述预设种类指数小于所述预设种类指标,则判断所述历史媒体内容不是预设种类内容;若所述预设种类指数大于或等于所述预设种类指标,则判断所述历史媒体内容是预设种类内容;将所述历史媒体内容的判断结果作为所述验证数据。
在一个示例中,根据所述内容指标确定所述历史媒体内容的标签数据,具体包括:确定预先设置的多个采集时间,根据所述多个采集时间对所述历史媒体内容进行采集,以得到多个内容指标;将所述多个内容指标进行组合,以得到所述标签数据。
在一个示例中,所述内容指标包括点赞量、转发量、情绪数值;所述方法还包括:获取所述历史媒体内容的评论,并确定所述评论中的词汇;确定预先设置的情绪词汇数据库,其中,所述情绪词汇数据库包括预先确定的积极情绪词汇和预先确定的消极情绪词汇;根据所述词汇和所述情绪词汇数据库计算所述评论的情绪数值,其中,所述情绪数值的计算公式为:
其中,IE为所述情绪数值,positive表示积极情绪数值,negative表示消极情绪数值,Ratep为积极情绪相似度,Raten为消极情绪相似度;所述积极情绪相似度的计算公式为:
其中,Count为所述词汇的数量,Countp为所述词汇中与所述积极情绪词汇相同的数量;所述消极情绪相似度的计算公式为:
其中,Count为所述词汇的数量,Countn为所述词汇中与所述消极情绪词汇相同的数量。
在一个示例中,所述媒体预测模型包括神经元映射函数、激活函数和损失函数;所述神经元映射函数的表达式为:
其中,z表示所述神经元映射函数,wi为权重值,b为偏移量,i表示媒体预测模型的神经元;所述激活函数的表达式为:
其中,σ(z)表示激活函数;所述损失函数的表达式为:
其中,LF表示损失函数,yk为第k个真实值,tk为第k个预测值。
在一个示例中,所述标题模型包括价值函数,所述价值函数的表达式为:
vπ(S)=Eπ(Rt+1+γRt+22Rt+3+…|St=s)
其中,vπ(S)为价值函数,S为媒体标题,R为媒体标题对应的价值,E为全部媒体标题的期望价值,γ为折扣率。
另一方面,本申请还提出了一种基于语言模型的媒体内容预测设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述一种基于语言模型的媒体内容预测设备能够执行:确定预设种类内容的预设种类标准,根据所述预设种类标准进行加权计算,以得到预设种类指标;获取历史媒体内容,根据所述预设种类标准确定所述历史媒体内容的预设种类数据,并确定所述历史媒体内容的内容指标,根据所述内容指标确定所述历史媒体内容的标签数据;将所述标签数据作为输入数据,并根据所述预设种类指标和所述预设种类数据确定验证数据,根据所述输入数据和所述验证数据对预先设置的语言模型进行训练,以得到媒体预测模型;确定媒体内容,将所述媒体内容输入所述预测模型,以得到预测结果,根据所述预测结果判断所述媒体内容是否为预设种类内容。
另一方面,本申请还提出了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:确定预设种类内容的预设种类标准,根据所述预设种类标准进行加权计算,以得到预设种类指标;获取历史媒体内容,根据所述预设种类标准确定所述历史媒体内容的预设种类数据,并确定所述历史媒体内容的内容指标,根据所述内容指标确定所述历史媒体内容的标签数据;将所述标签数据作为输入数据,并根据所述预设种类指标和所述预设种类数据确定验证数据,根据所述输入数据和所述验证数据对预先设置的语言模型进行训练,以得到媒体预测模型;确定媒体内容,将所述媒体内容输入所述预测模型,以得到预测结果,根据所述预测结果判断所述媒体内容是否为预设种类内容。
本申请提出了基于大语言模型和学习模型的媒体预测方案,通过动态更新的数据库方案,使用近期的数据库来训练预测模型,用于对媒体内容的热门情况进行预测,帮助新媒体编辑生成爆款的内容和文案,提高了媒体内容和文案的生成效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种基于语言模型的媒体内容预测方法的流程示意图;
图2为本申请实施例中一种基于语言模型的媒体内容预测设备的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,为了解决上述问题,本申请实施例提供的一种基于语言模型的媒体内容预测方法,方法包括:
S101、确定预设种类内容的预设种类标准,根据所述预设种类标准进行加权计算,以得到预设种类指标。
在新媒体平台上,成为一个社会公众关注的爆款媒体内容(在此称为预设种类内容)之前,在其发布之初的3小时内,会出现一些可以预见迹象。爆款问题出现之前,以下几个标准(在此称为内容标准)会出现异常,包括:点赞数量、转发数量、情绪型评论数量。定义点赞数量为IG、转发数量为IR、情绪型评论为IE,其中情绪型评论指的是使用文本情感计算技术,计算得到的文本情感属性为积极情感属性或者消极情感属性,并非平静情感属性的文本即为情绪型评论。
在一个实施例中,文本情感依靠将输入的文本数据与预先设置的一个文本情感数据库进行比对,该文本情感数据库主要分为两个部分,包括积极情感文本数据库和消极情感文本数据库,积极情感文本数据库中包括“心情好”、“快乐”、“阳光明媚”等一系列描绘积极情感的文本数据,总的词汇数量为28766条;消极情感文本数据库中包括“低落”、“消沉”、“郁郁寡欢”等一系列描绘消极情感的文本数据,总的词汇数量为32776条。根据情绪心理学理论,当人类在处于某种情绪状态下的时候,其语言表达能够表现出其情绪状态特征,例如,当处于积极的情绪状态下,则表达出更多的积极情绪效价的评价,类似于“这个东西不错”、“视频挺好的”、“手动点赞”等。根据情绪心理学中提出的环从情绪理论与模型,相较于将人类情绪状态分为6种基本类型的基本情绪理论,环从情绪理论对人类情绪的分析更加具有生态效度,所以使用环从情绪模型。根据环从情绪模型,人类的情绪状态可以描述为效价(积极-消极)和唤醒度(高唤醒度-低唤醒度)两个维度组成的模型,根据环从模型中的效价维度,构建积极-消极情绪对应的文本数据库,用于训练文本情感识别模型。
在一段文本中的某个语句中,计算该语句的情感属性,积极情感与消极情感数据库相似度的计算公式为:
其中,IE为情绪数值,positive表示积极情绪数值,negative表示消极情绪数值,Ratep为积极情绪相似度,Raten为消极情绪相似度;
积极情绪相似度的计算公式为:
其中,Count为词汇的数量,Countp为词汇中与积极情绪词汇相同的数量;
消极情绪相似度的计算公式为:
其中,Count为词汇的数量,Countn为词汇中与消极情绪词汇相同的数量。
不符合上述IE的定义条件的任何其他情况,即为非情绪性评论的文本。
在一个实施例中,视频发出后会对预设种类标准的数据进行统计,该预设种类标准为播放量和点赞量,若播放量过10万、点赞量过1万,则为爆款视频,上述两个指标各加权50%,形成爆款视频指数IF(在此称为预设种类指数)。例如,一个视频发出后播放量为10万、点赞量为2万,那么其预设种类指数为:
因此,爆款视频的预设种类指标为IF=6。视频的IF数值超过预设种类指标,则表示该视频为爆款视频,即预设种类视频。
S102、获取历史媒体内容,根据所述预设种类标准确定所述历史媒体内容的预设种类数据,并确定所述历史媒体内容的内容指标,根据所述内容指标确定所述历史媒体内容的标签数据。
根据历史媒体内容构建训练模型的数据集,对历史媒体内容获取播放量和点赞量的数值(在此称为预设种类数据),并分别在视频发出后30分钟、1小时、2小时、3小时获取上述内容指标,根据内容指标构建数据集(在此称为标签数据),该标签数据为:
Datainput
={IG30min,IR30min,IE30min,IG1h,IR1h,IE1h,IG2h,IR2hIE2h,IG3h,IR3hIE3h}
S103、将所述标签数据作为输入数据,并根据所述预设种类指标和所述预设种类数据确定验证数据,根据所述输入数据和所述验证数据对预先设置的语言模型进行训练,以得到媒体预测模型。
在进行模型训练之前,构建一个训练数据集,该数据集以各种各样的科普视频为主,既包括IF值较高的爆款视频,也包括IF值较低的一般视频。在媒体平台收集上述科普视频的训练数据集,该组数据集中包括32099条视频的标签数据和预设种类数据,该数据集保持动态更新,只保留最近1个月的数据,删除1个月之前的数据。其中,训练数据定义为{X,Y},X即为输入数据Data-input中的IG、IR、IE三个指标在时间序列上的分布数值;Y为预设种类数据,用作历史媒体内容的判断结果,为训练模型提供验证数据。
该深度学习模型使用的是深度神经网络模型,训练得到的深度神经网络的关键函数包括神经元映射函数、激活函数和损失函数。
对于任意一层中的一个神经元对于输入x存在一个线性映射关系,即神经元映射函数,其公式为:
其中,z表示所述神经元映射函数,wi为每个线性映射关系中的权重值,b为偏移量,i表示媒体预测模型的第i个神经元。使用既往数据分析方法得到预设种类指标以及指标的权重设置参数,具体而言,使用媒体上历史发布的视频成为“爆款视频”,即点赞量>10万、浏览量>100万的历史媒体数据,将其发展过程构建为一个时间序列数据,收集大量的视频发展的历史数据之后,建立一个数据集,分别设置浏览量、点赞量、播放量、积极评论量、消极评论量等指标构建多元回归方程,确定与数据集拟合程度最高的方程中对应的指标类型,并根据该拟合度最高的方程的参数确定权重,由此形成预设种类的指标以及相应的权重。
对于任意一个神经元有满足线性激活关系基础上,再增加一个激活函数σ,其公式为:
定义损失函数为LF,其公式为:
其中,LF表示损失函数,yk为第k个真实值,tk为第k个预测值。
损失函数LF为均方误差,使用真实值减去预测值的差的平方,就是均方误差。
经过上述训练过程,构建了一个层数为21层的深度神经网络模型,使用上述激活函数σ和损失函数LF,训练数据集使用上述数据集。经过测试,该模型的准确率在数据集抽取2000条数据组成的验证集上能够达到97%以上。
S104、确定媒体内容,将所述媒体内容输入所述预测模型,以得到预测结果,根据所述预测结果判断所述媒体内容是否为预设种类内容。
使用该深度神经网络模型,输入待测的媒体内容对应的IG、IR、IE三个指标在时间序列上的分布数值,经过模型计算,自动输出预测得到的爆款指数IF。根据预测所得到的IF从高到低排列对应的视频和文案,即为爆款概率最高的视频和文案。进一步,使用语音文本技术,提取出预测所得到的IF最高的几个爆款视频中的内容,并转写成为文本,使用人工智能自然语言处理技术,剔除其中的“的”、“了”等语气词和无意义的助词等,抽取出其中的名词和动词,统计上述名词和动词的词频,频率较高的词汇列表即为得到潜在爆款媒体内容。
在一个实施例中,爆款标题或文案撰写与编辑时,将预测所得到的爆款媒体内容输入chat GPT,并从chat GPT输出多个问题的回答,即媒体标题。训练一个强化学习模型,将得到的多个媒体标题输入强化学习模型,输出预测的观众满意度最高的回答。
构建一个数据库用于训练强化学习模型,该数据库中主要包括三个数据元素,第一个元素是问题Q,即媒体内容,第二个元素是回答A,即媒体标题,第三个元素是标题满意度V,即验证数据。则训练数据T为:
T={Q,An,Vn}
其中,chat GPT输出几种不同的回答,则n对应的数值为多少。使用该数据库作为训练强化学习模型的数据库,最终目标在于当输入一个问题Q时候,强化学习模型能够自动根据训练数据库中的高价值,即观众满意度高的标准自动输出最高价值对应的回答A。
该强化学习的模型为基于上述内容库自主训练所得,强化学习模型中的关键函数为价值函数,价值函数的表达式为:
vπ(S)=Eπ(Rt+1+γRt+22Rt+3+…|St=s)
其中,vπ(S)为价值函数。S为媒体标题,对该媒体标题进行编码,将文字转化成一组自然语言的编码。R为媒体标题对应的价值,E为全部媒体标题的期望价值,γ为折扣率,取值范围是0<γ≤1。
该强化学习模型中的v价值总额主要根据数据库中的人类观众满意度确定的。
在确定媒体备选标题中最可能成为爆款视频的标题文案后,将该问题输入chatGPT,chat GPT形成多个不同版本的回答;为了进一步确定那个版本的回答会更可能成为爆款视频的文案,将上述问题再次输入自主训练得到的强化学习模型,强化学习模型根据训练数据集中人类满意度最高的回答这一标准,输出预期人类满意度最高的回答,即预设种类标题,作为爆款视频对应的问题和答案文案参考方案,根据该标题将媒体内容进行发布。
如图2所示,本申请实施例还提供了一种基于语言模型的媒体内容预测设备,包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使一种基于语言模型的媒体内容预测设备能够执行:
确定预设种类内容的预设种类标准,根据所述预设种类标准进行加权计算,以得到预设种类指标;
获取历史媒体内容,根据所述预设种类标准确定所述历史媒体内容的预设种类数据,并确定所述历史媒体内容的内容指标,根据所述内容指标确定所述历史媒体内容的标签数据;
将所述标签数据作为输入数据,并根据所述预设种类指标和所述预设种类数据确定验证数据,根据所述输入数据和所述验证数据对预先设置的语言模型进行训练,以得到媒体预测模型;
确定媒体内容,将所述媒体内容输入所述预测模型,以得到预测结果,根据所述预测结果判断所述媒体内容是否为预设种类内容。
本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
确定预设种类内容的预设种类标准,根据所述预设种类标准进行加权计算,以得到预设种类指标;
获取历史媒体内容,根据所述预设种类标准确定所述历史媒体内容的预设种类数据,并确定所述历史媒体内容的内容指标,根据所述内容指标确定所述历史媒体内容的标签数据;
将所述标签数据作为输入数据,并根据所述预设种类指标和所述预设种类数据确定验证数据,根据所述输入数据和所述验证数据对预先设置的语言模型进行训练,以得到媒体预测模型;
确定媒体内容,将所述媒体内容输入所述预测模型,以得到预测结果,根据所述预测结果判断所述媒体内容是否为预设种类内容。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于语言模型的媒体内容预测方法,其特征在于,包括:
确定预设种类内容的预设种类标准,根据所述预设种类标准进行加权计算,以得到预设种类指标;
获取历史媒体内容,根据所述预设种类标准确定所述历史媒体内容的预设种类数据,并确定所述历史媒体内容的内容指标,根据所述内容指标确定所述历史媒体内容的标签数据;
将所述标签数据作为输入数据,并根据所述预设种类指标和所述预设种类数据确定验证数据,根据所述输入数据和所述验证数据对预先设置的语言模型进行训练,以得到媒体预测模型;
确定媒体内容,将所述媒体内容输入所述预测模型,以得到预测结果,根据所述预测结果判断所述媒体内容是否为预设种类内容。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述媒体内容为预设种类内容,则根据所述媒体内容确定多个媒体标题;
将所述媒体标题输入预先设置的标题模型,以根据所述多个媒体标题确定预设种类标题,并根据所述预设种类标题将所述媒体内容进行发布。
3.根据权利要求2所述的方法,其特征在于,将所述媒体标题输入预先设置的标题模型之前,所述方法还包括:
确定预先设置的数据元素,根据所述数据元素确定所述历史媒体内容的训练数据,并根据所述训练数据对所述标题模型进行训练,以通过训练后的所述标题模型确定预设种类标题,其中,所述数据元素包括媒体内容、媒体标题、标题满意度,所述媒体内容和媒体标题为输入数据,所述标题满意度为验证数据。
4.根据权利要求1所述的方法,其特征在于,所述预设种类标准包括播放量标准和点赞量标准;
根据所述预设种类指标和所述预设种类数据确定验证数据,具体包括:
确定预先设置的权重,根据所述权重、所述播放量标准和所述点赞量标准计算所述预设种类指标;
确定所述历史媒体内容的预设种类数据,其中,所述预设种类数据包括播放量和点赞量,根据所述预设种类数据和所述权重计算所述历史媒体内容的预设种类指数,并将所述预设种类指数与所述预设种类指标进行比较;
若所述预设种类指数小于所述预设种类指标,则判断所述历史媒体内容不是预设种类内容;
若所述预设种类指数大于或等于所述预设种类指标,则判断所述历史媒体内容是预设种类内容;
将所述历史媒体内容的判断结果作为所述验证数据。
5.根据权利要求4所述的方法,其特征在于,根据所述内容指标确定所述历史媒体内容的标签数据,具体包括:
确定预先设置的多个采集时间,根据所述多个采集时间对所述历史媒体内容进行采集,以得到多个内容指标;
将所述多个内容指标进行组合,以得到所述标签数据。
6.根据权利要求5所述的方法,其特征在于,所述内容指标包括点赞量、转发量、情绪数值;
所述方法还包括:
获取所述历史媒体内容的评论,并确定所述评论中的词汇;
确定预先设置的情绪词汇数据库,其中,所述情绪词汇数据库包括预先确定的积极情绪词汇和预先确定的消极情绪词汇;
根据所述词汇和所述情绪词汇数据库计算所述评论的情绪数值,其中,所述情绪数值的计算公式为:
其中,IE为所述情绪数值,positive表示积极情绪数值,negative表示消极情绪数值,Ratep为积极情绪相似度,Raten为消极情绪相似度;
所述积极情绪相似度的计算公式为:
其中,Count为所述词汇的数量,Countp为所述词汇中与所述积极情绪词汇相同的数量;
所述消极情绪相似度的计算公式为:
其中,Count为所述词汇的数量,Countn为所述词汇中与所述消极情绪词汇相同的数量。
7.根据权利要求1所述的方法,其特征在于,所述媒体预测模型包括神经元映射函数、激活函数和损失函数;
所述神经元映射函数的表达式为:
其中,z表示所述神经元映射函数,wi为权重值,b为偏移量,i表示媒体预测模型的神经元;
所述激活函数的表达式为:
其中,σ(z)表示激活函数;
所述损失函数的表达式为:
其中,LF表示损失函数,yk为第k个真实值,tk为第k个预测值。
8.根据权利要求2所述的方法,其特征在于,所述标题模型包括价值函数,所述价值函数的表达式为:
vπ(S)=Eπ(Rt+1+γRt+22Rt+3+…|St=s)
其中,vπ(S)为价值函数,S为媒体标题,R为媒体标题对应的价值,E为全部媒体标题的期望价值,γ为折扣率。
9.一种基于语言模型的媒体内容预测设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述一种基于语言模型的媒体内容预测设备能够执行:
确定预设种类内容的预设种类标准,根据所述预设种类标准进行加权计算,以得到预设种类指标;
获取历史媒体内容,根据所述预设种类标准确定所述历史媒体内容的预设种类数据,并确定所述历史媒体内容的内容指标,根据所述内容指标确定所述历史媒体内容的标签数据;
将所述标签数据作为输入数据,并根据所述预设种类指标和所述预设种类数据确定验证数据,根据所述输入数据和所述验证数据对预先设置的语言模型进行训练,以得到媒体预测模型;
确定媒体内容,将所述媒体内容输入所述预测模型,以得到预测结果,根据所述预测结果判断所述媒体内容是否为预设种类内容。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
确定预设种类内容的预设种类标准,根据所述预设种类标准进行加权计算,以得到预设种类指标;
获取历史媒体内容,根据所述预设种类标准确定所述历史媒体内容的预设种类数据,并确定所述历史媒体内容的内容指标,根据所述内容指标确定所述历史媒体内容的标签数据;
将所述标签数据作为输入数据,并根据所述预设种类指标和所述预设种类数据确定验证数据,根据所述输入数据和所述验证数据对预先设置的语言模型进行训练,以得到媒体预测模型;
确定媒体内容,将所述媒体内容输入所述预测模型,以得到预测结果,根据所述预测结果判断所述媒体内容是否为预设种类内容。
CN202311190594.2A 2023-09-15 一种基于语言模型的媒体内容预测方法、设备及介质 Active CN117177013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311190594.2A CN117177013B (zh) 2023-09-15 一种基于语言模型的媒体内容预测方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311190594.2A CN117177013B (zh) 2023-09-15 一种基于语言模型的媒体内容预测方法、设备及介质

Publications (2)

Publication Number Publication Date
CN117177013A true CN117177013A (zh) 2023-12-05
CN117177013B CN117177013B (zh) 2024-07-09

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130346182A1 (en) * 2012-06-20 2013-12-26 Yahoo! Inc. Multimedia features for click prediction of new advertisements
CN108256893A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 广告投放效果的分析方法及装置
CN111833083A (zh) * 2019-04-17 2020-10-27 杭州晨熹多媒体科技有限公司 多媒体内容的数据处理方法及装置
US20210241310A1 (en) * 2020-01-30 2021-08-05 International Business Machines Corporation Intelligent advertisement campaign effectiveness and impact evaluation
CN113627979A (zh) * 2021-07-30 2021-11-09 北京达佳互联信息技术有限公司 资源投放数据的处理方法、装置、服务器、系统及介质
CN115545779A (zh) * 2022-10-11 2022-12-30 西窗科技(苏州)有限公司 一种基于大数据的广告投放的预警管理方法及系统
CN115983499A (zh) * 2023-03-03 2023-04-18 北京奇树有鱼文化传媒有限公司 一种票房预测方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130346182A1 (en) * 2012-06-20 2013-12-26 Yahoo! Inc. Multimedia features for click prediction of new advertisements
CN108256893A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 广告投放效果的分析方法及装置
CN111833083A (zh) * 2019-04-17 2020-10-27 杭州晨熹多媒体科技有限公司 多媒体内容的数据处理方法及装置
US20210241310A1 (en) * 2020-01-30 2021-08-05 International Business Machines Corporation Intelligent advertisement campaign effectiveness and impact evaluation
CN113627979A (zh) * 2021-07-30 2021-11-09 北京达佳互联信息技术有限公司 资源投放数据的处理方法、装置、服务器、系统及介质
CN115545779A (zh) * 2022-10-11 2022-12-30 西窗科技(苏州)有限公司 一种基于大数据的广告投放的预警管理方法及系统
CN115983499A (zh) * 2023-03-03 2023-04-18 北京奇树有鱼文化传媒有限公司 一种票房预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN116227474B (zh) 一种对抗文本的生成方法、装置、存储介质及电子设备
CN109992771B (zh) 一种文本生成的方法及装置
CN117076650B (zh) 一种基于大语言模型的智能对话方法、装置、介质及设备
CN112417093B (zh) 一种模型训练的方法及装置
CN110516915B (zh) 业务节点训练、评估方法、装置及电子设备
CN113887206B (zh) 一种模型训练及关键词提取方法及装置
CN117332282B (zh) 一种基于知识图谱的事件匹配的方法及装置
CN117177013B (zh) 一种基于语言模型的媒体内容预测方法、设备及介质
CN117177013A (zh) 一种基于语言模型的媒体内容预测方法、设备及介质
CN114676257A (zh) 一种对话主题确定方法及装置
CN111242195B (zh) 模型、保险风控模型训练方法、装置及电子设备
CN117494068B (zh) 一种结合深度学习与因果推断的网络舆情分析方法及装置
CN116501852B (zh) 一种可控对话模型训练方法、装置、存储介质及电子设备
CN117787418A (zh) 一种风险识别方法、装置、存储介质及电子设备
CN111461352B (zh) 模型训练、业务节点识别方法、装置及电子设备
CN117875413B (zh) 一种知识图谱本体中概念构建方法、装置、介质及设备
CN117593003A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN117171346A (zh) 一种实体链接方法、装置、存储介质及电子设备
CN117992787A (zh) 一种模型训练的方法、任务执行的方法及装置
CN118277442A (zh) 一种基于大语言模型的检索方法、设备及介质
CN118098215A (zh) 一种音频识别模型训练方法、装置、存储介质及电子设备
CN117875522A (zh) 一种事件数量预测的方法、装置、存储介质、设备
CN117540825A (zh) 基于强化学习的预训练模型的构建方法及装置和电子设备
CN117743824A (zh) 一种模型训练、业务执行方法、装置、存储介质及设备
CN116756293A (zh) 一种模型训练的方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant