CN114584841A - 评论内容生成方法及装置、存储介质及电子设备 - Google Patents
评论内容生成方法及装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114584841A CN114584841A CN202210202525.8A CN202210202525A CN114584841A CN 114584841 A CN114584841 A CN 114584841A CN 202210202525 A CN202210202525 A CN 202210202525A CN 114584841 A CN114584841 A CN 114584841A
- Authority
- CN
- China
- Prior art keywords
- video
- emotion
- online
- comment
- comment content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000008451 emotion Effects 0.000 claims abstract description 155
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 52
- 230000006403 short-term memory Effects 0.000 claims description 18
- 230000007787 long-term memory Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012552 review Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012216 screening Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 241000220433 Albizia Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4756—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种评论内容生成方法及装置、存储介质及电子设备,该方法包括:预先构建文本生成模型,利用文本生成模型中的主题网络,生成视频主题对应的原始评论内容,利用文本生成模型中的转换器网络从所生成的原始评论内容中筛选情感类别为目标情感类别的原始评论内容,并对筛选出的原始评论内容中包括的待上线视频的视频名称和视频角色进行掩藏处理,得到待上线视频的初始评论内容;并通过将初始视频评论内容包括的每个掩藏信息替换为待上线视频的视频名称或视频角色,得到目标情感类别的与待上线视频的视频信息相关的评论内容,从而降低了人力成本和时间成本,以及起到了活跃社区氛围的作用。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种评论内容生成方法及装置、存储介质及电子设备。
背景技术
视频网站上线新的视频后,通常会设置评论区,供观众对视频内容进行评论,发表感想,起到活跃社区氛围,吸引更多流量的目的。
目前,大部分网站采用人工运营的方式对评论区进行管理,需要运营人员注册马甲号,手动发布评论到评论区中,导致人力成本和时间成本较高。有部分视频网站采用模板方式,通过水军机器人发布一些固定内容到评论区中,这种方式虽然效率较高,但评论质量较差,内容大多毫无意义,与视频主题不相干,很容易被观众发现,无法起到活跃社区氛围的作用。
发明内容
本申请提供了一种评论内容生成方法及装置、存储介质及电子设备,目的在于解决现有的评论内容生成方式,导致的人力成本和时间成本较高或评论质量较差,内容无意义,与视频主题不相干,很容易被观众发现,无法起到活跃社区氛围的作用的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种评论内容生成方法,包括:
获取待上线视频的视频信息;所述视频信息至少包括视频名称、视频主题和视频角色;
利用预先构建的文本生成模型对所述视频信息进行处理,得到所述待上线视频的初始评论内容;其中,所述文本生成模型中的主题网络基于预设的语料库,生成所述视频主题对应的原始评论内容,所述文本生成模型中的转换器网络从所生成的所述原始评论内容中筛选出情感类别为目标情感类别的原始评论内容,并对筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色进行掩藏处理,得到所述待上线视频的初始评论内容;
将所述初始视频评论内容包括的每个掩藏信息替换为所述待上线视频的所述视频名称或所述视频角色,得到所述待上线视频的目标评论内容。
上述的方法,可选的,所述文本生成模型的构建过程,包括:
获取每个预设的视频主题对应的评论数据集;所述评论数据集包括多个历史评论数据;
利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别;
识别每个历史评论数据中包括的待掩藏信息;所述待掩藏信息包括视频名称和视频角色;
对每个历史评论数据中包括的待掩藏信息进行掩藏处理;
基于掩藏处理后的各个历史评论数据、以及每个历史评论数据的情感类别和视频主题,对预设模型中的主题网络和转换器网络进行训练,得到文本生成模型。
上述的方法,可选的,所述情感分析网络的构建过程,包括:
构建长短期记忆神经网络;
获取训练数据集;所述训练数据集中包括多组携带情感类别标注的训练数据;
利用所述训练数据集包括的各组训练数据,对所述长短期记忆神经网络进行训练;
将训练完成的长短期记忆网络作为情感分析网络。
上述的方法,可选的,所述利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别,包括:
确定每个历史评论数据包括的各个文字;
查找预设的数字标识库中每个文字对应的数字标识;
将每个历史评论数据包括的每个文字替换为该文字对应的数字标识;
将替换数字标识后的每个历史评论数据输入至预先构建的情感分析网络中,得到每个历史评论数据归属于每个预设的情感类别的情感得分;
针对每个历史评论数据,确定所述历史评论数据归属于每个预设的情感类别的情感得分中的最高情感得分,并将最高情感得分对应的情感类别确定为所述历史评论数据的情感类别。
上述的方法,可选的,所述文本生成模型中的转换器网络对筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色进行掩藏处理,得到所述待上线视频的初始评论内容,包括:
确定筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色;
确定预设词库中与目标视频名称对应的掩藏信息,以及确定所述预设词库中与目标视频角色对应的掩藏信息;所述目标视频名称为筛选出的原始评论内容中包括的所述待上线视频的视频名称,所述目标视频角色为筛选出的原始评论内容中包括的所述待上线视频的视频角色;
将筛选出的原始评论内容中包括的所述目标视频名称替换为所述目标视频名称对应的掩藏信息;
将筛选出的原始评论内容中包括的所述目标视频角色替换为所述目标视频角色对应的掩藏信息。
一种评论内容生成装置,包括:
获取单元,用于获取待上线视频的视频信息;所述视频信息至少包括视频名称、视频主题和视频角色;
处理单元,用于利用预先构建的文本生成模型对所述视频信息进行处理,得到所述待上线视频的初始评论内容;其中,所述文本生成模型中的主题网络基于预设的语料库,生成所述视频主题对应的原始评论内容,所述文本生成模型中的转换器网络从所生成的所述原始评论内容中筛选出情感类别为目标情感类别的原始评论内容,并对筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色进行掩藏处理,得到所述待上线视频的初始评论内容;
替换单元,用于将所述初始视频评论内容包括的每个掩藏信息替换为所述待上线视频的所述视频名称或所述视频角色,得到所述待上线视频的目标评论内容。
上述的装置,可选的,所述处理单元在文本生成模型的构建过程时,具体用于:
获取每个预设的视频主题对应的评论数据集;所述评论数据集包括多个历史评论数据;
利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别;
识别每个历史评论数据中包括的待掩藏信息;所述待掩藏信息包括视频名称和视频角色;
对每个历史评论数据中包括的待掩藏信息进行掩藏处理;
基于掩藏处理后的各个历史评论数据、以及每个历史评论数据的情感类别和视频主题,对预设模型中的主题网络和转换器网络进行训练,得到文本生成模型。
上述的装置,可选的,所述处理单元在情感分析网络的构建过程时,具体用于:
构建长短期记忆神经网络;
获取训练数据集;所述训练数据集中包括多组携带情感类别标注的训练数据;
利用所述训练数据集包括的各组训练数据,对所述长短期记忆神经网络进行训练;
将训练完成的长短期记忆网络作为情感分析网络。
一种电子设备,包括:
存储器,用于存储至少一组指令集;
处理器,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如上述的评论内容生成方法。
一种存储介质,所述存储介质存储有指令集,其中,所述指令集被处理器执行时实现如上述的评论内容生成方法。
一种电子设备,包括:
存储器,用于存储至少一组指令集;
处理器,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如上述的评论内容生成方法。
与现有技术相比,本申请包括以下优点:
本申请提供了一种评论内容生成方法及装置、存储介质及电子设备,包括:获取待上线视频的视频信息;视频信息至少包括视频名称、视频主题和视频角色;利用预先构建的文本生成模型对视频信息进行处理,得到待上线视频的初始评论内容;其中,文本生成模型中的主题网络基于预设的语料库,生成视频主题对应的原始评论内容,文本生成模型中的转换器网络从所生成的原始评论内容中筛选情感类别为目标情感类别的原始评论内容,并对筛选出的原始评论内容中包括的待上线视频的视频名称和视频角色进行掩藏处理,得到待上线视频的初始评论内容;将初始视频评论内容包括的每个掩藏信息替换为待上线视频的视频名称或视频角色,得到待上线视频的目标评论内容。可见,本技术方案,通过文本生成模型,可以自动生成待上线视频的视频主题对应的、情感类别为目标情感类别的初始评论内容,再通过将初始视频评论内容包括的每个掩藏信息替换为待上线视频的视频名称或视频角色,得到目标情感类别的与待上线视频的视频信息相关的评论内容,从而降低了人力成本和时间成本,以及起到了活跃社区氛围的作用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种评论内容生成方法的方法流程图;
图2为本申请提供的一种文本生成模型构建方法的方法流程图;
图3为本申请提供的一种情感分析网络构建方法的方法流程图;
图4为本申请提供的一种长短期记忆网络的结构示意图;
图5为本申请提供的一种文本生成模型构建方法的又一方法流程图;
图6为本申请提供的一种文本生成模型的结构示意图;
图7为本申请提供的一种评论内容生成方法的又一方法流程图;
图8为本申请提供的一种评论内容生成装置的结构示意图;
图9为本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本申请实施例提供了一种评论内容生成方法,该方法的流程图如图1所示,具体包括:
S101、获取待上线视频的视频信息。
本实施例中,获取待上线视频的视频信息,视频信息至少包括待上线视频的视频名称、视频主题和视频角色。
示例性的,视频主题包括电视剧、综艺、电影和动漫。
示例性的,视频角色包括男女主角、男女配角、以及其他角色。
本实施例中,获取待上线视频的视频信息的过程,具体包括:获取待上线视频的视频标识,基于待上线视频的视频标识,获取待上线视频的视频信息。可选的,视频标识可以用vid表示。
S102、利用预先构建的文本生成模型对视频信息进行处理,得到待上线视频的初始评论内容。
本实施例中,预先构建文本生成模型,文本生成模型预先基于主题网络和转换器Transformer网络构建得到。
参阅图2,文本生成模型的构建过程,具体包括以下步骤:
S201、获取每个预设的视频主题对应的评论数据集。
本实施例中,获取每个预设的视频主题对应的评论数据集,其中,每个评论数据集包括多个历史评论数据。
需要说明的是,同一评论数据集包括的各个历史评论数据对应同一视频主题。
其中,历史评论数据为用户针对已播出视频的用户评论数据。
示例性的,视频主题可以包括电影、动漫、综艺和电视剧。
S202、利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别。
本实施例中,预先构建情感分析网络,利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,从而得到每个历史评论数据的情感类别。
参阅图3,情感分析网络的构建过程,具体包括以下步骤:
S301、构建长短期记忆神经网络。
本实施例中,构建长短期记忆网络(Long Short Term Memory networks,LSTM),示例性的,长短期记忆网络的网络结构如图4所示,由三个门结构组成,分别是输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate),其中,Xt为当前时刻LSTM的输入值、ht-1为上一时刻LSTM的输出值、Ct-1为上一时刻的单元状态、ht为当前时刻LSTM输出值、Ct为当前时刻的单元状态;Softmax为逻辑回归函数;W为权重。
S302、获取训练数据集。
本实施例中,获取训练数据集,其中,训练数据集中包括多组携带情感类别标注的训练数据。可选的,情感类别包括正向、负向和中性三类。
S303、利用训练数据集包括的各组训练数据,对长短期记忆神经网络进行训练。
本实施例中,利用训练数据集包括的各组训练数据,对长短期记忆网络进行训练。
可选的,可以是训练次数达到预设数值后,确定完成对长短期记忆网络的训练。
S304、将训练完成的长短期记忆网络作为情感分析网络。
本实施例中,将训练完成的长短期记忆网络作为情感分析网络,从而完成对情感分析网络的构建。
本实施例中,参阅图5,利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别的过程,具体包括以下步骤:
S501、确定每个历史评论数据包括的各个文字。
本实施例中,确定每个历史评论数据包括的各个文字。
S502、查找预设的数字标识库中每个文字对应的数字标识。
本实施例中,预设数字标识库,数字标识库中包括多对文字与数字标识的映射关系,通过映射关系,可以查找到每个文字对应的数字标识。
本实施例中,查找预设的数字标识库中每个文字对应的数字标识,具体的,查找数据标识库中每个文字对应的映射关系,通过每个文字对应的映射关系,确定每个文字对应的数字标识。
示例性的,文字“我”对应的数字标识为“1”,文字“你”对应的数字标识问“2”,文字“他”对应的数字标识为“3”。
S503、将每个历史评论数据包括的每个文字替换为该文字对应的数字标识。
本实施例中,将每个历史评论数据包括的每个文字替换为该文字对应的数字标识,也就是说,替换数字标识后的每个历史评论数据中不存在文字。
例如,对于历史评论数据“我喜欢这个剧”可以替换为[1,7,8,16,10,29],其中,1表示我,7表示喜,8表示欢,16表示这,10表示个,29表示剧。
S504、将替换数字标识后的每个历史评论数据输入至预先构建的情感分析网络中,得到每个历史评论数据归属于每个预设的情感类别的情感得分。
本实施例中,将替换数字标识后的每个历史评论数据输入至预先构建的情感分析网络中,情感分析网络对替换数据标识后的每个历史评论数据进行情感类别识别,得到每个历史评论数据归属于每个预设的情感类别的情感得分,可选的,也就是得到每个历史评论数据归属于每个正向情感类别的情感得分、归属于中性情感类别的情感得分,和归属于负向情感类别的情感得分。
S505、针对每个历史评论数据,确定历史评论数据归属于每个预设的情感类别的情感得分中的最高情感得分,并将最高情感得分对应的情感类别确定为历史评论数据的情感类别。
本实施例中,针对每个历史评论数据,确定历史评论数据归属于每个预设的情感类别的情感得分中的最高情感得分,具体的,将该历史评论数据归属于每个预设的情感类别的情感得分进行比较,从而确定出最高情感得分,并将最高情感得分对应的情感类别确定为历史评论数据的情感类别。例如,历史评论数据A归属于正向情感类别的情感得分为7分,归属于中性情感类别的情感得分为2分,归属于负向情感类别的情感得分为1分,从而可以确定出历史评论数据A的情感类别为正向情感类别。
S203、识别每个历史评论数据中包括的待掩藏信息。
本实施例中,识别每个历史评论数据中包括的待掩藏信息,其中,待掩藏信息包括视频名称和视频角色,也就是识别每个历史评论数据中包括的视频名称和视频角色。
S204、对每个历史评论数据中包括的待掩藏信息进行掩藏处理。
本实施例中,对每个历史评论数据中包括的待掩藏信息进行掩藏处理,也就是对每个历史评论数据中包括的视频名称和视频角色进行掩藏处理。
本实施例中,对每个历史评论数据中包括的待掩藏信息进行掩藏处理的过程,具体包括以下步骤:
针对每个历史评论数据,确定预设词库中与该历史评论数据包括的待掩藏信息对应的掩藏信息;
针对每个历史评论数据,将历史评论数据中包括的待掩藏信息替换为该待掩藏信息对应的掩藏信息。
S205、基于掩藏处理后的各个历史评论数据、以及每个历史评论数据的情感类别和视频主题,对预设模型中的主题网络和转换器网络进行训练,得到文本生成模型。
本实施例中,基于掩藏处理的各个历史评论数据、以及每个历史评论数据的情感类别和视频主题,对预设模型中的主题网络和转换器Transformer网络进行训练,具体的,将每个历史评论数据的情感类别和视频主题作为权重,与历史评论数据一起输入至预设模型中,对与预设模型中的主题网络和Transformer网络进行训练。
本实施例中,对现有的Transformer网络进行改进,在现有的Transformer网络的Input Embedding(输入的嵌入)之前添加主题网络,得到预设模型。
可选的,主题网络(Category Embedding)可以是n*4维的嵌入矩阵,用于对生成评论内容的主题进行限制,主题分为电视剧、电影、综艺和动漫四种,用0,1,2,3进行标识,输入主题标识,就可生成相应主题下面的评论内容。例如,视频主题是电视剧,生成的评论可能是这部电视剧好好看啊,演员演技很棒;视频主题是综艺,生成的评论可能是这期节目真不错,嘉宾好有趣。
示例性的,Transformer网络由encoder(编码器)和decoder(解码器)组成,encoder由6个相同的layer(层)组成,每个Layer由两个sub-layer(子层)组成,分别是multi-head self-attention mechanism(多头自注意机制网络)和fully connectedfeed-forward network(全连接前馈网络)。其中每个sub-layer都加了residualconnection(残差连接)和normalisation(标准化);Decoder比Encoder多了一个attention的sub-layer。
本实施例中,基于掩藏处理后的各个历史评论数据、以及每个历史评论数据的情感类别和视频主题,对转换器Transformer网络进行训练的过程,具体包括以下步骤:
依次将每个历史评论数据、以及该历史评论数据的情感类别和视频主题,输入至Transformer网络中,对Transformer网络进行迭代训练,并则在对Transformer网络进行一次迭代训练后,进行迭代次数加一,一直迭代次数大于预设阈值,完成对Transformer网络的迭代训练。示例性的,预设阈值可以是50000。
将完成迭代训练的Transformer网络作为文本生成模型。
参阅图6,本实施例的文本生成模型的结构示意图如图6所示,其中,转换器网络为现有的Transformer网络结构,此处不再赘述,主题网络为是n*4维的嵌入矩阵。
本申请实施例提供的评论内容生成方法,通过对历史评论数据中包括的待掩藏信息进行掩藏处理,再基于掩藏处理后的历史评论数据对预设模型中的主题网络和Transformer网络进行训练,从而避免预设模型的过拟合。
本实施例中,利用预先构建的文本生成模型对待上线视频的视频信息进行处理,得到待上线视频的初始评论内容,其中,文本生成模型中的主题网络基于预设的预料库,生成待上线视频的视频主题对应的原始评论内容,文本生成模型中的转换器网络从所生成的原始评论内容中筛选出情感类别为目标情感类别的原始评论内容,并对筛选出的原始评论内容中包括的待上线视频的视频名称和视频角色进行掩藏处理,得到待上线视频的初始评论内容。
具体的,文本生成模型中的主题网络基于待上线视频的视频主题、视频名称和视频角色,通过预设的语料库,生成待上线视频的视频主题对应的、包括待上线视频的视频名称和视频角色的原始评论内容,文本生成模型中的转换器网络确定每个原始评论内容的情感类别,可选的,情感类别包括正向情感类别、中性情感类别和负向情感类别,基于每个原始评论内容的情感类别,从各个原始评论内容中筛选情感类别为目标情感类别的原始评论内容,可选的,目标情感类别可以为正向情感类别,对筛选出的原始评论内容中包括的待上线视频的视频名称和视频角色进行掩藏处理,从而得到待上线视频的初始评论内容。
参阅图7,文本生成模型对筛选出的原始评论内容中包括的待上线视频的视频名称和视频角色进行掩藏处理,得到待上线视频的初始评论内容的过程,具体包括以下步骤:
S701、确定筛选出的原始评论内容中包括的待上线视频的视频名称和视频角色。
本实施例中,确定筛选出的原始评论内容中包括的待上线视频的视频名称和视频角色。
S702、确定预设词库中与目标视频名称对应的掩藏信息,以及确定预设词库中与目标视频角色对应的掩藏信息。
本实施例中,确定预设词库中与目标视频名称对应的掩藏信息,其中,目标视频名称为筛选出的原始评论内容中包括的待上线视频的视频名称。
本实施例中,确定预设词库中与目标视频角色对应的掩藏信息,其中,目标视频角色为筛选出的原始评论内容中包括的待上线视频的视频角色。
S703、将筛选出的原始评论内容中包括的目标视频名称替换为目标视频名称对应的掩藏信息。
本实施例中,将筛选出的原始评论内容中包括的目标视频名称替换为目标视频名称对应的掩藏信息。例如,将筛选出的原始评论内容中包括的目标视频名称替换为<mask>标识。
S704、将筛选出的原始评论内容中包括的目标视频角色替换为目标视频角色对应的掩藏信息。
本实施例中,将筛选出的原始评论内容中包括的目标视频角色替换为目标视频角色对应的掩藏信息。
S103、将初始视频评论内容包括的每个掩藏信息替换为待上线视频的视频名称或视频角色,得到待上线视频的目标评论内容。
本实施例中,将初始视频评论内容包括的每个掩藏信息替换为待上线视频的视频名称或视频角色,从而得到上线视频的目标评论内容。
具体的,确定每个掩藏信息对应的待上线视频的视频名称或视频角色,具体的,通过查找预设词库,确定每个掩藏信息对应的待上线视频的视频名称或视频角色,并将初始评论内容包括的每个掩藏信息替换为,该掩藏信息对应的待上线视频的视频名称或视频角色。
本实施例中,在得到待上线视频的目标评论内容后,可以通过后台操作,定时定量快速的对目标评论内容进行下发,从而节约了大量的人力运行成本,以及提高了下发效率。
本申请实施例提供的评论内容生成方法中,通过文本生成模型,可以自动生成待上线视频的视频主题对应的、情感类别为目标情感类别的初始评论内容,再通过将初始评论内容包括的掩藏信息替换为待上线视频的视频名称或视频角色,得到目标评论内容,提高了评论内容生成效率,从而降低了人力成本和时间成本,提高了用户体验和用户互动率,以及起到了活跃社区氛围的作用。
需要说明的是,虽然采用特定次序描绘了各指令,但是这不应当理解为要求这些指令以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本申请公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请公开的范围在此方面不受限制。
与图1所述的方法相对应,本申请实施例还提供了一种评论内容生成装置,用于对图1中方法的具体实现,其结构示意图如图8所示,具体包括:
获取单元801,用于获取待上线视频的视频信息;所述视频信息至少包括视频名称、视频主题和视频角色;
处理单元802,用于利用预先构建的文本生成模型对所述视频信息进行处理,得到所述待上线视频的初始评论内容;其中,所述文本生成模型中的主题网络基于预设的语料库,生成所述视频主题对应的原始评论内容,所述文本生成模型中的转换器网络从所生成的所述原始评论内容中筛选出情感类别为目标情感类别的原始评论内容,并对筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色进行掩藏处理,得到所述待上线视频的初始评论内容;
替换单元803,用于将所述初始视频评论内容包括的每个掩藏信息替换为所述待上线视频的所述视频名称或所述视频角色,得到所述待上线视频的目标评论内容。
本申请实施例提供的评论内容生成装置,通过文本生成模型,可以自动生成待上线视频的视频主题对应的、情感类别为目标情感类别的初始评论内容,再通过将初始评论内容包括的掩藏信息替换为待上线视频的视频名称或视频角色,得到目标评论内容,提高了评论内容生成效率,从而降低了人力成本和时间成本,提高了用户体验和用户互动率,以及起到了活跃社区氛围的作用。
在本申请的一个实施例中,基于前述方案,处理单元802在文本生成模型的构建过程时,具体用于:
获取每个预设的视频主题对应的评论数据集;所述评论数据集包括多个历史评论数据;
利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别;
识别每个历史评论数据中包括的待掩藏信息;所述待掩藏信息包括视频名称和视频角色;
对每个历史评论数据中包括的待掩藏信息进行掩藏处理;
基于掩藏处理后的各个历史评论数据、以及每个历史评论数据的情感类别和视频主题,对预设模型中的主题网络和转换器网络进行训练,得到文本生成模型。
在本申请的一个实施例中,基于前述方案,处理单元802在情感分析网络的构建过程时,具体用于:
构建长短期记忆神经网络;
获取训练数据集;所述训练数据集中包括多组携带情感类别标注的训练数据;
利用所述训练数据集包括的各组训练数据,对所述长短期记忆神经网络进行训练;
将训练完成的长短期记忆网络作为情感分析网络。
在本申请的一个实施例中,基于前述方案,处理单元802在利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别时,具体用于:
确定每个历史评论数据包括的各个文字;
查找预设的数字标识库中每个文字对应的数字标识;
将每个历史评论数据包括的每个文字替换为该文字对应的数字标识;
将替换数字标识后的每个历史评论数据输入至预先构建的情感分析网络中,得到每个历史评论数据归属于每个预设的情感类别的情感得分;
针对每个历史评论数据,确定所述历史评论数据归属于每个预设的情感类别的情感得分中的最高情感得分,并将最高情感得分对应的情感类别确定为所述历史评论数据的情感类别。
在本申请的一个实施例中,基于前述方案,处理单元802在所述文本生成模型中的转换器网络对筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色进行掩藏处理,得到所述待上线视频的初始评论内容时,具体用于:
确定筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色;
确定预设词库中与目标视频名称对应的掩藏信息,以及确定所述预设词库中与目标视频角色对应的掩藏信息;所述目标视频名称为筛选出的原始评论内容中包括的所述待上线视频的视频名称,所述目标视频角色为筛选出的原始评论内容中包括的所述待上线视频的视频角色;
将筛选出的原始评论内容中包括的所述目标视频名称替换为所述目标视频名称对应的掩藏信息;
将筛选出的原始评论内容中包括的所述目标视频角色替换为所述目标视频角色对应的掩藏信息。
本申请实施例还提供了一种存储介质,所述存储介质存储有指令集,其中,在所述指令集运行时执行如上文任一实施例公开的评论内容生成方法。
本申请实施例还提供了一种电子设备,其结构示意图如图9所示,具体包括存储器901,用于存储至少一组指令集;处理器902,用于执行所述存储器中存储的指令集,通过执行如上文任一实施例公开的评论内容生成方法。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本申请公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种评论内容生成方法,其特征在于,包括:
获取待上线视频的视频信息;所述视频信息至少包括视频名称、视频主题和视频角色;
利用预先构建的文本生成模型对所述视频信息进行处理,得到所述待上线视频的初始评论内容;其中,所述文本生成模型中的主题网络基于预设的语料库,生成所述视频主题对应的原始评论内容,所述文本生成模型中的转换器网络从所生成的所述原始评论内容中筛选出情感类别为目标情感类别的原始评论内容,并对筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色进行掩藏处理,得到所述待上线视频的初始评论内容;
将所述初始视频评论内容包括的每个掩藏信息替换为所述待上线视频的所述视频名称或所述视频角色,得到所述待上线视频的目标评论内容。
2.根据权利要求1所述的方法,其特征在于,所述文本生成模型的构建过程,包括:
获取每个预设的视频主题对应的评论数据集;所述评论数据集包括多个历史评论数据;
利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别;
识别每个历史评论数据中包括的待掩藏信息;所述待掩藏信息包括视频名称和视频角色;
对每个历史评论数据中包括的待掩藏信息进行掩藏处理;
基于掩藏处理后的各个历史评论数据、以及每个历史评论数据的情感类别和视频主题,对预设模型中的主题网络和转换器网络进行训练,得到文本生成模型。
3.根据权利要求2所述的方法,其特征在于,所述情感分析网络的构建过程,包括:
构建长短期记忆神经网络;
获取训练数据集;所述训练数据集中包括多组携带情感类别标注的训练数据;
利用所述训练数据集包括的各组训练数据,对所述长短期记忆神经网络进行训练;
将训练完成的长短期记忆网络作为情感分析网络。
4.根据权利要求2或3所述的方法,其特征在于,所述利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别,包括:
确定每个历史评论数据包括的各个文字;
查找预设的数字标识库中每个文字对应的数字标识;
将每个历史评论数据包括的每个文字替换为该文字对应的数字标识;
将替换数字标识后的每个历史评论数据输入至预先构建的情感分析网络中,得到每个历史评论数据归属于每个预设的情感类别的情感得分;
针对每个历史评论数据,确定所述历史评论数据归属于每个预设的情感类别的情感得分中的最高情感得分,并将最高情感得分对应的情感类别确定为所述历史评论数据的情感类别。
5.根据权利要求1所述的方法,其特征在于,所述文本生成模型中的转换器网络对筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色进行掩藏处理,得到所述待上线视频的初始评论内容,包括:
确定筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色;
确定预设词库中与目标视频名称对应的掩藏信息,以及确定所述预设词库中与目标视频角色对应的掩藏信息;所述目标视频名称为筛选出的原始评论内容中包括的所述待上线视频的视频名称,所述目标视频角色为筛选出的原始评论内容中包括的所述待上线视频的视频角色;
将筛选出的原始评论内容中包括的所述目标视频名称替换为所述目标视频名称对应的掩藏信息;
将筛选出的原始评论内容中包括的所述目标视频角色替换为所述目标视频角色对应的掩藏信息。
6.一种评论内容生成装置,其特征在于,包括:
获取单元,用于获取待上线视频的视频信息;所述视频信息至少包括视频名称、视频主题和视频角色;
处理单元,用于利用预先构建的文本生成模型对所述视频信息进行处理,得到所述待上线视频的初始评论内容;其中,所述文本生成模型中的主题网络基于预设的语料库,生成所述视频主题对应的原始评论内容,所述文本生成模型中转换器网络从所生成的所述原始评论内容中筛选出情感类别为目标情感类别的原始评论内容,并对筛选出的原始评论内容中包括的所述待上线视频的视频名称和视频角色进行掩藏处理,得到所述待上线视频的初始评论内容;
替换单元,用于将所述初始视频评论内容包括的每个掩藏信息替换为所述待上线视频的所述视频名称或所述视频角色,得到所述待上线视频的目标评论内容。
7.根据权利要求6所述的装置,其特征在于,所述处理单元在文本生成模型的构建过程时,具体用于:
获取每个预设的视频主题对应的评论数据集;所述评论数据集包括多个历史评论数据;
利用预先构建的情感分析网络,对每个历史评论数据进行情感类别识别,得到每个历史评论数据的情感类别;
识别每个历史评论数据中包括的待掩藏信息;所述待掩藏信息包括视频名称和视频角色;
对每个历史评论数据中包括的待掩藏信息进行掩藏处理;
基于掩藏处理后的各个历史评论数据、以及每个历史评论数据的情感类别和视频主题,对预设模型中的主题网络和转换器网络进行训练,得到文本生成模型。
8.根据权利要求6所述的装置,其特征在于,所述处理单元在情感分析网络的构建过程时,具体用于:
构建长短期记忆神经网络;
获取训练数据集;所述训练数据集中包括多组携带情感类别标注的训练数据;
利用所述训练数据集包括的各组训练数据,对所述长短期记忆神经网络进行训练;
将训练完成的长短期记忆网络作为情感分析网络。
9.一种存储介质,其特征在于,所述存储介质存储有指令集,其中,所述指令集被处理器执行时实现如权利要求1-5任意一项所述的评论内容生成方法。
10.一种电子设备,其特征在于,包括:
存储器,用于存储至少一组指令集;
处理器,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如权利要求1-5任意一项所述的评论内容生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210202525.8A CN114584841B (zh) | 2022-03-02 | 2022-03-02 | 评论内容生成方法及装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210202525.8A CN114584841B (zh) | 2022-03-02 | 2022-03-02 | 评论内容生成方法及装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114584841A true CN114584841A (zh) | 2022-06-03 |
CN114584841B CN114584841B (zh) | 2024-08-06 |
Family
ID=81776899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210202525.8A Active CN114584841B (zh) | 2022-03-02 | 2022-03-02 | 评论内容生成方法及装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114584841B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591948A (zh) * | 2024-01-19 | 2024-02-23 | 北京中科闻歌科技股份有限公司 | 评论生成模型训练方法和装置、信息生成方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446813A (zh) * | 2017-12-19 | 2018-08-24 | 清华大学 | 一种电商服务质量综合评价的方法 |
CN111263238A (zh) * | 2020-01-17 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 基于人工智能的生成视频评论的方法及设备 |
US20200257762A1 (en) * | 2019-02-08 | 2020-08-13 | Royal Caribbean Cruises Ltd. | Text classification and sentimentization with visualization |
CN112052306A (zh) * | 2019-06-06 | 2020-12-08 | 北京京东振世信息技术有限公司 | 识别数据的方法和装置 |
CN113014988A (zh) * | 2021-02-23 | 2021-06-22 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备以及存储介质 |
CN114117060A (zh) * | 2021-10-26 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 评论数据的质量分析方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-02 CN CN202210202525.8A patent/CN114584841B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446813A (zh) * | 2017-12-19 | 2018-08-24 | 清华大学 | 一种电商服务质量综合评价的方法 |
US20200257762A1 (en) * | 2019-02-08 | 2020-08-13 | Royal Caribbean Cruises Ltd. | Text classification and sentimentization with visualization |
CN112052306A (zh) * | 2019-06-06 | 2020-12-08 | 北京京东振世信息技术有限公司 | 识别数据的方法和装置 |
CN111263238A (zh) * | 2020-01-17 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 基于人工智能的生成视频评论的方法及设备 |
CN113014988A (zh) * | 2021-02-23 | 2021-06-22 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备以及存储介质 |
CN114117060A (zh) * | 2021-10-26 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 评论数据的质量分析方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591948A (zh) * | 2024-01-19 | 2024-02-23 | 北京中科闻歌科技股份有限公司 | 评论生成模型训练方法和装置、信息生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114584841B (zh) | 2024-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN110166802B (zh) | 弹幕处理方法、装置及存储介质 | |
CN111723295B (zh) | 一种内容分发方法、装置和存储介质 | |
CN111291618B (zh) | 标注方法、装置、服务器和存储介质 | |
US9129216B1 (en) | System, method and apparatus for computer aided association of relevant images with text | |
CN112464100B (zh) | 信息推荐模型训练方法、信息推荐方法、装置及设备 | |
CN113239143B (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
CN112149642A (zh) | 一种文本图像识别方法和装置 | |
CN118014086B (zh) | 数据处理方法、装置、设备、存储介质及产品 | |
CN112231554A (zh) | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 | |
CN110309360A (zh) | 一种短视频的话题标签个性化推荐方法及系统 | |
CN113656560B (zh) | 情感类别的预测方法和装置、存储介质及电子设备 | |
CN116151235A (zh) | 文章生成方法、文章生成模型训练方法及相关设备 | |
CN114584841B (zh) | 评论内容生成方法及装置、存储介质及电子设备 | |
CN113065342B (zh) | 一种基于关联关系分析的课程推荐方法 | |
Hu et al. | Aspect-guided syntax graph learning for explainable recommendation | |
CN117057430A (zh) | 基于规则累积的模型推理方法、装置及电子设备 | |
CN112231579A (zh) | 基于隐式社群发现的社会化视频推荐系统与方法 | |
CN114443904B (zh) | 视频查询方法、装置、计算机设备及计算机可读存储介质 | |
US20230402065A1 (en) | Generating titles for content segments of media items using machine-learning | |
CN114357301B (zh) | 数据处理方法、设备及可读存储介质 | |
CN116955782A (zh) | 跨域推荐模型的训练方法、装置、设备、介质及产品 | |
Kondylidis et al. | Category aware explainable conversational recommendation | |
Nambiar et al. | Multi modal genre classification of movies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |