CN113822045B

CN113822045B - 一种基于多模态数据的影评质量的识别方法及相关装置

Info

Publication number: CN113822045B
Application number: CN202111154918.8A
Authority: CN
Inventors: 乔文杰
Original assignee: Chongqing Yifang Technology Co ltd
Current assignee: Chongqing Yifang Technology Co ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-11-17
Anticipated expiration: 2041-09-29
Also published as: CN113822045A

Abstract

本申请公开了一种基于多模态数据的影评质量的识别方法及相关装置，方法包括提取影评语句的句向量、句向量的隐状态及影评图片的图片特征；确定各图片特征相对于各隐状态的注意力权重；基于各注意力权重及各隐状态确定各图片特征的特征张量；基于各特征张量确定影评数据对应的影评质量。本申请通过提取影片数据中的文本影评数据、表情影评数据的句向量及影评图片的图片特征，再通过注意力机制整合图片特征及句向量以得到融合了影评图片信息、文本影评信息及表情影评信息的特征张量，最后基于特征张量确定影评质量，从而可以快速准确的识别影评质量，解决了互联网时代网络视频影评需人工逐条审核的难题，节约了影评数据筛选所花费的人力资源。

Description

一种基于多模态数据的影评质量的识别方法及相关装置

技术领域

本申请涉及互联网技术领域，特别涉及一种基于多模态数据的影评质量的识别方法及相关装置。

背景技术

互联网的时代，电影电视剧等网络视频指数式增长，而各种视频影评也愈发丰富和多态，其可以包括包含文本、图片和emoji表情等多种模态的数据。而为筛选出和视频主题相关性强且具表达通顺的影评进行优先展示，需要人工进行逐条审核并对优质评论打上深度影评等类似标签再做后续展示处理。但随着网络视频量迅速增加，这种人工筛选深度影评方法需要花费大量的人力资源，已经最逐渐无法适应网络需求。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种基于多模态数据的影评质量的识别方法及相关装置。

为了解决上述技术问题，本申请实施例第一方面提供了一种基于多模态数据的影评质量的识别方法，所述的识别方法包括：

获取待识别的影评数据，并检测所述影评数据是否包括影评图片；

当所述影评数据包括影评图片时，采用语言模型获取所述影评数据中的各影评语句各自对应的句向量，并获取各句向量各自对应的隐状态；

通过图片特征提取模型提取各影评图片各自对应的图片特征，并基于各影评图片各自对应的图片特征对各隐状态进行注意力学习，以得到各图片特征相对于各隐状态的注意力权重；

基于各图片特征相对于各隐状态的注意力权重以及各隐状态，确定各图片特征各自对应的特征张量；

基于各图片特征各自对应的特征张量，确定所述影评数据对应的影评质量。

所述基于多模态数据的影评质量的识别方法，其中，所述方法还包括：

当所述影评数据不包括影评图片时，采用语言模型获取所述影评数据中的各影评语句各自对应的句向量，并获取各句向量各自对应的隐状态；

基于所述句向量各自对应的隐状态，确定所述影评数据对应的影评质量。

所述基于多模态数据的影评质量的识别方法，其中，所述获取待识别的影评数据具体包括：

获取目标视频对应的影评数据以及所述目标视频对应的视频信息；

检测所述影评数据是否包括文本影评内容；

若包括文本影评内容，检测所述影评数据中是否包括至少一个预设关键词，其中，所述预设关键词为基于所述视频信息确定得到的；

若包括至少一个预设关键词，将所述影评数据作为待识别的影评数据。

若所述影评数据为包括文件影评内容，或者未包括至少一个预设关键词，则直接将所述影评数据的影片质量设置为低质量。

所述基于多模态数据的影评质量的识别方法，其中，所述检测所述影评数据中是否包括至少一个预设关键词之前，所述方法还包括：

若包括文本影评内容，则获取所述影评数据的语句通顺度；

当所述语句通顺度大于预设通顺度阈值时，检测所述影评数据中是否包括至少一个预设关键词；

当所述语句通顺度小于或者等于预设通顺阈值时，直接将所述影评数据的影片质量设置为低质量。

所述基于多模态数据的影评质量的识别方法，其中，所述采用语言模型获取所述影评数据中的各影评语句各自对应的句向量具体包括：

检测所述影评获取所述影评数据中的各影评语句，其中，所述影评语句包括文本影评内容，或者包括文本影评内容和表情影评内容；

通过语言模型获取文本影评内容中各影评词语各自对应的词向量，或者各影评词语各自对应的词向量以及表情影评内容种各表情影评的词向量；

将各影评词语各自对应的词向量拼接，或者将各影评词语各自对应的词向量以及表情影评内容种各表情影评的词向量拼接，以得到各影评语句各自对应的句向量。

所述基于多模态数据的影评质量的识别方法，其中，所述基于各图片特征各自对应的特征张量，确定所述影评数据对应的影评质量具体包括：

基于注意力机制以及各图片特征各自对应的特征张量，确定所述影评数据对应的影评向量；

基于激活函数以及所述影评向量，确定所述影评数据对应的影评质量，其中，所述影评质量包括高质量、中质量或低质量。

本申请实施例第二方面提供了一种基于多模态数据的影评质量的识别装置，所述的识别装置包括：

检测模块，用于获取待识别的影评数据，并检测所述影评数据是否包括影评图片；

获取模块，当所述影评数据包括影评图片时，采用语言模型获取所述影评数据中的各影评语句各自对应的句向量，并获取各句向量各自对应的隐状态；

提取模块，用于通过图片特征提取模型提取各影评图片各自对应的图片特征，并基于各影评图片各自对应的图片特征对各隐状态进行注意力学习，以得到各图片特征相对于各隐状态的注意力权重；

第一确定模块，用于基于各图片特征相对于各隐状态的注意力权重以及各隐状态，确定各图片特征各自对应的特征张量；

第二确定模块，用于基于各图片特征各自对应的特征张量，确定所述影评数据对应的影评质量。

本申请实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的基于多模态数据的影评质量的识别方法中的步骤。

本申请实施例第四方面提供了一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的基于多模态数据的影评质量的识别方法中的步骤。

有益效果：与现有技术相比，本申请通过语言模型提取影片数据中的文本影评数据以及表情影评数据的句向量，然后通过特征提取模型提取影评图片的图片特征，再通过注意力机制整合图片特征以及句向量以得到融合了影评图片信息、文本影评信息以及表情影评信息的特征张量，最后基于该特征张量确定影评数据的影评质量，从而可以快速准确的识别影评数据的影评质量，解决了互联网时代网络视频影评需人工逐条审核的难题，节约了影评数据筛选所花费的人力资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的基于多模态数据的影评质量的识别方法的流程图。

图2为本申请提供的基于多模态数据的影评质量的识别方法的流程示例图。

图3为本申请提供的基于多模态数据的影评质量的识别方法的原理流程图。

图4为申请提供的基于多模态数据的影评质量的识别装置的结构原理图。

图5为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种基于多模态数据的影评质量的识别方法及相关装置，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

发明人经过研究发现，互联网的时代，电影电视剧等网络视频指数式增长，而各种视频影评也愈发丰富和多态，其可以包括包含文本、图片和emoji表情等多种模态的数据。而为筛选出和视频主题相关性强且具表达通顺的影评进行优先展示，需要人工进行逐条审核并对优质评论打上深度影评等类似标签再做后续展示处理。但随着网络视频量迅速增加，这种人工筛选深度影评方法需要花费大量的人力资源，已经最逐渐无法适应网络需求。

为了解决上述问题，在本申请实施例中，获取待识别的影评数据，并检测所述影评数据是否包括影评图片；当所述影评数据包括影评图片时，采用语言模型获取所述影评数据中的各影评语句各自对应的的句向量，并获取各句向量各自对应的隐状态；通过图片特征提取模型提取各影评图片各自对应的图片特征；基于各影评图片各自对应的图片特征对各隐状态进行注意力学习，以得到各图片特征相对于各隐状态的注意力权重；基于各图片特征相对于各隐状态的注意力权重以及各隐状态，确定各图片特征各自对应的特征张量；基于各图片特征各自对应的特征张量，确定所述影评数据对应的影评质量。本申请实施例通过语言模型提取影片数据中的文本影评数据以及表情影评数据的句向量，然后通过特征提取模型提取影评图片的图片特征，再通过注意力机制整合图片特征以及句向量以得到融合了影评图片信息、文本影评信息以及表情影评信息的特征张量，最后基于该特征张量确定影评数据的影评质量，从而可以快速准确的识别影评数据的影评质量，解决了互联网时代网络视频影评需人工逐条审核的难题，节约了影评数据筛选所花费的人力资源。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种基于多模态数据的影评质量的识别方法，如图1-3所示，所述方法包括：

S10、获取待识别的影评数据，并检测所述影评数据是否包括影评图片。

具体地，所述待识别的影评数据为一视频的影视评价，其中，影视评价可以是观看该视频的用户对该视频进行评论所形成的。所述影评数据可以包括文本影评数据、表情影评数据以及图片影评数据中的一种或者多种，例如，影评数据包括文本影评数据，或者，影评数据包括文本影评数据和图片影评数据，或者，影评数据包括文本影评数据、表情影评数据以及图片影评数据等。此外，文本影评数据可以包括若干影评语句，表情影评数据可以穿插在影评语句内，也就是说，影评语句中可以包括文本内容和表情内容；图片影评数据可以包括若干影评图片，若干影评图片相对于影评语句独立，也就是说，影评语句中不包影评图片。

在本实施例的一个实现方式中，所述获取待识别的影评数据具体包括：

检测所述影评数据是否包括文本影评内容；

具体低，所述目标视频可以为电影、电视剧以及短视频等，视频信息可以包括目标视频的视频名称、主演人员名字以及视频简介等。其中，所述影评数据可以为目标视频对应的所有影评数据中的一条影评数据，例如，可以获取目标视频所对应的评论区域中的所有影评数据，并在获取到所有影评数据中选取一条影评数据等。当然，值得说明的是，一条影评数据为一观看目标视频的用户一次评论中所发表的所有评论内容。

在获取到影评数据后，对该影评数据进行文本识别以确定该影评数据是否包括文本影评内容，其中，所述文本影评内容为通过文字形式所形成的影评内容。当影评数据包括文本影评内容时，检测所述影评数据中是否包括至少一个预设关键词；而当影评数据位包括文本影评内容时，则认为该影评数据为低质量的影评数据，无需对该影评数据进行后续操作。也就是说，当判断影评数据为低质量的影评数据时，不将该影评数据作为待识别的影评数据而进行检测所述影评数据是否包括影评图片，这样可以减少对低质量的影评数据的识别步骤，从而可以提高影评质量的识别效率。

预设关键词为基于所述视频信息所形成的，其中，基于所述视频信息可以形成若干预设关键词，在检测所述影评数据中是否包括预设关键词，是检测影评数据中是否包含若干预设关键词中的任意一个预设关键词。例如，若干预设关键词包括预设关键词A、预设关键词B以及预设关键词C，若干影评数据中包括预设关键词A，则判定影评数据中包括预设关键词。此外，预设关键词为基于视频信息所形成的，用于反映目标视频的关键信息，例如，预设关键词包括视频名称、演员名字、剧情类型以及关键剧情描述等。在本实施例的一个实现方式，若干预设关键词可以通过百度api基于视频信息提取得到的，其可以包括名称、简介加主演人员名字的15个预设关键词。

进一步，在检测影评数据是否包括至少一个预设关键词时，可以出现两种情况，一种情况是包含至少一个预设关键词，另一种情况是未包括任意一个预设关键，其中，当包含至少一个预设关键词时，可以将该影评数据作为待识别的影评数据，当未包括任意一个预设关键时，可以直接将所述影评数据的影片质量设置为低质量，无需对该影评数据进行后续操作。也就是说，当判断影评数据为低质量的影评数据时，不将该影评数据作为待识别的影评数据而进行检测所述影评数据是否包括影评图片，这样可以进一步提高影评质量的识别效率。

在本实施例的一个实现方式中，为了进一步提高影评质量的识别效率，在检测所述影评数据中是否包括至少一个预设关键词之前，可以先检测文本影评内容的语句通顺度，在语句通顺度大于预设通顺度阈值时，再检测所述影评数据中是否包括至少一个预设关键词。基于此，所述检测所述影评数据中是否包括至少一个预设关键词之前，所述方法还包括：

若包括文本影评内容，则获取所述影评数据的语句通顺度；

具体地，所述语句通顺度为预先设置的，用于衡量文本影评内容的通顺程度，当语句通顺度大于预设通顺度阈值时，说明文本影评内容的通顺程度满足要求，反之，当所述语句通顺度小于或者等于预设通顺阈值时，说明文本影评内容的通顺程度不满足要求，此时直接将所述影评数据的影片质量设置为低质量，并结束该影评数据的影评质量识别过程。

S20、当所述影评数据包括影评图片时，采用语言模型获取所述影评数据中的各影评语句各自对应的句向量，并获取各句向量各自对应的隐状态。

具体地，隐状态可以为通过长短期记忆模型(long-short term memory，lstm)学习得到，每个句向量对应一个隐状态，其中，长短期记忆模型为双向长短期记忆模型。句向量为基于语言模型获取的影评语句中的各词向量拼接得到，用于反映影评语句中的文本影评内容，或者文本影评内容和表情影评内容的内容信息。其中，所述影评数据中可以包括若干影评语句，若干影评语句中的每个影评语句均可以仅包括文本影评内容，或者是包括文本影评内容和表情影评内容。

语言模型为经过训练的神经网络模型，通过语言模型可以识别影评语句中的词向量，进而可以得到影评语句对应的句向量。在本实施例的一个典型实现方式中，所述语言模型可以为bert语言模型，通过预训练的bert语言模型提取影评语句中的词向量，以得到影评语句的句向量。

在本实施例的一个实现方式中，所述采用语言模型获取所述影评数据中的各影评语句各自对应的的句向量具体包括：

检测所述影评获取所述影评数据中的各影评语句；

具体地，所述影评语句包括文本影评内容，或者包括文本影评内容和表情影评内容，其中，当影评语句包括文本影评内容和表情影评内容时，表情影评内容可以穿插与文本影评内容中，并且每个表情影评被作为一个独权词语。也就是说，影评语句可以仅包括若干文字词语，也可以包括若干文字词语和若干被作为独立词语的表情。此外，当影评语句包括本影评内容和表情影评内容时，本影评内容可以直接通过bert语言模型获取其包括的各词语的词向量；表情影评内容可以先通过随机初始化的方式来获取表情影评对应的表情词语，然后在通过bert语言模型获取其对应的词向量，以得到影评语句中的各词语各自对应的词向量。在获取到各词语各自对应的词向量后，将各词语各自对应的词向量按照各词语在影评语句中的位置顺序依次拼接以得到影评语句对应的句向量。

S30、通过图片特征提取模型提取各影评图片各自对应的图片特征，并基于各影评图片各自对应的图片特征对各隐状态进行注意力学习，以得到各图片特征相对于各隐状态的注意力权重。

具体地，图片特征提取模型为经过训练的神经网络模型，通过图片特征提取模型可以提取影评图片的图片特征，例如，图片特征提取模型可以采用VGG-16网络模型，通过VGG-16网络模型提取影评图片的图片特征。在获取到各影评图片各自对应的图片特征后，可以通过注意力机制确定各图片特征相对于各隐状态的注意力权重。可以理解的是，在获取到各影评图片的图片特征以及各影评语句的句向量对应的隐状态后，使用各图片特征对各句向量的隐状态做注意力学习，得到各图片特征相对于各隐状态的注意力权重。例如，图片特征m_j对隐状态h_i做注意力学习，得到图片特征m_j相对于图片特征隐状态h_i的注意力权重β_j,i。

在本实施例的一个实现方式中，各图片特征相对于各隐状态的注意力权重β_j,i的计算公式可以为：

p_j＝tanh(W_pm_j+b_p)

q_i＝tanh(W_qh_i+b_q)

其中，m_j表示图片特征，h_i表示隐状态，W_p和W_q表示权重参数，b_p和b_q表示偏置参数，V为值矩阵，v_j,i表示映射后的图片特征p_j对映射后的句向量q_i的注意力权重分布。

S40、基于各图片特征相对于各隐状态的注意力权重以及各隐状态，确定各图片特征各自对应的特征张量。

具体地，特征张量为图片特征有句向量特征所表达的特征向量，其中，所述特征张量等于基于图像特征相对于各隐状态的注意力权重将各隐状态加权的和，相应的，所述特征张量的表达式可以为：

其中，d_j表示图片特征m_j对应的特征张量。

S50、基于各图片特征各自对应的特征张量，确定所述影评数据对应的影评质量。

具体地，所述影评质量包括高质量、中质量或低质量，其中，高质量的影评数据好于中质量的影评数据，中质量的影评数据好于低质量的影评数据，在显示影评数据时，可以优先显示高质量的影评数据。其中，影评质量可以通过对特征张量进行注意力学习得到。基于此，在本实施例的一个实现方式中，所述基于各图片特征各自对应的特征张量，确定所述影评数据对应的影评质量具体包括：

基于激活函数以及所述影评向量，确定所述影评数据对应的影评质量。

具体地，影评向量为基于注意力机制确定得到，基于所述影评向量以及激活函数可以确定影评数据对应的影评质量。其中，基于注意力机制确定所述影评向量的过程可以先确定各特征张量各自对应的注意力权值，然后基于注意力权值将各特征张量进行加权，以得到影评向量。相应的，所述影评向量的计算公式可以为：

d＝∑_jk_j*d_j，其中，k_j＝K^Ttanh(W_dd_j+b_d)

其中，d表示影评向量，d_j表示特征张量，W_d表示权重参数，b_d表示偏置参数，K表示键矩阵。

在本实施例的一个实现方式中，所述影评数据可以不包括影评图片，相应的，如图2所示，所述基于多模态数据的影评质量的识别方法还包括：

具体地，所述句向量以及隐状态的获取过程与上述包括影评图片的获取过程相同，具体可以参照上述说明。此外，在影评数据不包括影评图片时，可以直接对隐状态进行注意力学习，确定影评向量，然后基于激活函数以及影评向量确定到所述影评数据对应的影评质量，其中，所述影评向量的计算公式可以为：

d＝∑_ik_i*h_i，其中，k_i＝K^Ttanh(W_dh_i+b_d)

其中，d表示影评向量，h_i表示隐状态，W_d表示权重参数，b_d表示偏置参数，K表示键矩阵。

综上所述，本实施例提供了基于多模态数据的影评质量的识别方法，所述的识别方法包括获取待识别的影评数据，并检测所述影评数据是否包括影评图片；当所述影评数据包括影评图片时，采用语言模型获取所述影评数据中的各影评语句各自对应的句向量，并获取各句向量各自对应的隐状态；通过图片特征提取模型提取各影评图片各自对应的图片特征；基于各影评图片各自对应的图片特征对各隐状态进行注意力学习，以得到各图片特征相对于各隐状态的注意力权重；基于各图片特征相对于各隐状态的注意力权重以及各隐状态，确定各图片特征各自对应的特征张量；基于各图片特征各自对应的特征张量，确定所述影评数据对应的影评质量。本申请实施例通过语言模型提取影片数据中的文本影评数据以及表情影评数据的句向量，然后通过特征提取模型提取影评图片的图片特征，再通过注意力机制整合图片特征以及句向量以得到融合了影评图片信息、文本影评信息以及表情影评信息的特征张量，最后基于该特征张量确定影评数据的影评质量，从而可以快速准确的识别影评数据的影评质量，解决了互联网时代网络视频影评需人工逐条审核的难题，节约了影评数据筛选所花费的人力资源。

基于上述基于多模态数据的影评质量的识别方法，本实施例提供了一种基于多模态数据的影评质量的识别装置，如图4所示，所述的识别装置包括：

检测模块100，用于获取待识别的影评数据，并检测所述影评数据是否包括影评图片；

获取模块200，当所述影评数据包括影评图片时，采用语言模型获取所述影评数据中的各影评语句各自对应的句向量，并获取各句向量各自对应的隐状态；

提取模块300，用于通过图片特征提取模型提取各影评图片各自对应的图片特征，并用于基于各影评图片各自对应的图片特征对各隐状态进行注意力学习，以得到各图片特征相对于各隐状态的注意力权重；

第一确定模块400，用于基于各图片特征相对于各隐状态的注意力权重以及各隐状态，确定各图片特征各自对应的特征张量；

第二确定模块500，用于基于各图片特征各自对应的特征张量，确定所述影评数据对应的影评质量。

基于上述基于多模态数据的影评质量的识别方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的基于多模态数据的影评质量的识别方法中的步骤。

基于上述基于多模态数据的影评质量的识别方法，本申请还提供了一种终端设备，如图5所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述训练样本集的获取装置的具体工作过程，存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于多模态数据的影评质量的识别方法，其特征在于，所述的识别方法包括：

所述采用语言模型获取所述影评数据中的各影评语句各自对应的句向量具体包括：

当影评语句包括文本影评内容和表情影评内容时，表情影评内容穿插于文本影评内容中，并且每个表情影评被作为一个独立词语；所述表情影评内容通过随机初始化的方式来获取表情影评对应的表情词语；

通过语言模型获取文本影评内容中各影评词语各自对应的词向量，或者各影评词语各自对应的词向量以及表情影评内容中各表情影评的词向量；

将各影评词语各自对应的词向量拼接，或者将各影评词语各自对应的词向量以及表情影评内容中各表情影评的词向量拼接，以得到各影评语句各自对应的句向量；

2.根据权利要求1所述基于多模态数据的影评质量的识别方法，其特征在于，所述方法还包括：

3.根据权利要求1所述基于多模态数据的影评质量的识别方法，其特征在于，所述获取待识别的影评数据具体包括：

检测所述影评数据是否包括文本影评内容；

4.根据权利要求3所述基于多模态数据的影评质量的识别方法，其特征在于，所述方法还包括：

若所述影评数据未包括文件影评内容，或者未包括至少一个预设关键词，则直接将所述影评数据的影片质量设置为低质量。

5.根据权利要求3所述基于多模态数据的影评质量的识别方法，其特征在于，所述检测所述影评数据中是否包括至少一个预设关键词之前，所述方法还包括：

若包括文本影评内容，则获取所述影评数据的语句通顺度；

6.根据权利要求1所述基于多模态数据的影评质量的识别方法，其特征在于，所述基于各图片特征各自对应的特征张量，确定所述影评数据对应的影评质量具体包括：

7.一种基于多模态数据的影评质量的识别装置，其特征在于，所述的识别装置包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-6任意一项所述的基于多模态数据的影评质量的识别方法中的步骤。

9.一种终端设备，其特征在于，包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-6任意一项所述的基于多模态数据的影评质量的识别方法中的步骤。