CN113822045B - 一种基于多模态数据的影评质量的识别方法及相关装置 - Google Patents

一种基于多模态数据的影评质量的识别方法及相关装置 Download PDF

Info

Publication number
CN113822045B
CN113822045B CN202111154918.8A CN202111154918A CN113822045B CN 113822045 B CN113822045 B CN 113822045B CN 202111154918 A CN202111154918 A CN 202111154918A CN 113822045 B CN113822045 B CN 113822045B
Authority
CN
China
Prior art keywords
film
evaluation
data
comment
criticizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111154918.8A
Other languages
English (en)
Other versions
CN113822045A (zh
Inventor
乔文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Yifang Technology Co ltd
Original Assignee
Chongqing Yifang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Yifang Technology Co ltd filed Critical Chongqing Yifang Technology Co ltd
Priority to CN202111154918.8A priority Critical patent/CN113822045B/zh
Publication of CN113822045A publication Critical patent/CN113822045A/zh
Application granted granted Critical
Publication of CN113822045B publication Critical patent/CN113822045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于多模态数据的影评质量的识别方法及相关装置,方法包括提取影评语句的句向量、句向量的隐状态及影评图片的图片特征;确定各图片特征相对于各隐状态的注意力权重;基于各注意力权重及各隐状态确定各图片特征的特征张量;基于各特征张量确定影评数据对应的影评质量。本申请通过提取影片数据中的文本影评数据、表情影评数据的句向量及影评图片的图片特征,再通过注意力机制整合图片特征及句向量以得到融合了影评图片信息、文本影评信息及表情影评信息的特征张量,最后基于特征张量确定影评质量,从而可以快速准确的识别影评质量,解决了互联网时代网络视频影评需人工逐条审核的难题,节约了影评数据筛选所花费的人力资源。

Description

一种基于多模态数据的影评质量的识别方法及相关装置
技术领域
本申请涉及互联网技术领域,特别涉及一种基于多模态数据的影评质量的识别方法及相关装置。
背景技术
互联网的时代,电影电视剧等网络视频指数式增长,而各种视频影评也愈发丰富和多态,其可以包括包含文本、图片和emoji表情等多种模态的数据。而为筛选出和视频主题相关性强且具表达通顺的影评进行优先展示,需要人工进行逐条审核并对优质评论打上深度影评等类似标签再做后续展示处理。但随着网络视频量迅速增加,这种人工筛选深度影评方法需要花费大量的人力资源,已经最逐渐无法适应网络需求。
因而现有技术还有待改进和提高。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种基于多模态数据的影评质量的识别方法及相关装置。
为了解决上述技术问题,本申请实施例第一方面提供了一种基于多模态数据的影评质量的识别方法,所述的识别方法包括:
获取待识别的影评数据,并检测所述影评数据是否包括影评图片;
当所述影评数据包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态;
通过图片特征提取模型提取各影评图片各自对应的图片特征,并基于各影评图片各自对应的图片特征对各隐状态进行注意力学习,以得到各图片特征相对于各隐状态的注意力权重;
基于各图片特征相对于各隐状态的注意力权重以及各隐状态,确定各图片特征各自对应的特征张量;
基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量。
所述基于多模态数据的影评质量的识别方法,其中,所述方法还包括:
当所述影评数据不包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态;
基于所述句向量各自对应的隐状态,确定所述影评数据对应的影评质量。
所述基于多模态数据的影评质量的识别方法,其中,所述获取待识别的影评数据具体包括:
获取目标视频对应的影评数据以及所述目标视频对应的视频信息;
检测所述影评数据是否包括文本影评内容;
若包括文本影评内容,检测所述影评数据中是否包括至少一个预设关键词,其中,所述预设关键词为基于所述视频信息确定得到的;
若包括至少一个预设关键词,将所述影评数据作为待识别的影评数据。
所述基于多模态数据的影评质量的识别方法,其中,所述方法还包括:
若所述影评数据为包括文件影评内容,或者未包括至少一个预设关键词,则直接将所述影评数据的影片质量设置为低质量。
所述基于多模态数据的影评质量的识别方法,其中,所述检测所述影评数据中是否包括至少一个预设关键词之前,所述方法还包括:
若包括文本影评内容,则获取所述影评数据的语句通顺度;
当所述语句通顺度大于预设通顺度阈值时,检测所述影评数据中是否包括至少一个预设关键词;
当所述语句通顺度小于或者等于预设通顺阈值时,直接将所述影评数据的影片质量设置为低质量。
所述基于多模态数据的影评质量的识别方法,其中,所述采用语言模型获取所述影评数据中的各影评语句各自对应的句向量具体包括:
检测所述影评获取所述影评数据中的各影评语句,其中,所述影评语句包括文本影评内容,或者包括文本影评内容和表情影评内容;
通过语言模型获取文本影评内容中各影评词语各自对应的词向量,或者各影评词语各自对应的词向量以及表情影评内容种各表情影评的词向量;
将各影评词语各自对应的词向量拼接,或者将各影评词语各自对应的词向量以及表情影评内容种各表情影评的词向量拼接,以得到各影评语句各自对应的句向量。
所述基于多模态数据的影评质量的识别方法,其中,所述基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量具体包括:
基于注意力机制以及各图片特征各自对应的特征张量,确定所述影评数据对应的影评向量;
基于激活函数以及所述影评向量,确定所述影评数据对应的影评质量,其中,所述影评质量包括高质量、中质量或低质量。
本申请实施例第二方面提供了一种基于多模态数据的影评质量的识别装置,所述的识别装置包括:
检测模块,用于获取待识别的影评数据,并检测所述影评数据是否包括影评图片;
获取模块,当所述影评数据包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态;
提取模块,用于通过图片特征提取模型提取各影评图片各自对应的图片特征,并基于各影评图片各自对应的图片特征对各隐状态进行注意力学习,以得到各图片特征相对于各隐状态的注意力权重;
第一确定模块,用于基于各图片特征相对于各隐状态的注意力权重以及各隐状态,确定各图片特征各自对应的特征张量;
第二确定模块,用于基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量。
本申请实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的基于多模态数据的影评质量的识别方法中的步骤。
本申请实施例第四方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的基于多模态数据的影评质量的识别方法中的步骤。
有益效果:与现有技术相比,本申请通过语言模型提取影片数据中的文本影评数据以及表情影评数据的句向量,然后通过特征提取模型提取影评图片的图片特征,再通过注意力机制整合图片特征以及句向量以得到融合了影评图片信息、文本影评信息以及表情影评信息的特征张量,最后基于该特征张量确定影评数据的影评质量,从而可以快速准确的识别影评数据的影评质量,解决了互联网时代网络视频影评需人工逐条审核的难题,节约了影评数据筛选所花费的人力资源。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的基于多模态数据的影评质量的识别方法的流程图。
图2为本申请提供的基于多模态数据的影评质量的识别方法的流程示例图。
图3为本申请提供的基于多模态数据的影评质量的识别方法的原理流程图。
图4为申请提供的基于多模态数据的影评质量的识别装置的结构原理图。
图5为本申请提供的终端设备的结构原理图。
具体实施方式
本申请提供一种基于多模态数据的影评质量的识别方法及相关装置,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
发明人经过研究发现,互联网的时代,电影电视剧等网络视频指数式增长,而各种视频影评也愈发丰富和多态,其可以包括包含文本、图片和emoji表情等多种模态的数据。而为筛选出和视频主题相关性强且具表达通顺的影评进行优先展示,需要人工进行逐条审核并对优质评论打上深度影评等类似标签再做后续展示处理。但随着网络视频量迅速增加,这种人工筛选深度影评方法需要花费大量的人力资源,已经最逐渐无法适应网络需求。
为了解决上述问题,在本申请实施例中,获取待识别的影评数据,并检测所述影评数据是否包括影评图片;当所述影评数据包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的的句向量,并获取各句向量各自对应的隐状态;通过图片特征提取模型提取各影评图片各自对应的图片特征;基于各影评图片各自对应的图片特征对各隐状态进行注意力学习,以得到各图片特征相对于各隐状态的注意力权重;基于各图片特征相对于各隐状态的注意力权重以及各隐状态,确定各图片特征各自对应的特征张量;基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量。本申请实施例通过语言模型提取影片数据中的文本影评数据以及表情影评数据的句向量,然后通过特征提取模型提取影评图片的图片特征,再通过注意力机制整合图片特征以及句向量以得到融合了影评图片信息、文本影评信息以及表情影评信息的特征张量,最后基于该特征张量确定影评数据的影评质量,从而可以快速准确的识别影评数据的影评质量,解决了互联网时代网络视频影评需人工逐条审核的难题,节约了影评数据筛选所花费的人力资源。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施例提供了一种基于多模态数据的影评质量的识别方法,如图1-3所示,所述方法包括:
S10、获取待识别的影评数据,并检测所述影评数据是否包括影评图片。
具体地,所述待识别的影评数据为一视频的影视评价,其中,影视评价可以是观看该视频的用户对该视频进行评论所形成的。所述影评数据可以包括文本影评数据、表情影评数据以及图片影评数据中的一种或者多种,例如,影评数据包括文本影评数据,或者,影评数据包括文本影评数据和图片影评数据,或者,影评数据包括文本影评数据、表情影评数据以及图片影评数据等。此外,文本影评数据可以包括若干影评语句,表情影评数据可以穿插在影评语句内,也就是说,影评语句中可以包括文本内容和表情内容;图片影评数据可以包括若干影评图片,若干影评图片相对于影评语句独立,也就是说,影评语句中不包影评图片。
在本实施例的一个实现方式中,所述获取待识别的影评数据具体包括:
获取目标视频对应的影评数据以及所述目标视频对应的视频信息;
检测所述影评数据是否包括文本影评内容;
若包括文本影评内容,检测所述影评数据中是否包括至少一个预设关键词,其中,所述预设关键词为基于所述视频信息确定得到的;
若包括至少一个预设关键词,将所述影评数据作为待识别的影评数据。
具体低,所述目标视频可以为电影、电视剧以及短视频等,视频信息可以包括目标视频的视频名称、主演人员名字以及视频简介等。其中,所述影评数据可以为目标视频对应的所有影评数据中的一条影评数据,例如,可以获取目标视频所对应的评论区域中的所有影评数据,并在获取到所有影评数据中选取一条影评数据等。当然,值得说明的是,一条影评数据为一观看目标视频的用户一次评论中所发表的所有评论内容。
在获取到影评数据后,对该影评数据进行文本识别以确定该影评数据是否包括文本影评内容,其中,所述文本影评内容为通过文字形式所形成的影评内容。当影评数据包括文本影评内容时,检测所述影评数据中是否包括至少一个预设关键词;而当影评数据位包括文本影评内容时,则认为该影评数据为低质量的影评数据,无需对该影评数据进行后续操作。也就是说,当判断影评数据为低质量的影评数据时,不将该影评数据作为待识别的影评数据而进行检测所述影评数据是否包括影评图片,这样可以减少对低质量的影评数据的识别步骤,从而可以提高影评质量的识别效率。
预设关键词为基于所述视频信息所形成的,其中,基于所述视频信息可以形成若干预设关键词,在检测所述影评数据中是否包括预设关键词,是检测影评数据中是否包含若干预设关键词中的任意一个预设关键词。例如,若干预设关键词包括预设关键词A、预设关键词B以及预设关键词C,若干影评数据中包括预设关键词A,则判定影评数据中包括预设关键词。此外,预设关键词为基于视频信息所形成的,用于反映目标视频的关键信息,例如,预设关键词包括视频名称、演员名字、剧情类型以及关键剧情描述等。在本实施例的一个实现方式,若干预设关键词可以通过百度api基于视频信息提取得到的,其可以包括名称、简介加主演人员名字的15个预设关键词。
进一步,在检测影评数据是否包括至少一个预设关键词时,可以出现两种情况,一种情况是包含至少一个预设关键词,另一种情况是未包括任意一个预设关键,其中,当包含至少一个预设关键词时,可以将该影评数据作为待识别的影评数据,当未包括任意一个预设关键时,可以直接将所述影评数据的影片质量设置为低质量,无需对该影评数据进行后续操作。也就是说,当判断影评数据为低质量的影评数据时,不将该影评数据作为待识别的影评数据而进行检测所述影评数据是否包括影评图片,这样可以进一步提高影评质量的识别效率。
在本实施例的一个实现方式中,为了进一步提高影评质量的识别效率,在检测所述影评数据中是否包括至少一个预设关键词之前,可以先检测文本影评内容的语句通顺度,在语句通顺度大于预设通顺度阈值时,再检测所述影评数据中是否包括至少一个预设关键词。基于此,所述检测所述影评数据中是否包括至少一个预设关键词之前,所述方法还包括:
若包括文本影评内容,则获取所述影评数据的语句通顺度;
当所述语句通顺度大于预设通顺度阈值时,检测所述影评数据中是否包括至少一个预设关键词;
当所述语句通顺度小于或者等于预设通顺阈值时,直接将所述影评数据的影片质量设置为低质量。
具体地,所述语句通顺度为预先设置的,用于衡量文本影评内容的通顺程度,当语句通顺度大于预设通顺度阈值时,说明文本影评内容的通顺程度满足要求,反之,当所述语句通顺度小于或者等于预设通顺阈值时,说明文本影评内容的通顺程度不满足要求,此时直接将所述影评数据的影片质量设置为低质量,并结束该影评数据的影评质量识别过程。
S20、当所述影评数据包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态。
具体地,隐状态可以为通过长短期记忆模型(long-short term memory,lstm)学习得到,每个句向量对应一个隐状态,其中,长短期记忆模型为双向长短期记忆模型。句向量为基于语言模型获取的影评语句中的各词向量拼接得到,用于反映影评语句中的文本影评内容,或者文本影评内容和表情影评内容的内容信息。其中,所述影评数据中可以包括若干影评语句,若干影评语句中的每个影评语句均可以仅包括文本影评内容,或者是包括文本影评内容和表情影评内容。
语言模型为经过训练的神经网络模型,通过语言模型可以识别影评语句中的词向量,进而可以得到影评语句对应的句向量。在本实施例的一个典型实现方式中,所述语言模型可以为bert语言模型,通过预训练的bert语言模型提取影评语句中的词向量,以得到影评语句的句向量。
在本实施例的一个实现方式中,所述采用语言模型获取所述影评数据中的各影评语句各自对应的的句向量具体包括:
检测所述影评获取所述影评数据中的各影评语句;
通过语言模型获取文本影评内容中各影评词语各自对应的词向量,或者各影评词语各自对应的词向量以及表情影评内容种各表情影评的词向量;
将各影评词语各自对应的词向量拼接,或者将各影评词语各自对应的词向量以及表情影评内容种各表情影评的词向量拼接,以得到各影评语句各自对应的句向量。
具体地,所述影评语句包括文本影评内容,或者包括文本影评内容和表情影评内容,其中,当影评语句包括文本影评内容和表情影评内容时,表情影评内容可以穿插与文本影评内容中,并且每个表情影评被作为一个独权词语。也就是说,影评语句可以仅包括若干文字词语,也可以包括若干文字词语和若干被作为独立词语的表情。此外,当影评语句包括本影评内容和表情影评内容时,本影评内容可以直接通过bert语言模型获取其包括的各词语的词向量;表情影评内容可以先通过随机初始化的方式来获取表情影评对应的表情词语,然后在通过bert语言模型获取其对应的词向量,以得到影评语句中的各词语各自对应的词向量。在获取到各词语各自对应的词向量后,将各词语各自对应的词向量按照各词语在影评语句中的位置顺序依次拼接以得到影评语句对应的句向量。
S30、通过图片特征提取模型提取各影评图片各自对应的图片特征,并基于各影评图片各自对应的图片特征对各隐状态进行注意力学习,以得到各图片特征相对于各隐状态的注意力权重。
具体地,图片特征提取模型为经过训练的神经网络模型,通过图片特征提取模型可以提取影评图片的图片特征,例如,图片特征提取模型可以采用VGG-16网络模型,通过VGG-16网络模型提取影评图片的图片特征。在获取到各影评图片各自对应的图片特征后,可以通过注意力机制确定各图片特征相对于各隐状态的注意力权重。可以理解的是,在获取到各影评图片的图片特征以及各影评语句的句向量对应的隐状态后,使用各图片特征对各句向量的隐状态做注意力学习,得到各图片特征相对于各隐状态的注意力权重。例如,图片特征mj对隐状态hi做注意力学习,得到图片特征mj相对于图片特征隐状态hi的注意力权重βj,i
在本实施例的一个实现方式中,各图片特征相对于各隐状态的注意力权重βj,i的计算公式可以为:
pj=tanh(Wpmj+bp)
qi=tanh(Wqhi+bq)
其中,mj表示图片特征,hi表示隐状态,Wp和Wq表示权重参数,bp和bq表示偏置参数,V为值矩阵,vj,i表示映射后的图片特征pj对映射后的句向量qi的注意力权重分布。
S40、基于各图片特征相对于各隐状态的注意力权重以及各隐状态,确定各图片特征各自对应的特征张量。
具体地,特征张量为图片特征有句向量特征所表达的特征向量,其中,所述特征张量等于基于图像特征相对于各隐状态的注意力权重将各隐状态加权的和,相应的,所述特征张量的表达式可以为:
其中,dj表示图片特征mj对应的特征张量。
S50、基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量。
具体地,所述影评质量包括高质量、中质量或低质量,其中,高质量的影评数据好于中质量的影评数据,中质量的影评数据好于低质量的影评数据,在显示影评数据时,可以优先显示高质量的影评数据。其中,影评质量可以通过对特征张量进行注意力学习得到。基于此,在本实施例的一个实现方式中,所述基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量具体包括:
基于注意力机制以及各图片特征各自对应的特征张量,确定所述影评数据对应的影评向量;
基于激活函数以及所述影评向量,确定所述影评数据对应的影评质量。
具体地,影评向量为基于注意力机制确定得到,基于所述影评向量以及激活函数可以确定影评数据对应的影评质量。其中,基于注意力机制确定所述影评向量的过程可以先确定各特征张量各自对应的注意力权值,然后基于注意力权值将各特征张量进行加权,以得到影评向量。相应的,所述影评向量的计算公式可以为:
d=∑jkj*dj,其中,kj=KTtanh(Wddj+bd)
其中,d表示影评向量,dj表示特征张量,Wd表示权重参数,bd表示偏置参数,K表示键矩阵。
在本实施例的一个实现方式中,所述影评数据可以不包括影评图片,相应的,如图2所示,所述基于多模态数据的影评质量的识别方法还包括:
当所述影评数据不包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态;
基于所述句向量各自对应的隐状态,确定所述影评数据对应的影评质量。
具体地,所述句向量以及隐状态的获取过程与上述包括影评图片的获取过程相同,具体可以参照上述说明。此外,在影评数据不包括影评图片时,可以直接对隐状态进行注意力学习,确定影评向量,然后基于激活函数以及影评向量确定到所述影评数据对应的影评质量,其中,所述影评向量的计算公式可以为:
d=∑iki*hi,其中,ki=KTtanh(Wdhi+bd)
其中,d表示影评向量,hi表示隐状态,Wd表示权重参数,bd表示偏置参数,K表示键矩阵。
综上所述,本实施例提供了基于多模态数据的影评质量的识别方法,所述的识别方法包括获取待识别的影评数据,并检测所述影评数据是否包括影评图片;当所述影评数据包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态;通过图片特征提取模型提取各影评图片各自对应的图片特征;基于各影评图片各自对应的图片特征对各隐状态进行注意力学习,以得到各图片特征相对于各隐状态的注意力权重;基于各图片特征相对于各隐状态的注意力权重以及各隐状态,确定各图片特征各自对应的特征张量;基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量。本申请实施例通过语言模型提取影片数据中的文本影评数据以及表情影评数据的句向量,然后通过特征提取模型提取影评图片的图片特征,再通过注意力机制整合图片特征以及句向量以得到融合了影评图片信息、文本影评信息以及表情影评信息的特征张量,最后基于该特征张量确定影评数据的影评质量,从而可以快速准确的识别影评数据的影评质量,解决了互联网时代网络视频影评需人工逐条审核的难题,节约了影评数据筛选所花费的人力资源。
基于上述基于多模态数据的影评质量的识别方法,本实施例提供了一种基于多模态数据的影评质量的识别装置,如图4所示,所述的识别装置包括:
检测模块100,用于获取待识别的影评数据,并检测所述影评数据是否包括影评图片;
获取模块200,当所述影评数据包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态;
提取模块300,用于通过图片特征提取模型提取各影评图片各自对应的图片特征,并用于基于各影评图片各自对应的图片特征对各隐状态进行注意力学习,以得到各图片特征相对于各隐状态的注意力权重;
第一确定模块400,用于基于各图片特征相对于各隐状态的注意力权重以及各隐状态,确定各图片特征各自对应的特征张量;
第二确定模块500,用于基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量。
基于上述基于多模态数据的影评质量的识别方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的基于多模态数据的影评质量的识别方法中的步骤。
基于上述基于多模态数据的影评质量的识别方法,本申请还提供了一种终端设备,如图5所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述训练样本集的获取装置的具体工作过程,存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (9)

1.一种基于多模态数据的影评质量的识别方法,其特征在于,所述的识别方法包括:
获取待识别的影评数据,并检测所述影评数据是否包括影评图片;
当所述影评数据包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态;
所述采用语言模型获取所述影评数据中的各影评语句各自对应的句向量具体包括:
检测所述影评获取所述影评数据中的各影评语句,其中,所述影评语句包括文本影评内容,或者包括文本影评内容和表情影评内容;
当影评语句包括文本影评内容和表情影评内容时,表情影评内容穿插于文本影评内容中,并且每个表情影评被作为一个独立词语;所述表情影评内容通过随机初始化的方式来获取表情影评对应的表情词语;
通过语言模型获取文本影评内容中各影评词语各自对应的词向量,或者各影评词语各自对应的词向量以及表情影评内容中各表情影评的词向量;
将各影评词语各自对应的词向量拼接,或者将各影评词语各自对应的词向量以及表情影评内容中各表情影评的词向量拼接,以得到各影评语句各自对应的句向量;
通过图片特征提取模型提取各影评图片各自对应的图片特征,并基于各影评图片各自对应的图片特征对各隐状态进行注意力学习,以得到各图片特征相对于各隐状态的注意力权重;
基于各图片特征相对于各隐状态的注意力权重以及各隐状态,确定各图片特征各自对应的特征张量;
基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量。
2.根据权利要求1所述基于多模态数据的影评质量的识别方法,其特征在于,所述方法还包括:
当所述影评数据不包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态;
基于所述句向量各自对应的隐状态,确定所述影评数据对应的影评质量。
3.根据权利要求1所述基于多模态数据的影评质量的识别方法,其特征在于,所述获取待识别的影评数据具体包括:
获取目标视频对应的影评数据以及所述目标视频对应的视频信息;
检测所述影评数据是否包括文本影评内容;
若包括文本影评内容,检测所述影评数据中是否包括至少一个预设关键词,其中,所述预设关键词为基于所述视频信息确定得到的;
若包括至少一个预设关键词,将所述影评数据作为待识别的影评数据。
4.根据权利要求3所述基于多模态数据的影评质量的识别方法,其特征在于,所述方法还包括:
若所述影评数据未包括文件影评内容,或者未包括至少一个预设关键词,则直接将所述影评数据的影片质量设置为低质量。
5.根据权利要求3所述基于多模态数据的影评质量的识别方法,其特征在于,所述检测所述影评数据中是否包括至少一个预设关键词之前,所述方法还包括:
若包括文本影评内容,则获取所述影评数据的语句通顺度;
当所述语句通顺度大于预设通顺度阈值时,检测所述影评数据中是否包括至少一个预设关键词;
当所述语句通顺度小于或者等于预设通顺阈值时,直接将所述影评数据的影片质量设置为低质量。
6.根据权利要求1所述基于多模态数据的影评质量的识别方法,其特征在于,所述基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量具体包括:
基于注意力机制以及各图片特征各自对应的特征张量,确定所述影评数据对应的影评向量;
基于激活函数以及所述影评向量,确定所述影评数据对应的影评质量,其中,所述影评质量包括高质量、中质量或低质量。
7.一种基于多模态数据的影评质量的识别装置,其特征在于,所述的识别装置包括:
检测模块,用于获取待识别的影评数据,并检测所述影评数据是否包括影评图片;
获取模块,当所述影评数据包括影评图片时,采用语言模型获取所述影评数据中的各影评语句各自对应的句向量,并获取各句向量各自对应的隐状态;
所述采用语言模型获取所述影评数据中的各影评语句各自对应的句向量具体包括:
检测所述影评获取所述影评数据中的各影评语句,其中,所述影评语句包括文本影评内容,或者包括文本影评内容和表情影评内容;
当影评语句包括文本影评内容和表情影评内容时,表情影评内容穿插于文本影评内容中,并且每个表情影评被作为一个独立词语;所述表情影评内容通过随机初始化的方式来获取表情影评对应的表情词语;
通过语言模型获取文本影评内容中各影评词语各自对应的词向量,或者各影评词语各自对应的词向量以及表情影评内容中各表情影评的词向量;
将各影评词语各自对应的词向量拼接,或者将各影评词语各自对应的词向量以及表情影评内容中各表情影评的词向量拼接,以得到各影评语句各自对应的句向量;
提取模块,用于通过图片特征提取模型提取各影评图片各自对应的图片特征,并基于各影评图片各自对应的图片特征对各隐状态进行注意力学习,以得到各图片特征相对于各隐状态的注意力权重;
第一确定模块,用于基于各图片特征相对于各隐状态的注意力权重以及各隐状态,确定各图片特征各自对应的特征张量;
第二确定模块,用于基于各图片特征各自对应的特征张量,确定所述影评数据对应的影评质量。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-6任意一项所述的基于多模态数据的影评质量的识别方法中的步骤。
9.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-6任意一项所述的基于多模态数据的影评质量的识别方法中的步骤。
CN202111154918.8A 2021-09-29 2021-09-29 一种基于多模态数据的影评质量的识别方法及相关装置 Active CN113822045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111154918.8A CN113822045B (zh) 2021-09-29 2021-09-29 一种基于多模态数据的影评质量的识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111154918.8A CN113822045B (zh) 2021-09-29 2021-09-29 一种基于多模态数据的影评质量的识别方法及相关装置

Publications (2)

Publication Number Publication Date
CN113822045A CN113822045A (zh) 2021-12-21
CN113822045B true CN113822045B (zh) 2023-11-17

Family

ID=78915949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111154918.8A Active CN113822045B (zh) 2021-09-29 2021-09-29 一种基于多模态数据的影评质量的识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN113822045B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524524B (zh) * 2023-04-25 2024-03-15 上海任意门科技有限公司 一种内容识别方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557948A (zh) * 2016-10-18 2017-04-05 李超 一种评论信息的展示方法及装置
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
CN108269125A (zh) * 2018-01-15 2018-07-10 口碑(上海)信息技术有限公司 评论信息质量评估方法及系统、评论信息处理方法及系统
CN111460224A (zh) * 2020-03-27 2020-07-28 广州虎牙科技有限公司 评论数据的质量标注方法、装置、设备及存储介质
CN111814454A (zh) * 2020-07-10 2020-10-23 重庆大学 一种社交网络上的多模态网络欺凌检测模型
CN111859946A (zh) * 2019-04-22 2020-10-30 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质
CN112163607A (zh) * 2020-09-17 2021-01-01 平顶山学院 基于多维度和多层次联合建模的网络社会媒体情感分类方法
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法
CN113065577A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种面向目标的多模态情感分类方法
WO2021139424A1 (zh) * 2020-05-14 2021-07-15 平安科技(深圳)有限公司 文本内涵质量的评估方法、装置、设备及存储介质
CN113407663A (zh) * 2020-11-05 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195006B2 (en) * 2018-12-06 2021-12-07 International Business Machines Corporation Multi-modal document feature extraction
US11423304B2 (en) * 2020-01-15 2022-08-23 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
CN106557948A (zh) * 2016-10-18 2017-04-05 李超 一种评论信息的展示方法及装置
CN108269125A (zh) * 2018-01-15 2018-07-10 口碑(上海)信息技术有限公司 评论信息质量评估方法及系统、评论信息处理方法及系统
CN111859946A (zh) * 2019-04-22 2020-10-30 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质
CN111460224A (zh) * 2020-03-27 2020-07-28 广州虎牙科技有限公司 评论数据的质量标注方法、装置、设备及存储介质
WO2021139424A1 (zh) * 2020-05-14 2021-07-15 平安科技(深圳)有限公司 文本内涵质量的评估方法、装置、设备及存储介质
CN111814454A (zh) * 2020-07-10 2020-10-23 重庆大学 一种社交网络上的多模态网络欺凌检测模型
CN112163607A (zh) * 2020-09-17 2021-01-01 平顶山学院 基于多维度和多层次联合建模的网络社会媒体情感分类方法
CN113407663A (zh) * 2020-11-05 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法
CN113065577A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种面向目标的多模态情感分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Survey of Computational Approaches and Challenges in Multimodal Sentiment Analysis;Mahesh G. Huddar ET AL,;International Journal of Computer Sciences And Engineering;第7卷(第1期);876-883 *
ColBERT:Using BERT Sentence Embedding for Humor Detection;Issa Anamoradnejad ET AL;arXiv;1-6 *
Quoc-Tuan Truong ET AL.VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis.Proceedings of the AAAI Conference on Artificial Intelligence.2019,第33卷(第1期),第305-308页,图1-2. *
VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis;Quoc-Tuan Truong ET AL;Proceedings of the AAAI Conference on Artificial Intelligence;第33卷(第1期);第305-308页,图1-2 *
基于多模态数据语义融合的旅游在线评论有用性识别研究;马超;李纲;陈思菁;毛进;张霁;;情报学报(02);79-87 *

Also Published As

Publication number Publication date
CN113822045A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
US9619735B1 (en) Pure convolutional neural network localization
US9740966B1 (en) Tagging similar images using neural network
CN109218629B (zh) 视频生成方法、存储介质和装置
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN111767461A (zh) 数据处理方法及装置
CN113014988B (zh) 视频处理方法、装置、设备以及存储介质
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
US20210193187A1 (en) Apparatus for video searching using multi-modal criteria and method thereof
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112382295B (zh) 语音识别方法、装置、设备及可读存储介质
CN111105013A (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN112732974A (zh) 一种数据处理方法、电子设备及存储介质
CN113822045B (zh) 一种基于多模态数据的影评质量的识别方法及相关装置
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN114385812A (zh) 用于文本的关系抽取方法及系统
CN115599953A (zh) 视频文本检索模型的训练方法、检索方法及相关设备
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN114996510A (zh) 教学视频分段及信息点提取方法、装置、电子设备和介质
CN111767727B (zh) 数据处理方法及装置
CN115878849B (zh) 一种视频标签关联方法、装置和电子设备
US11595614B1 (en) Intelligent reframing
CN115496077B (zh) 一种基于模态观察和评分的多模态情感分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 402760 no.1-10 Tieshan Road, Biquan street, Bishan District, Chongqing

Applicant after: Chongqing Yifang Technology Co.,Ltd.

Address before: 518057 area a, 21 / F, Konka R & D building, 28 Keji South 12 road, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Easy city square network technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant