CN116955657A - 评论数据处理方法、装置、设备、存储介质及产品 - Google Patents

评论数据处理方法、装置、设备、存储介质及产品 Download PDF

Info

Publication number
CN116955657A
CN116955657A CN202211429090.7A CN202211429090A CN116955657A CN 116955657 A CN116955657 A CN 116955657A CN 202211429090 A CN202211429090 A CN 202211429090A CN 116955657 A CN116955657 A CN 116955657A
Authority
CN
China
Prior art keywords
information
comment
interactive
comment information
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211429090.7A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211429090.7A priority Critical patent/CN116955657A/zh
Publication of CN116955657A publication Critical patent/CN116955657A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种评论数据处理方法、装置、设备、存储介质及产品,属于人工智能技术领域。该评论数据处理方法充分利用评论信息关联的多媒体对象的多维度特征、交互对象的静态属性特征、交互对象的评论交互操作特征以及评论信息自身特征,对评论信息的自身质量以及该评论信息引导交互对象进行交互的能力进行预测,根据预测结果确定该评论信息的重要程度,根据各评论信息的重要程度可以确定各评论信息的排序结果,从而使得排序结果中较为重要的、对交互对象具备强烈吸引力以及可以引导交互对象进行交互评论信息优先展示,从而提升该评论信息以及该评论信息所对应的多媒体对象的相关信息的传播效率和信息流通能力。

Description

评论数据处理方法、装置、设备、存储介质及产品
技术领域
本申请涉及人工智能技术领域,特别涉及一种评论数据处理方法、装置、设备、存储介质及产品。
背景技术
信息流内容平台,无论是资讯类、社交类、还是视频类,都可以在展示多媒体对象的基础上展示针对该多媒体对象的评论信息,评论信息自身也是营造内容互动、促进内容沉浸体验的重要因素。交互对象在多媒体对象的基础上,可以和多媒体对象进行基于内容的互动,从而产生评论信息和与评论有关的交互操作。目前信息流内容的评论,通常按照发布时间顺序进行简单排序。这样的排序方法对促进多媒体对象的信息传播和促进交互对象对于多媒体对象相关内容的参与而言作用有限。
发明内容
本申请实施例提供了评论数据处理方法、装置、设备、存储介质及产品,能够促进多媒体对象的信息传播和促进交互对象对于多媒体对象相关内容的参与。
根据本申请实施例的一个方面,提供了一种评论数据处理方法,所述方法包括:
对所述多媒体对象进行媒体特征提取,得到所述多媒体对象对应的媒体特征,所述媒体特征提取包括下述至少之一:视觉特征提取、文本特征提取和标签特征提取;
对所述第一评论信息进行内容特征提取,得到所述第一评论信息所对应的语义特征;
对目标交互对象信息分别进行静态属性特征提取和交互操作特征提取,得到交互对象静态特征和交互对象交互操作特征,所述交互操作包括所述目标交互对象信息的评论交互操作;
根据所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征,对所述第一评论信息进行重要度预测,得到所述第一评论信息所对应的重要度,所述重要度表征所述第一评论信息吸引所述目标交互对象信息对应的交互对象对所述第一评论信息或者所述多媒体对象产生交互操作的能力。
根据本申请实施例的一个方面,提供了一种评论数据处理装置,所述装置包括:
处理数据获取模块,用于获取第一评论信息所对应的多媒体对象;
多模态特征提取模块,用于对所述多媒体对象分别进行视觉特征提取、文本特征提取和标签特征提取,得到所述多媒体对象对应的媒体特征;对所述第一评论信息进行内容特征提取,得到所述第一评论信息所对应的语义特征;以及,对目标交互对象信息分别进行静态属性特征提取和交互操作特征提取,得到交互对象静态特征和交互对象交互操作特征,所述交互操作包括所述目标交互对象信息的评论交互操作;
重要度预测模块,用于根据所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征,对所述第一评论信息进行重要度预测,得到所述第一评论信息所对应的重要度,所述重要度表征所述第一评论信息吸引所述目标交互对象信息对应的交互对象对所述第一评论信息或者所述多媒体对象产生交互操作的能力。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述评论数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述评论数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现上述评论数据处理方法。
本申请实施例提供的技术方案可以带来如下有益效果:
本申请实施例提供一种评论数据处理方法,该评论数据处理方法充分利用评论信息关联的多媒体对象的多维度特征、交互对象的静态属性特征、交互对象的评论交互操作特征以及评论信息自身特征,对评论信息的自身质量以及该评论信息引导交互对象进行交互的能力进行预测,根据预测结果确定该评论信息的重要程度,根据各评论信息的重要程度可以确定各评论信息的排序结果,从而使得排序结果中较为重要的、对交互对象具备强烈吸引力以及可以引导交互对象进行交互评论信息优先展示,从而提升该评论信息以及该评论信息所对应的多媒体对象的相关信息的传播效率和信息流通能力。进一步地,通过本申请实施例,能够有效利用评论信息关联的多媒体对象,评论信息本身及交互对象各方面的信息,对评论信息的质量做出一个量化的打分度量,有效优化评论区域的内容输出结果,增加交互对象互动活跃度,可以有效改善交互对象的阅读评论的体验;能够将评论转化为内容消费的一部分,评论通常在内容的底部出现,优质评论内容前置展现可以增加对内容的消费,增加交互对象滑动到内容详情页底部的概率,提升多媒体对象曝光量和消费停留时长,改善信息流内容消费的氛围,增强内容整体的趣味和信息量,最终有助于信息流内容人均停留时长的提升和人均消费量提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的应用程序运行环境的示意图;
图2是本申请一个实施例提供的评论数据处理方法的流程图;
图3示例性示出了重要度预测方法流程示意图;
图4示例性示出了评论信息处理模型示意图;
图5示例性示出了一种信息流内容服务系统的技术框架示意图;
图6是本申请一个实施例提供的评论数据处理装置的框图;
图7是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
在介绍本申请提供的方法实施例之前,先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍,以便于本申请领域技术人员理解。
MCN:是一种多频道网络的产品形态,将PGC(Professional Generated Content,专业生产内容)内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。
PGC指专业生产内容(例如视频网站中的视频)、专家生产内容(社交网络中的内容),用来泛指内容个性化、视角多元化、社会关系虚拟化。也称为 PPC(Professionally-produced Content,专业生产内容)。
UGC(User Generated Content)指交互对象原创内容,是伴随着以提倡个性化为主要特点的Web2.0概念而兴起的。它并不是某一种具体的业务,而是一种交互对象使用互联网的新方式,即由原来的以下载为主变成下载和上传并重。本申请实施例并不对交互对象进行限定,其可以被理解为与多媒体对象之间产生交互关系的对象。
PUGC(Professional User Generated Content):是以UGC形式,产出的相对接近PGC的专业音频内容。
Feeds:消息来源,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源,是一种资料格式,网站透过它将最新资讯传播给交互对象,通常以时间轴方式排列,时间轴(Timeline)是Feeds最原始最直觉也最基本的展示形式。交互对象能够订阅网站的先决条件是,网站提供了消息来源。将 Feeds汇流于一处称为聚合,而用于聚合的软体称为聚合器。对最终交互对象而言,聚合器是专门用来订阅网站的软件。
多媒体对象:也称多媒体内容,信息流服务系统推荐给交互对象阅读观看的多媒体信息个体,可能包含图文对象、图片对象或者视频对象。图文对象通常是自媒体信息发布对象对应的交互对象主动编辑发布的包括竖版的小图文内容和/或横版的短图文内容。视频通常是PGC或者UGC内容生产者提供,最后以Feeds流的形式提供。
FAISS(聚类和相似性搜索库)是一种开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集的算法,以及用于算法评估和参数调整的支持代码。
BERT(Bidirectional Encoder Representation from Transformers,基于转换模型的双向编码表示模型),是大规模文本预训练模型,BERT用12层的transformerencoder(转换模型编码器)将自然语言处理任务的基准性能提高了一大截。相比word2vec(词向量),经过海量文本预训练的BERT能够在分类算法中引入更多的迁移知识,提供更精准的文本特征。
在简要介绍上述相关术语或者名词后,下面对本申请涉及的应用场景进行介绍,以便于本申请领域技术人员理解。
当前,信息流(资讯)和短视频是两个在交互对象领域保持好的增长事态的细分行业,短视频以及信息流持续呈现迅猛的交互对象增长的势头。信息流产品是一个非常好的用作商业变现的产品形态。信息流产品在合适的场景下,为交互对象提供合适的内容,具有如下特点:适合手机屏幕,手指上下滑动,如水流般源源不断;数据量足够大,能够不断刷出新内容。从交互对象层面,信息流产品对于交互对象价值,主要体现在下面四个方面:便捷阅读;相对于传统的书籍,杂志,信息流产品会是一个便捷的阅读方式;海量信息;新鲜及时;个人兴趣。信息流产品的本质是推荐内容,推荐内容的两种方法:一种是人工运营的方法,人工去筛选一套人工的经验去对新闻价值做出判断;另外一种就是依靠机器,依靠算法去做推荐,这两种推荐内容的方法各有优劣。在自媒体时代,各种不同的声音来自四面八方,“主流媒体”的声音逐渐变弱,人们不再接受被一个“统一的声音”告知对或错,每一个人都在从独立获得的资讯中,对事物做出判断,每天更新的内容是海量的。而人工运营,往往局限于热点内容,就像是冰山一角。冰山之下,是大量的长尾、冷门的内容,必须依赖机器算法做个性化推荐。
短视频是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容,几秒到几分钟不等。内容融合了技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制等主题。由于内容较短,可以单独成片,也可以成为系列栏目。不同于微电影和直播,短视频制作并没有像微电影一样具有特定的表达形式和团队配置要求,具有生产流程简单、制作门槛低、参与性强等特点,又比直播更具有传播价值,超短的制作周期和趣味化的内容对短视频制作团队的文案以及策划功底有着一定的挑战,优秀的短视频制作团队通常依托于成熟运营的自媒体或IP,除了高频稳定的内容输出外,也有强大的粉丝渠道;短视频的出现丰富了新媒体原生广告的形式。目前短视频从一开始的UGC、PGC、其他渠道上传,到专门制造短视频的机构,到MCN,再到专业的短视频App等众多头部流量平台不断崛起,短视频已经成为内容创业和社交媒体平台的重要传播方式之一。短视频在引发了内容创业者的狂欢,冲击着视频媒体平台的同时,其影响力进一步升级,各大资讯平台也展开了一场围绕短视频的争夺战。所以各种各样的短视频内容越来越多也越来越丰富。无论是短视频内容的生产者还是消费者都成为一个巨大的群体。
信息流内容平台,无论是资讯类、社交类、还是视频类,在赢得了流量之后伴生的UGC内容在各个PGC的内容后面展现。评论,针对于事物进行主观或客观的自我印象阐述,属于典型的UGC内容。评论易让人听到不利于自己的一面,因此评论的话语容易产生对方的逆反心理。但由于可以较快地表达自己的想法及感受,广为被大众所使用。评论最重要的在于“评”,只有“评”的准确、精彩,“论”才有价值,才有可能出彩。评得不深入、不到位,则很难具有说服力,也自然失去了评论的真正功能和意义。比如平台不仅有流量,还有更庞大的UGC评论内容,这部分内容本身并不属PGC,但庞大的UGC内容,完全可以和原有的PGC内容相媲美,尽管评论区的内容并不能很好地得到展现,但这些互动显然呈现出了被评论对象的价值以及评论自身的价值。多种多样的内容,评论区作为互动主区域,对于内容消费的延伸和体现交互对象态度成为非常重要的部分。评论内容对于营造内容互动、内容沉浸消费有很重要的作用,需要净化评论生态、运营评论生态。所以UGC评论生态的质量生态管理是非常重要和有意义的工作。
无论是图文还是视频内容在移动互联网时代内容消费获得海量的交互对象和流量,交互对象在消费内容后,还可以和内容进行互动比如评论,还有点赞,分享,转发,收藏等等各种互动行为。这里的评论数据一般为交互对象对消费的信息流内容的评论。互动评论数据多为非正式的书面评论,存在诸多非法字符比如表情、符号等,往往需要通过数据清洗预处理完成数据的处理。清洗后的数据可以基于自然语言处理相关技术(词法分析、句法分析、信息抽取、主旨话题模型)进行分析和挖掘。通过文本分析解读交互对象的关注焦点、主要讨论话题、交互对象的情感倾向,以及主要评论的主体对象挖掘等。评论内容本身是由内容延伸和拓展出来的各种感悟,本身也是延展的内容。比如有情趣的思想火花,或者也可以是直接拓贴,那些喜欢的段落和句子,以表示认真读过写着这些精美绝妙的文字的。评论互动,这对自媒体作者和读者而言,都是鼓励彼此前行的最强劲的动力源泉,也是给其他消费内容的交互对象一个很好的示范,对增加内容消费时长很有帮助,有些交互对象进入内容就是消费评论的,评论也是内容的一部分。不同交互对象的不同评论,那是不同领域、不同层次、不同世界观、不同生活环境的各种人在直接表达意见和交流。每一个人都在帮其他人从不同角度认识事物。允许交互对象在内容下面发表评论可以使他们更投入,并且保持参与度。公开的对话可以使人们讨论他们的观点并共享新信息,这对发布者也有好处,因为评论还可以引起人们的注意并鼓励页面浏览。
评论通常是序列产生的,为了让评论的内容发挥更多价值,对评论内容的排序和展现就非常重要。相关技术中的信息流内容产生的评论,评论的质量和长短也是参差不齐的,同时内容评论区域展现的区域也是有限的,多页评论内容,后面的评论内容被浏览消费的概率会大大减少,这就涉及到评论内容打分和排序展现,体现评论内容之间的关系和不同评论质量内容的差异。相关的技术方案主要是采用时间线发布顺序,对评论内容进行质量内容过滤后,按照发布时间顺序进行简单排序。这样排序方法没法发挥评论作为内容一部分更大的价值,对增加内容的互动和增加内容消费时长和信息流内容消费的粘性帮助不大,优秀的评论排序算法会为产品带来更多的交互对象留存、更高的互动率,以及更好的社区氛围,相关的技术方案没有充分利用评论区域和评论本身挖掘出来的各种情感维度的特性,同时也没有很好利用评论维度与交互对象的交互操作维度的后验信息,对评论对应的多媒体对象与评论内容本身的相关性考虑也不够充分。
目前技术方案当中评论通常是按时间线发布顺序,过滤掉低质量内容后排序输出,这一技术方案逻辑简单,但是有很多因素缺乏考虑。具体来说,评论本身也是一种内容的延伸,通常评论内容的展示区域大小非常有限,对内容的展现和处理非常重要,能够增加评论区域的消费时长和交互对象的粘性。如果交互对象能够尽早以更直接方式看到优秀的评论内容,可以有效促进内容进一步的消费和交互对象互动,增加内容社区的氛围和更多的交互对象留存、更高的互动率。好的评论内容引发内容消费交互对象讨论和二次回复比如评论的评论,评论的点赞,踩等等互动行为;通过对评论内容的分析有很多低质量的评论,严重的需要过滤,轻度地需要降权处理,这些都是需要考虑因素。
有鉴于此,本申请实施例提供一种评论数据处理方法,该评论数据处理方法充分利用评论信息关联的多媒体对象的多维度特征、交互对象的静态属性特征、交互对象的评论交互操作特征以及评论信息自身特征,对评论信息的自身质量以及该评论信息引导交互对象进行交互的能力进行预测,根据预测结果确定该评论信息的重要程度,根据各评论信息的重要程度可以确定各评论信息的排序结果,从而使得排序结果中较为重要的、对交互对象具备强烈吸引力以及可以引导交互对象进行交互评论信息优先展示,从而提升该评论信息以及该评论信息所对应的多媒体对象的相关信息的传播效率和信息流通能力。进一步地,通过本申请实施例,能够有效利用评论信息关联的多媒体对象,评论信息本身及交互对象各方面的信息,对评论信息的质量做出一个量化的打分度量,有效优化评论区域的内容输出结果,增加交互对象互动活跃度,可以有效改善交互对象的阅读评论的体验;能够将评论转化为内容消费的一部分,评论通常在内容的底部出现,优质评论内容前置展现可以增加对内容的消费,增加交互对象滑动到内容详情页底部的概率,提升多媒体对象曝光量和消费停留时长,改善信息流内容消费的氛围,增强内容整体的趣味和信息量,最终有助于信息流内容人均停留时长的提升和人均消费量提升。
本申请实施例提供的评论数据处理方法涉及人工智能技术以及云技术,下面对此进行简要说明,以便于本领域技术人员理解。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步地说,就是指用摄影机和电脑代替。
人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition,ASR)和语音合成技术(Text To Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来被看好的人机交互方式之一。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
哈达玛积(Hadamard product):是矩阵的一类运算,若A=(aij)和B=(bij)是两个同阶矩阵,若cij=aij×bij,则称矩阵C=(cij)为A和B的哈达玛积,或称基本积。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。
在本申请实施例中,上述应用程序可以是任何能够提供视频信息流内容服务的应用程序。典型地,该应用程序为视频类应用程序。当然,除了视频类应用程序之外,其它类型的应用程序中也可以提供信息流内容服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality,VR)类应用程序、增强现实(Augmented Reality,AR)类应用程序等,本申请实施例对此不作限定。另外,对于不同的应用程序来说,其推送的视频也会有所不同,且相应的功能也会有所不同,这都可以根据实际需求预先进行配置,本申请实施例对此不作限定。可选地,终端10中运行有上述应用程序的客户端。在一些实施例中,上述信息流内容服务涵盖综艺、影视、新闻、财经、体育、娱乐、游戏等诸多垂直内容,并且交互对象可通过上述信息流内容服务享受到文章、图片、小视频、短视频、直播、专题、栏目等众多形式的内容服务。
服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器20 同时为多个终端10中的应用程序提供后台服务。
可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10 以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
具体来说,服务器20可以针对终端10请求展示的多媒体对象,获取该多媒体对象关联的各评论信息,以该各评论信息中的任一评论信息(第一评论信息)为例,获取第一评论信息所对应的多媒体对象;对上述多媒体对象进行媒体特征提取,得到上述多媒体对象对应的媒体特征,上述媒体特征提取包括下述至少之一:视觉特征提取、文本特征提取和标签特征提取;对上述第一评论信息进行内容特征提取,得到上述第一评论信息所对应的语义特征;对目标交互对象信息分别进行静态属性特征提取和交互操作特征提取,得到交互对象静态特征和交互对象交互操作特征,上述交互操作包括上述目标交互对象信息的评论交互操作;根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,对上述第一评论信息进行重要度预测,得到上述第一评论信息所对应的重要度,上述重要度表征上述第一评论信息吸引上述目标交互对象信息对应的交互对象对上述第一评论信息或者上述多媒体对象产生交互操作的能力。
同样的,可以获取其他评论信息,即各第二评论信息各自对应的重要度,按照重要度降序的顺序对上述第一评论信息和各上述第二评论信息形成的评论信息集合进行排序,得到排序结果;触发终端10在目标界面展示上述多媒体对象以及上述排序结果,上述目标界面为上述目标交互对象信息对应的信息展示界面。
请参考图2,其示出了本申请一个实施例提供的评论数据处理方法的流程图。该方法可应用于计算机设备中,上述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤:
步骤210,获取第一评论信息所对应的多媒体对象。
本申请实施例并不限定多媒体对象的来源和类型,其可以为任意具备媒体内容发布作用的媒体发布平台的多媒体对象,该多媒体对象也可以以Feeds的形式向交互对象展示,该多媒体对象可以为视频对象、短视频对象、音频对象、图文对象、文本对象等,本申请实施例对此不做限定。第一评论信息是该多媒体对象的各个评论信息中的任一评论信息。
当然本申请实施例中的评论信息可以为对多媒体对象关联的全部评论信息进行预处理后得到的结果。本申请实施例并不对预处理进行限定,比如,包括繁简转换、大小写归,隐藏文字去除,低俗关键词清洗,还包括情感过滤、敏感过滤等通用过滤,以及规则判别等涉及表情、冗余字符处理等,确保本申请实施例中使用到的评论信息的基础质量。
步骤220,对上述多媒体对象进行媒体特征提取,得到上述多媒体对象对应的媒体特征,上述媒体特征提取包括下述至少之一:视觉特征提取、文本特征提取和标签特征提取。
本申请实施例上述的方法可以基于评论信息处理模型实施,如果上述评论信息处理模型包括第一特征提取器,上述媒体特征提取包括视觉特征提取,上述对上述多媒体对象进行媒体特征提取,得到上述多媒体对象对应的媒体特征,包括:基于上述第一特征提取器对上述多媒体对象进行物体识别和人脸识别,得到视觉特征提取结果。基于上述视觉特征提取结果得到上述媒体特征。
视觉特征可以包括多媒体对象中的若干视频帧中的特征,第一特征提取器主要是利用Vit模型来提取视频帧的特征,ViT是2020年Google团队提出的将 Transformer应用在图像分类的模型,其模型“简单”且效果好,可扩展性强,成为了transformer在计算机视觉领域应用的里程碑著作。物体识别主要用于得到包括多媒体对象当中存在的主体比如建筑,车辆,物品等的识别结果,人脸识别主要是用于得到多媒体对象当中人物和明星识别的结果。
在一些实施例中,上述评论信息处理模型包括第二特征提取器,上述媒体特征提取包括文本特征提取,上述对上述多媒体对象进行媒体特征提取,得到上述多媒体对象对应的媒体特征,包括:基于上述第二特征提取器对上述多媒体对象进行目标提取操作,得到文本特征提取结果,上述目标提取操作包括下述至少之一:提取上述多媒体对象的标题特征、提取上述多媒体对象的帧图像对应的光学字符识别结果中的特征、提取上述多媒体对象的语音信息对应的语音识别结果中的特征。上述基于上述视觉特征提取结果得到上述媒体特征,包括:基于上述视觉特征提取结果和上述文本特征提取结果,得到上述媒体特征。
文本特征主要是上述多媒体对象的标题特征、提取上述多媒体对象的帧图像对应的光学字符识别结果中的特征、提取上述多媒体对象的语音信息对应的语音识别结果中的特征,这一部分如果语音很长,通常通过会对语音识别结果做一个主题识别,简化进行文本特征提取所针对的文本内容信息的数据量。第二特征提取器可以使用基于信息流大规模文本语料的预训练得到的Bert模型。
在一些实施例中,上述标签特征提取包括对预设标签集合进行标签特征提取操作,上述预设标签集合包括下述至少一种标签:上述多媒体对象的表达类型标签、上述多媒体对象的封面图、上述多媒体对象的内容标签。在信息流内容分发的流转过程当中,多媒体对象的表达类型标签可以为短视频标签、音频标签、图文标签、视频标签等。内容标签可以被理解为表征视频类型的多媒体对象的内容的划分结果,比如搞笑视频、历史视频、情感视频等。预设标签集合中的标签可以由发布作者提供或者内容处理流程当中通过内容理解算法处理得到,预设标签集合中的标签可以看做是多媒体对象的内容一个抽象维度的理解,该内容理解算法也可以和前面的文本特征一样,也使用预训练的Bert模型做基础来进行标签化处理。
在一个实施例中,视觉特征提取、文本特征提取和标签特征提取可以分别得到视觉特征、文本特征和标签特征,对这些特征进行融合可以得到上述媒体特征,当然,本申请实施例并不限定融合方法,比如,可以通过卷积、池化、通道内融合等方法来进行上述特征的融合,本申请实施例对此不做限定。
步骤230,对上述第一评论信息进行内容特征提取,得到上述第一评论信息所对应的语义特征。
对第一评论信息的内容特征提取也可以使用前文的预训练的Bert模型,或者使用相关技术中的文本信息提取模型,对此,本申请实施例不做限定。
步骤240,对目标交互对象信息分别进行静态属性特征提取和交互操作特征提取,得到交互对象静态特征和交互对象交互操作特征,上述交互操作包括上述目标交互对象信息的评论交互行。
本申请实施例中静态属性特征提取和交互操作特征提取的具体方法可以不做限定,比如,可以使用卷积网络、编解码器等相关技术进行特征提取的具体操作。在一些实施例中,该静态属性特征可以为交互对象完备信息中的部分或者全部信息的特征提取结果,而交互操作特征为交互对象的行为完备信息,尤其是交互对象评论行为完备信息中的部分或者全部信息的特征提取结果。举个例子,交互对象完备信息可以包括交互对象性别、年龄,教育程度,地域,手机品牌、手机价格等统计信息,这些主要是最终有助于实现评论信息的弱的个性化排序,对整体评论信息的展现能力和吸引交互对象进行交互的能力有提升。交互对象的行为完备信息包括点击标签、点赞、分享、评论、关注、多媒体对象停留时长、回复评论、点击进入评论详情、赞评论、取消赞评论、不感兴趣、取消赞、踩评论、取消踩等。
对交互对象完备信息、交互对象的行为完备信息中的内容可以经过离散化处理,然后对离散化结果进行静态属性特征提取和交互操作特征提取,得到交互对象静态特征和交互对象交互操作特征。
步骤250,根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,对上述第一评论信息进行重要度预测,得到上述第一评论信息所对应的重要度,上述重要度表征上述第一评论信息吸引上述目标交互对象信息对应的交互对象对上述第一评论信息或者上述多媒体对象产生交互操作的能力。
在一个实施例中,请参考图3,其示出重要度预测方法流程示意图。上述语义特征包括上述第一评论信息本身的内容特征以及上述第一评论信息关联的回复评论的内容特征,上述根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,对上述第一评论信息进行重要度预测,得到上述第一评论信息所对应的重要度,包括:
步骤310,根据上述第一评论信息本身的内容特征和上述媒体特征,预测上述第一评论信息的信息质量,上述信息质量表征上述第一评论信息本身的内容质量以及上述第一评论信息与上述多媒体对象的相关度。
第一评论信息的信息质量也可以被理解为第一评论信息的采纳启用的情况,比如低俗,谩骂,不相关等评论质量问题有不同的程度,如果是重度直接过滤不予采纳,对于轻度的是需要被降权,展现在评论区域的尾部的,此时这些轻度问题的评论就不会排期在前,属于需要减少关注的内容,也就是说信息质量较差的评论信息可以被认为是本身的内容质量以及上述第一评论信息与上述多媒体对象的相关度一般,需要放在评论区域的尾部,单独预测上述第一评论信息的信息质量能够更好地关注到文本内容本身的语义特征。
步骤320,根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,预测上述第一评论信息的交互吸引度,上述交互吸引度表征上述第一评论信息吸引上述目标交互对象信息对应的交互对象对上述第一评论信息产生预设交互操作的能力。
预设交互操作可以是评论的点赞率,回复率,展开评论比例和停留时长等等。步骤S310可以被理解为评论信息处理模型的第一预测阶段,步骤S320可以被理解为评论信息处理模型的第二预测阶段,分阶段预测可以使得评论信息处理模型对于评论信息文本内容本身的语义特征足够关注,并且对于上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征也足够关注,分别提升上述第一评论信息的信息质量和上述第一评论信息的交互吸引度的预测准确度。
步骤330,根据上述信息质量和上述交互吸引度,确定上述第一评论信息对应的重要度。
本申请实施例并不限定根据上述信息质量和上述交互吸引度,确定上述第一评论信息对应的重要度的具体步骤,比如,可以通过信息质量分表示步骤S310 的输出结果,可以通过吸引度分表示步骤S320的输出结果。通过信息质量分和吸引度分的加权求和结果得到上述重要度,当然,权值可以根据情况进行设定,本申请实施例不做限定。
在一个实施例中,上述根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,预测上述第一评论信息的交互吸引度,包括:在上述信息质量满足预设质量要求的情况下,根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,预测上述第一评论信息的交互吸引度;上述根据上述信息质量和上述交互吸引度,确定上述第一评论信息对应的重要度,包括:在上述信息质量不满足预设质量要求的情况下,将上述重要度设定为预设值。
本申请实施例并不对预设质量要求做出限定,比如,该预设质量要求可以是信息质量分阈值,如果第一评论信息的信息质量高于该信息质量分阈值,则可以认为信息质量满足预设质量要求,从而进入第二阶段的预测,否则,可以无需进入第二阶段的预测,直接将重要度设定为预设值,该预设值表征评论信息不重要,可以在评论区尾部展示,如果有若干评论信息都是对应于该预设值,则该若干评论信息可以按照发布的时间顺序在评论区尾部进行展示。通过设置预设质量要求可以对于明显信息质量过低的评论无需进行第二阶段的预测,从而提升重要度的输出速度,降低评论信息处理模型的负荷。
在一个实施例中,上述评论信息处理模型包括跨模态融合器,上述跨模态融合器用于通过显式的构造高阶特征交互,提取交叉组合特征,从而完成不同模态特征的融合;比如,该跨模态融合器可以为跨模态Transformer结构。这里跨模态融合器中的Transformer结构用于显式的构造高阶特征交互,提取交叉组合特征,避免传统机器学习中的人工手造特征的过程,网络结构简单复杂度可控。
上述根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,对上述第一评论信息进行重要度预测,得到上述第一评论信息所对应的重要度,包括:将上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征输入上述跨模态融合器,得到融合结果;对上述融合结果进行逻辑回归,得到上述第一评论信息所对应的重要度。
当然,对于多媒体对象而言,该多媒体对象可以携带多个评论信息,除了第一评论信息之外,还可以获取上述多媒体对象对应的至少一个第二评论信息;确定每一上述第二评论信息所对应的重要度;该重要度的确定方法可以参考前文,在此不做赘述。按照重要度降序的顺序对上述第一评论信息和各上述第二评论信息形成的评论信息集合进行排序,得到排序结果;在目标界面展示上述多媒体对象以及上述排序结果,上述目标界面为上述目标交互对象信息对应的信息展示界面。上述目标界面中对于排序头部的评论信息可能标记为燃评,同时这些评论有明显的后验交互比如赞,回复等等。
本申请实施例这方法可以基于评论信息处理模型实施,该评论信息处理模型示意图请参考图4,其可以包括第一特征提取器、第二特征提取器、第三特征提取器和跨模态融合器,其中,第一特征提取器、第二特征提取器分别用于提取多媒体对象的视觉特征、文本特征,第三特征提取器可以用于提取多媒体对象的标签特征、评论信息的文本内容特征、以及交互对象相关的特征,第一特征提取器、第二特征提取器、第三特征提取器提取到的特征都被输入跨模态融合器进行多维信息的融合,然后对上述融合结果进行逻辑回归,得到上述第一评论信息所对应的重要度。具体来说,上述评论信息处理模型中,第一特征提取器、第二特征提取器、第三特征提取器都与跨模态融合器连接,上述评论信息处理模型中还包括第一拟合层、第二拟合层、归一化层,上述第一拟合层和上述第二拟合层分别与上述跨模态融合器连接,上述第一拟合层和上述第二拟合层与上述归一化层连接,上述跨模态融合器用于通过显式的构造高阶特征交互,提取交叉组合特征,从而完成不同模态特征的融合。将上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征输入上述跨模态融合器进行特征融合,得到融合结果;将上述融合结果输入上述第一拟合层进行质量分拟合操作,得到上述第一评论信息的质量分信息,上述质量分信息表征上述第一评论信息的信息质量;将上述融合结果输入上述第二拟合层进行交互吸引度拟合操作,得到上述第一评论信息的交互吸引度信息;将上述第一评论信息的质量分信息,以及上述第一评论信息的交互吸引度信息输入上述归一化层进行归一化操作,得到各自对应的归一化结果;对各上述归一化结果进行加权求和得到上述第一评论信息所对应的重要度。上述过程体现了对上述融合结果进行逻辑回归可以分为第一阶段和第二阶段,第一阶段可以进行质量分拟合,得到质量分信息,以及对上述第一评论信息的质量分信息进行归一化操作,得到第一评论信息的信息质量分,第二阶段可以进行评论交互度拟合,得到评论交互度信息。对上述第一评论信息的交互吸引度信息进行基于归一化操作,得到第一评论信息的交互吸引度,对该信息质量分和交互吸引度进行加权,可以得到上述第一评论信息对应的重要度,当然,权值不做限定,可以根据实际情况进行调整。
上述评论信息处理模型中各个特征提取器可以使用相关技术,因此,在一些实施例中可以对于跨模态融合器、第一拟合层、第二拟合层的参数进行调整,从而完成评论信息处理模型的训练过程。简单来说,评论信息处理模型的训练过程包括下述内容:
获取多个样本评论信息,以及每一上述样本评论信息对应的样本多媒体对象和标注信息,上述标准信息包括质量分标注和针对样本交互对象的交互吸引度标注。基于上述第一特征提取器和上述第二特征提取器对上述样本多媒体对象进行媒体特征提取,得到上述样本多媒体对象对应的样本媒体特征。基于上述第三特征提取器得到上述样本评论信息所对应的样本语义特征,以及样本交互对象静态特征和样本交互对象交互操作特征。将上述样本媒体特征、上述样本语义特征、上述样本交互对象静态特征和上述样本交互对象交互操作特征输入上述跨模态融合器进行特征融合,得到样本融合结果。将上述样本融合结果输入上述第一拟合层进行质量分拟合操作,得到上述样本评论信息的样本质量分信息。将上述样本融合结果输入上述第二拟合层进行交互吸引度拟合操作,得到上述样本评论信息的样本交互吸引度信息。将上述样本质量分信息,以及上述样本交互吸引度信息输入上述归一化层进行归一化操作,得到各自对应的归一化结果。根据上述样本质量分信息对应的归一化结果与上述质量分标注之间的差异确定第一损失,根据上述第一损失调整上述跨模态融合器和上述第一拟合层的参数。根据上述样本交互吸引度信息与上述交互吸引度之间的差异确定第二损失,根据上述第二损失调整上述跨模态融合器和上述第二拟合层的参数。
其中,样本交互对象为对样本评论信息有交互行为的对象。质量分标注可以使用先验信息,即人工确定的样本评论信息的信息质量。样本交互对象的交互吸引度标注可以使用后验信息,即样本评论信息在样本多媒体对象的呈现过程中吸引交互对象产生的交互表现。本申请实施例对于第一损失和第二损失不做限定,其可以使用交叉熵损失,当然,本申请实施例对于两个拟合层以及跨模态融合器的调参方法不做限定,可以使用梯度下降法。本申请实施例对于训练停止条件也不做限定,比如,可以在第一损失和第二损失均小于预设的损失阈值的情况下停止训练,或者在调参次数总和达到预设次数阈值的情况下停止训练。当然,本申请实施例不对损失阈值和次数阈值进行限定,可以根据实际情况来设置。
本申请实施例采用一个双阶段基于深度学习网络训练的网络模型——评论信息处理模型,充分利用评论信息对应的多媒体对象的媒体特征进行处理,具体来说包括视觉特征,文本特征和标签特征,以及评论信息本身的文本特征,同时利用交互对象完备信息比如年龄,性别等和交互对象交互操作特征,包括交互对象评论内容交互操作,比如对评论的点赞,回复,踩等行为,正向行为越多,说明评论本身越被认可,反之排序靠后需要沉淀到尾部,这里直接收集到交互对象完备信息及行为信息,对评论信息的重要度进行预测,根据预测结果排序。从而使得排序结果中较为重要的、对交互对象具备强烈吸引力以及可以引导交互对象进行交互的评论信息优先展示,从而提升该评论信息以及该评论信息所对应的多媒体对象的相关信息的传播效率和信息流通能力。进一步地,通过本申请实施例,能够有效利用评论信息关联的多媒体对象,评论信息本身及交互对象各方面的信息,对评论信息的质量做出一个量化的打分度量,有效优化评论区域的内容输出结果,增加交互对象互动活跃度,可以有效改善交互对象的阅读评论的体验;能够将评论转化为内容消费的一部分,评论通常在内容的底部出现,优质评论内容前置展现可以增加对内容的消费,增加交互对象滑动到内容详情页底部的概率,提升多媒体对象曝光量和消费停留时长,改善信息流内容消费的氛围,增强内容整体的趣味和信息量,最终有助于信息流内容人均停留时长的提升和人均消费量提升。
本申请实施例能够有效利用评论信息对应的多媒体对象,评论信息本身及交互对象各方面的信息,对评论信息做出一个量化的打分度量——重要度,有效优化评论区域的内容输出结果,增加交互对象互动活跃度,可以有效改善交互对象的阅读评论的体验。能够将评论转化为内容消费的一部分,增加交互对象滑动到内容详情页底部的概率,提升内容曝光量和消费停留时长。能够充分利用评论质量模型输出的结果和复用相关的模型结果数据,参与评论打分排序模型的构建,改善信息流内容消费的氛围,最终有助于信息流内容人均停留时长的提升和人均消费量提升
在示例性实施例中,上述评论数据处理方法可应用于信息流内容服务系统。请参考图5所示,其示例性示出了一种信息流内容服务系统的技术框架示意图。图5所示的信息流内容服务系统中各个服务模块及其主要功能如下。
一、内容生产端和内容消费端
(1)PGC或者UGC以及MCN或者PUGC的内容生产者,通过移动端或者后端接口API(Application Programming Interface,应用程序接口)系统,提供多媒体对象,如视频内容对象、图文内容对象、图集内容对象的发布入口,上述发布入口获取的多媒体对象都是信息流内容服务的主要内容来源。
(2)内容生产端通过和上下行内容接口服务的通讯来上传发布多媒体对象。内容生产端可以先获取上传服务器的接口地址,然后在上传本地文件。其中,视频内容发布通常是一个具有拍摄功能的终端作为摄影端,拍摄过程当中交互对象可以为本地视频内容选择搭配的音乐,并进行相应的剪辑,选择封面图,滤镜模板和视频的美化功能等等操作,图文内容通常是通过一个图文编辑器和排版系统发布。
(3)内容消费端通过和上下行内容接口服务的通讯来获取多媒体对象的索引信息,并根据上述索引信息从内容存储服务中直接获取多媒体对象源文件,然后加载多媒体对象源文件向交互对象进行展示。上述索引信息可以是交互对象专题订阅的多媒体对象的索引信息。内容存储服务器存储的是多媒体对象实体,比如视频源文件,封面图的图片源文件,而多媒体对象的元信息,比如标题,作者,封面图,分类,标签信息等等存储在内容数据库。
(4)内容生产端和内容消费端同时将上传和下载过程当中的日志数据、卡顿、加载时间、播放点击等数据上报给上下行内容接口服务器或者另外的后台服务器,用于后续的数据统计分析。
(5)内容消费端通常通过Feeds流的方式向交互对象展示内容,以使交互对象浏览消费内容数据。消费端消费内容的互动信息,重点是对内容的评论UGC 短文本,评论点赞,评论二次回复,踩等互动态度流的信息通过统计上报接口上报,评论本身发表业务逻辑处理和评论业务服务器交互完成;
(6)评论内容的低质举报也会标记上报到评论数据库,在作为样本之前经过人工复核,由人工标记部分也会保存在评论样本与特征数据库当中,供评论模型建模读取样本;
二、上下行内容接口服务器
(1)与内容生产端直接通讯,获取从内容生产端提交的数据,通常包括多媒体对象的标题、信息发布对象、摘要、封面图、发布时间等元信息。
(2)写入元信息至内容数据库,比如将文件大小、封面图链接、标题、发布时间、信息发布对象等信息写入内容数据库。
(3)将内容生产端发布提交的多媒体对象同步给调度中心服务器,以使调度中心服务器进行后续的多媒体对象处理和流转,包括质量处理和内容理解处理,比如挖掘多媒体对象的高阶语义标签等。
三、内容数据库
(1)内容数据库是多媒体对象的核心数据库,所有内容生产端发布的多媒体对象的元信息都保存在这个内容数据库,重点存储多媒体对象本身的元信息,比如文件大小、封面图链接、码率、文件格式、标题,发布时间、信息发布对象、文件大小、文件格式、原创标记、首发标记以及人工审核过程中对多媒体对象的分类标签信息。上述分类标签信息包括一、二、三级别分类和标签信息,比如一篇讲解某某牌手机的视频,一级分类是科技,二级分类是智能手机,三级分类是国内手机,标签信息可以包括基础标签,如某某牌、型号,也可以包括高阶语义标签,如“省电手机”、“待机时间长”、“某某人群最爱用的手机”等。
(2)上下行内容接口服务在收到多媒体对象元文件的时候会进行标准的转码操作,转码完成后异步返回元信息,主要是文件大小、码率、规格、截取封面图,这些元信息都会保存在内容数据库当中。
(3)人工审核系统在人工审核过程当中会读取内容数据库当中的信息,同时人工审核结果和状态也会由人工审核系统回传进入内容数据库。
(4)调度中心服务器对内容处理主要包括机器处理和人工审核处理,这里机器处理的核心过程包括调用内容排重服务识别完全重复和相似的内容,排重结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理,节省审核的人力资源。
四、调度中心服务器
(1)调度中心服务器负责多媒体对象流转的整个调度过程,通过上下行内容接口服务接收的多媒体对象,然后从内容数据库中获取多媒体对象的元信息。
(2)调度人工审核系统和精准校验服务,控制调度的顺序和优先级。
(3)对于多媒体对象,先和召回检索服务通讯,然后和内容排重服务通讯,识别重复或者相似的多媒体对象。
(4)没有达到重复或相似的多媒体对象,输出多媒体对象之间的内容相似度和相似关系链,供推荐系统打散使用。
(5)通过启用内容分发服务,通常如推荐引擎或者搜索引擎或者运营直接的展示页面,将通过人工审核系统的多媒体对象提供给终端展示。
(6)负责和高阶语义标签挖掘服务通讯,完成多媒体对象的高阶语义标签挖掘补充处理。
五、人工审核系统
(1)需要读取内容数据库中多媒体对象本身的原始信息,通常是一个业务复杂的基于web(网络)数据库开发的系统,通过人工来对多媒体对象是否涉及异常信息进行判断,从而进行一轮初步过滤。
(2)在初步审核的基础之上,对多媒体对象进行二次审核,主要是对多媒体对象进行分类、标注标签或确认标签。通过在机器处理的结果上进行二次的人工审核处理,通过人机协作,提升多媒体对象对应的标签的准确性和标注效率。
(3)本申请实施例当中提到的关于高阶语义标签集合的处理可以借助人工审核系统来核对和整理。
六、内容排重服务
(1)和调度中心服务器进行通讯,主要任务包括标题去重、封面图的图片去重、内容正文去重及视频指纹和音频指纹去重。对于图文内容对象,通常是将图文内容对象的标题和正文向量化,采用simmhash(文本指纹)及BERT等方式生成正文特征向量并去重,确定图片特征向量并去重。对于视频内容对象,抽取视频指纹和音频指纹构建视频特征向量,然后计算视频特征向量之间的距离,比如欧式距离来确定视频内容是否重复。
七.统计上报接口与分析服务
(1)和内容消费端通讯,接收上报上来的内容评论UGC短文本,评论点赞,踩,收藏等互动信息;
(2)为评论排序服务提供评论互动数据的收益指标统计;
八.评论内容数据库
(1)和评论业务服务通讯,接收和保存终端上报的评论原始流水数据;
(2)与评论打分模型通讯,提供原始评论数据服务进行评论的质量标记;
(3)与评论排序服务通讯,提供评论的数据参与排序的数据源;
九.交互对象完备信息与交互操作特征服务
(1)按照上面描述的样本收集和标记方式,与统计上报接口与分析服务服务,获取交互对象完备信息与交互对象的行为比如行为类型。
十.评论业务服务
(1)和终端通讯,完成评论业务的主要功能,比如评论的发表,完成评论的读写,评论互动功能的实现等;
(2)和服务化后的评论打分服务通讯,得到评论排序的结果,然后输出到终端供终端展现;
十一.评论打分模型——评论信息处理模型
构建双阶段的训练模型,最后计算评论信息的重要度,用于评论区域的排序;
十二.评论样本与特征库
与交互对象完备信息与交互操作特征服务通讯,获取建模需要的完备信息和行为发明的特征;
和内容数据库保持通讯,获取内容数据当中关于Feeds内容的各种原始Meta 信息,用于评论打分模型的建模。
下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图6,其示出了本申请一个实施例提供的评论数据处理装置的框图。该装置具有实现上述评论数据处理方法的功能,上述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置可以包括:
处理数据获取模块610,用于获取第一评论信息所对应的多媒体对象;
多模态特征提取模块620,用于对上述多媒体对象分别进行视觉特征提取、文本特征提取和标签特征提取,得到上述多媒体对象对应的媒体特征;对上述第一评论信息进行内容特征提取,得到上述第一评论信息所对应的语义特征;以及,对目标交互对象信息分别进行静态属性特征提取和交互操作特征提取,得到交互对象静态特征和交互对象交互操作特征,上述交互操作包括上述目标交互对象信息的评论交互操作;
重要度预测模块630,用于根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,对上述第一评论信息进行重要度预测,得到上述第一评论信息所对应的重要度,上述重要度表征上述第一评论信息吸引上述目标交互对象信息对应的交互对象对上述第一评论信息或者上述多媒体对象产生交互操作的能力。
在示例性实施例中,上述装置还包括展示触发模块,上述展示触发模块用于执行下述操作:
获取上述多媒体对象对应的至少一个第二评论信息;
确定每一上述第二评论信息所对应的重要度;
按照重要度降序的顺序对上述第一评论信息和各上述第二评论信息形成的评论信息集合进行排序,得到排序结果;
在目标界面展示上述多媒体对象以及上述排序结果,上述目标界面为上述目标交互对象信息对应的信息展示界面。
在示例性实施例中,上述语义特征包括上述第一评论信息本身的内容特征以及上述第一评论信息关联的回复评论的内容特征,上述重要度预测模块,用于执行下述操作:
根据上述第一评论信息本身的内容特征和上述媒体特征,预测上述第一评论信息的信息质量,上述信息质量表征上述第一评论信息本身的内容质量以及上述第一评论信息与上述多媒体对象的相关度;
根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,预测上述第一评论信息的交互吸引度,上述交互吸引度表征上述第一评论信息吸引上述目标交互对象信息对应的交互对象对上述第一评论信息产生预设交互操作的能力;
根据上述信息质量和上述交互吸引度,确定上述第一评论信息对应的重要度。
在示例性实施例中,上述重要度预测模块,用于执行下述操作:
在上述信息质量满足预设质量要求的情况下,根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,预测上述第一评论信息的交互吸引度;
在上述信息质量不满足预设质量要求的情况下,将上述重要度设定为预设值。
在示例性实施例中,上述评论信息处理模型包括跨模态融合器、第一拟合层、第二拟合层、归一化层,上述第一拟合层和上述第二拟合层分别与上述跨模态融合器连接,上述第一拟合层和上述第二拟合层与上述归一化层连接,上述跨模态融合器用于通过显式的构造高阶特征交互,提取交叉组合特征,从而完成不同模态特征的融合;
上述重要度预测模块,用于执行下述操作:
将上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征输入上述跨模态融合器进行特征融合,得到融合结果;
将上述融合结果输入上述第一拟合层进行质量分拟合操作,得到上述第一评论信息的质量分信息,上述质量分信息表征上述第一评论信息的信息质量;
将上述融合结果输入上述第二拟合层进行交互吸引度拟合操作,得到上述第一评论信息的交互吸引度信息;
将上述第一评论信息的质量分信息,以及上述第一评论信息的交互吸引度信息输入上述归一化层进行归一化操作,得到各自对应的归一化结果;
对各上述归一化结果进行加权求和得到上述第一评论信息所对应的重要度。
在示例性实施例中,上述装置基于评论信息处理模型工作,上述评论信息处理模型包括第一特征提取器,上述第一特征提取器与上述跨模态融合器连接,
上述多模态特征提取模块,用于执行下述操作:
基于上述第一特征提取器对上述多媒体对象进行物体识别和人脸识别,得到视觉特征提取结果;
基于上述视觉特征提取结果得到上述媒体特征。
在示例性实施例中,上述评论信息处理模型包括第二特征提取器,上述第二特征提取器与上述跨模态融合器连接,上述多模态特征提取模块,用于执行下述操作:
基于上述第二特征提取器对上述多媒体对象进行目标提取操作,得到文本特征提取结果,上述目标提取操作包括下述至少之一:提取上述多媒体对象的标题特征、提取上述多媒体对象的帧图像对应的光学字符识别结果中的特征、提取上述多媒体对象的语音信息对应的语音识别结果中的特征;
基于上述视觉特征提取结果和上述文本特征提取结果,得到上述媒体特征。
在示例性实施例中,上述标签特征提取包括对预设标签集合进行标签特征提取操作,上述预设标签集合包括下述至少一种标签:上述多媒体对象的表达类型标签、上述多媒体对象的封面图、上述多媒体对象的内容标签。
在示例性实施例中,上述评论信息处理模型还包括第三特征提取器,上述第三特征提取器与上述跨模态融合器连接,上述装置还包括训练模块,上述训练模块用于执行下述操作:
获取多个样本评论信息,以及每一上述样本评论信息对应的样本多媒体对象和标注信息,上述标准信息包括质量分标注和针对样本交互对象的交互吸引度标注;
基于上述第一特征提取器和上述第二特征提取器对上述样本多媒体对象进行媒体特征提取,得到上述样本多媒体对象对应的样本媒体特征;
基于上述第三特征提取器得到上述样本评论信息所对应的样本语义特征,以及样本交互对象静态特征和样本交互对象交互操作特征;
将上述样本媒体特征、上述样本语义特征、上述样本交互对象静态特征和上述样本交互对象交互操作特征输入上述跨模态融合器进行特征融合,得到样本融合结果;
将上述样本融合结果输入上述第一拟合层进行质量分拟合操作,得到上述样本评论信息的样本质量分信息;
将上述样本融合结果输入上述第二拟合层进行交互吸引度拟合操作,得到上述样本评论信息的样本交互吸引度信息;
将上述样本质量分信息,以及上述样本交互吸引度信息输入上述归一化层进行归一化操作,得到各自对应的归一化结果;
根据上述样本质量分信息对应的归一化结果与上述质量分标注之间的差异确定第一损失,根据上述第一损失调整上述跨模态融合器和上述第一拟合层的参数;
根据上述样本交互吸引度信息与上述交互吸引度之间的差异确定第二损失,根据上述第二损失调整上述跨模态融合器和上述第二拟合层的参数。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图7,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器,以用于执行上述评论数据处理方法。具体来讲:
计算机设备1600包括中央处理单元(Central Processing Unit,CPU)1601、包括随机存取存储器(Random Access Memory,RAM)1602和只读存储器(Read Only Memory,ROM)1603的系统存储器1604,以及连接系统存储器1604和中央处理单元1601的系统总线1605。计算机设备1600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1606,和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1607。
基本输入/输出系统1606包括有用于显示信息的显示器1608和用于交互对象输入信息的诸如鼠标、键盘之类的输入设备1609。其中显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。大容量存储设备1607及其相关联的计算机可读介质为计算机设备1600提供非易失性存储。也就是说,大容量存储设备1607 可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘) 驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。
根据本申请的各种实施例,计算机设备1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1600可以通过连接在系统总线1605上的网络接口单元1611连接到网络1612,或者说,也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述评论数据处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、上述至少一段程序、上述代码集或上述指令集在被处理器执行时以实现上述评论数据处理方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述评论数据处理方法,具体来说该方法为一种评论数据处理方法,上述方法包括:
获取第一评论信息所对应的多媒体对象;
对上述多媒体对象进行媒体特征提取,得到上述多媒体对象对应的媒体特征,上述媒体特征提取包括下述至少之一:视觉特征提取、文本特征提取和标签特征提取;
对上述第一评论信息进行内容特征提取,得到上述第一评论信息所对应的语义特征;
对目标交互对象信息分别进行静态属性特征提取和交互操作特征提取,得到交互对象静态特征和交互对象交互操作特征,上述交互操作包括上述目标交互对象信息的评论交互操作;
根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,对上述第一评论信息进行重要度预测,得到上述第一评论信息所对应的重要度,上述重要度表征上述第一评论信息吸引上述目标交互对象信息对应的交互对象对上述第一评论信息或者上述多媒体对象产生交互操作的能力。
在一个实施例中,上述方法还包括:
获取上述多媒体对象对应的至少一个第二评论信息;
确定每一上述第二评论信息所对应的重要度;
按照重要度降序的顺序对上述第一评论信息和各上述第二评论信息形成的评论信息集合进行排序,得到排序结果;
在目标界面展示上述多媒体对象以及上述排序结果,上述目标界面为上述目标交互对象信息对应的信息展示界面。
在一个实施例中,上述语义特征包括上述第一评论信息本身的内容特征以及上述第一评论信息关联的回复评论的内容特征,上述根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,对上述第一评论信息进行重要度预测,得到上述第一评论信息所对应的重要度,包括:
根据上述第一评论信息本身的内容特征和上述媒体特征,预测上述第一评论信息的信息质量,上述信息质量表征上述第一评论信息本身的内容质量以及上述第一评论信息与上述多媒体对象的相关度;
根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,预测上述第一评论信息的交互吸引度,上述交互吸引度表征上述第一评论信息吸引上述目标交互对象信息对应的交互对象对上述第一评论信息产生预设交互操作的能力;
根据上述信息质量和上述交互吸引度,确定上述第一评论信息对应的重要度。
在一个实施例中,上述根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,预测上述第一评论信息的交互吸引度,包括:
在上述信息质量满足预设质量要求的情况下,根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,预测上述第一评论信息的交互吸引度;
上述根据上述信息质量和上述交互吸引度,确定上述第一评论信息对应的重要度,包括:
在上述信息质量不满足预设质量要求的情况下,将上述重要度设定为预设值。
在一个实施例中,上述评论信息处理模型包括跨模态融合器、第一拟合层、第二拟合层、归一化层,上述第一拟合层和上述第二拟合层分别与上述跨模态融合器连接,上述第一拟合层和上述第二拟合层与上述归一化层连接,上述跨模态融合器用于通过显式的构造高阶特征交互,提取交叉组合特征,从而完成不同模态特征的融合;
上述根据上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征,对上述第一评论信息进行重要度预测,得到上述第一评论信息所对应的重要度,包括:
将上述媒体特征、上述语义特征、上述交互对象静态特征和上述交互对象交互操作特征输入上述跨模态融合器进行特征融合,得到融合结果;
将上述融合结果输入上述第一拟合层进行质量分拟合操作,得到上述第一评论信息的质量分信息,上述质量分信息表征上述第一评论信息的信息质量;
将上述融合结果输入上述第二拟合层进行交互吸引度拟合操作,得到上述第一评论信息的交互吸引度信息;
将上述第一评论信息的质量分信息,以及上述第一评论信息的交互吸引度信息输入上述归一化层进行归一化操作,得到各自对应的归一化结果;
对各上述归一化结果进行加权求和得到上述第一评论信息所对应的重要度。
在一个实施例中,上述方法基于评论信息处理模型实施,上述评论信息处理模型包括第一特征提取器,上述第一特征提取器与上述跨模态融合器连接,
上述媒体特征提取包括视觉特征提取,上述对上述多媒体对象进行媒体特征提取,得到上述多媒体对象对应的媒体特征,包括:
基于上述第一特征提取器对上述多媒体对象进行物体识别和人脸识别,得到视觉特征提取结果;
基于上述视觉特征提取结果得到上述媒体特征。
在一个实施例中,上述评论信息处理模型包括第二特征提取器,上述第二特征提取器与上述跨模态融合器连接,上述媒体特征提取包括文本特征提取,上述对上述多媒体对象进行媒体特征提取,得到上述多媒体对象对应的媒体特征,包括:
基于上述第二特征提取器对上述多媒体对象进行目标提取操作,得到文本特征提取结果,上述目标提取操作包括下述至少之一:提取上述多媒体对象的标题特征、提取上述多媒体对象的帧图像对应的光学字符识别结果中的特征、提取上述多媒体对象的语音信息对应的语音识别结果中的特征;
上述基于上述视觉特征提取结果得到上述媒体特征,包括:
基于上述视觉特征提取结果和上述文本特征提取结果,得到上述媒体特征。
在一个实施例中,上述标签特征提取包括对预设标签集合进行标签特征提取操作,上述预设标签集合包括下述至少一种标签:上述多媒体对象的表达类型标签、上述多媒体对象的封面图、上述多媒体对象的内容标签。
在一个实施例中,上述评论信息处理模型还包括第三特征提取器,上述第三特征提取器与上述跨模态融合器连接,上述方法还包括:
获取多个样本评论信息,以及每一上述样本评论信息对应的样本多媒体对象和标注信息,上述标准信息包括质量分标注和针对样本交互对象的交互吸引度标注;
基于上述第一特征提取器和上述第二特征提取器对上述样本多媒体对象进行媒体特征提取,得到上述样本多媒体对象对应的样本媒体特征;
基于上述第三特征提取器得到上述样本评论信息所对应的样本语义特征,以及样本交互对象静态特征和样本交互对象交互操作特征;
将上述样本媒体特征、上述样本语义特征、上述样本交互对象静态特征和上述样本交互对象交互操作特征输入上述跨模态融合器进行特征融合,得到样本融合结果;
将上述样本融合结果输入上述第一拟合层进行质量分拟合操作,得到上述样本评论信息的样本质量分信息;
将上述样本融合结果输入上述第二拟合层进行交互吸引度拟合操作,得到上述样本评论信息的样本交互吸引度信息;
将上述样本质量分信息,以及上述样本交互吸引度信息输入上述归一化层进行归一化操作,得到各自对应的归一化结果;
根据上述样本质量分信息对应的归一化结果与上述质量分标注之间的差异确定第一损失,根据上述第一损失调整上述跨模态融合器和上述第一拟合层的参数;
根据上述样本交互吸引度信息与上述交互吸引度之间的差异确定第二损失,根据上述第二损失调整上述跨模态融合器和上述第二拟合层的参数。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
另外,在本申请的具体实施方式中,涉及到交互对象信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得交互对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上上述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种评论数据处理方法,其特征在于,所述方法包括:
获取第一评论信息所对应的多媒体对象;
对所述多媒体对象进行媒体特征提取,得到所述多媒体对象对应的媒体特征,所述媒体特征提取包括下述至少之一:视觉特征提取、文本特征提取和标签特征提取;
对所述第一评论信息进行内容特征提取,得到所述第一评论信息所对应的语义特征;
对目标交互对象信息分别进行静态属性特征提取和交互操作特征提取,得到交互对象静态特征和交互对象交互操作特征,所述交互操作包括所述目标交互对象信息的评论交互操作;
根据所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征,对所述第一评论信息进行重要度预测,得到所述第一评论信息所对应的重要度,所述重要度表征所述第一评论信息吸引所述目标交互对象信息对应的交互对象对所述第一评论信息或者所述多媒体对象产生交互操作的能力。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述多媒体对象对应的至少一个第二评论信息;
确定每一所述第二评论信息所对应的重要度;
按照重要度降序的顺序对所述第一评论信息和各所述第二评论信息形成的评论信息集合进行排序,得到排序结果;
在目标界面展示所述多媒体对象以及所述排序结果,所述目标界面为所述目标交互对象信息对应的信息展示界面。
3.根据权利要求1或2所述的方法,其特征在于,所述语义特征包括所述第一评论信息本身的内容特征以及所述第一评论信息关联的回复评论的内容特征,所述根据所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征,对所述第一评论信息进行重要度预测,得到所述第一评论信息所对应的重要度,包括:
根据所述第一评论信息本身的内容特征和所述媒体特征,预测所述第一评论信息的信息质量,所述信息质量表征所述第一评论信息本身的内容质量以及所述第一评论信息与所述多媒体对象的相关度;
根据所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征,预测所述第一评论信息的交互吸引度,所述交互吸引度表征所述第一评论信息吸引所述目标交互对象信息对应的交互对象对所述第一评论信息产生预设交互操作的能力;
根据所述信息质量和所述交互吸引度,确定所述第一评论信息对应的重要度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征,预测所述第一评论信息的交互吸引度,包括:
在所述信息质量满足预设质量要求的情况下,根据所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征,预测所述第一评论信息的交互吸引度;
所述根据所述信息质量和所述交互吸引度,确定所述第一评论信息对应的重要度,包括:
在所述信息质量不满足预设质量要求的情况下,将所述重要度设定为预设值。
5.根据权利要求1所述的方法,其特征在于,所述评论信息处理模型包括跨模态融合器、第一拟合层、第二拟合层、归一化层,所述第一拟合层和所述第二拟合层分别与所述跨模态融合器连接,所述第一拟合层和所述第二拟合层与所述归一化层连接,所述跨模态融合器用于通过显式的构造高阶特征交互,提取交叉组合特征,从而完成不同模态特征的融合;
所述根据所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征,对所述第一评论信息进行重要度预测,得到所述第一评论信息所对应的重要度,包括:
将所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征输入所述跨模态融合器进行特征融合,得到融合结果;
将所述融合结果输入所述第一拟合层进行质量分拟合操作,得到所述第一评论信息的质量分信息,所述质量分信息表征所述第一评论信息的信息质量;
将所述融合结果输入所述第二拟合层进行交互吸引度拟合操作,得到所述第一评论信息的交互吸引度信息;
将所述第一评论信息的质量分信息,以及所述第一评论信息的交互吸引度信息输入所述归一化层进行归一化操作,得到各自对应的归一化结果;
对各所述归一化结果进行加权求和得到所述第一评论信息所对应的重要度。
6.根据权利要求5所述的方法,其特征在于,所述评论信息处理模型还包括第一特征提取器,所述第一特征提取器与所述跨模态融合器连接,
所述媒体特征提取包括视觉特征提取,所述对所述多媒体对象进行媒体特征提取,得到所述多媒体对象对应的媒体特征,包括:
基于所述第一特征提取器对所述多媒体对象进行物体识别和人脸识别,得到视觉特征提取结果;
基于所述视觉特征提取结果得到所述媒体特征。
7.根据权利要求6所述的方法,其特征在于,所述评论信息处理模型还包括第二特征提取器,所述第二特征提取器与所述跨模态融合器连接,所述媒体特征提取包括文本特征提取,所述对所述多媒体对象进行媒体特征提取,得到所述多媒体对象对应的媒体特征,包括:
基于所述第二特征提取器对所述多媒体对象进行目标提取操作,得到文本特征提取结果,所述目标提取操作包括下述至少之一:提取所述多媒体对象的标题特征、提取所述多媒体对象的帧图像对应的光学字符识别结果中的特征、提取所述多媒体对象的语音信息对应的语音识别结果中的特征;
所述基于所述视觉特征提取结果得到所述媒体特征,包括:
基于所述视觉特征提取结果和所述文本特征提取结果,得到所述媒体特征。
8.根据权利要求7所述的方法,其特征在于,所述标签特征提取包括对预设标签集合进行标签特征提取操作,所述预设标签集合包括下述至少一种标签:所述多媒体对象的表达类型标签、所述多媒体对象的封面图、所述多媒体对象的内容标签。
9.根据权利要求7所述的方法,其特征在于,所述评论信息处理模型还包括第三特征提取器,所述第三特征提取器与所述跨模态融合器连接,所述方法还包括:
获取多个样本评论信息,以及每一所述样本评论信息对应的样本多媒体对象和标注信息,所述标准信息包括质量分标注和针对样本交互对象的交互吸引度标注;
基于所述第一特征提取器和所述第二特征提取器对所述样本多媒体对象进行媒体特征提取,得到所述样本多媒体对象对应的样本媒体特征;
基于所述第三特征提取器得到所述样本评论信息所对应的样本语义特征,以及样本交互对象静态特征和样本交互对象交互操作特征;
将所述样本媒体特征、所述样本语义特征、所述样本交互对象静态特征和所述样本交互对象交互操作特征输入所述跨模态融合器进行特征融合,得到样本融合结果;
将所述样本融合结果输入所述第一拟合层进行质量分拟合操作,得到所述样本评论信息的样本质量分信息;
将所述样本融合结果输入所述第二拟合层进行交互吸引度拟合操作,得到所述样本评论信息的样本交互吸引度信息;
将所述样本质量分信息,以及所述样本交互吸引度信息输入所述归一化层进行归一化操作,得到各自对应的归一化结果;
根据所述样本质量分信息对应的归一化结果与所述质量分标注之间的差异确定第一损失,根据所述第一损失调整所述跨模态融合器和所述第一拟合层的参数;
根据所述样本交互吸引度信息与所述交互吸引度之间的差异确定第二损失,根据所述第二损失调整所述跨模态融合器和所述第二拟合层的参数。
10.一种评论数据处理装置,其特征在于,所述装置包括:
处理数据获取模块,用于获取第一评论信息所对应的多媒体对象;
多模态特征提取模块,用于对所述多媒体对象分别进行视觉特征提取、文本特征提取和标签特征提取,得到所述多媒体对象对应的媒体特征;对所述第一评论信息进行内容特征提取,得到所述第一评论信息所对应的语义特征;以及,对目标交互对象信息分别进行静态属性特征提取和交互操作特征提取,得到交互对象静态特征和交互对象交互操作特征,所述交互操作包括所述目标交互对象信息的评论交互操作;
重要度预测模块,用于根据所述媒体特征、所述语义特征、所述交互对象静态特征和所述交互对象交互操作特征,对所述第一评论信息进行重要度预测,得到所述第一评论信息所对应的重要度,所述重要度表征所述第一评论信息吸引所述目标交互对象信息对应的交互对象对所述第一评论信息或者所述多媒体对象产生交互操作的能力。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的评论数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的评论数据处理方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现如权利要求1至9任一项所述的评论数据处理方法。
CN202211429090.7A 2022-11-15 2022-11-15 评论数据处理方法、装置、设备、存储介质及产品 Pending CN116955657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211429090.7A CN116955657A (zh) 2022-11-15 2022-11-15 评论数据处理方法、装置、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211429090.7A CN116955657A (zh) 2022-11-15 2022-11-15 评论数据处理方法、装置、设备、存储介质及产品

Publications (1)

Publication Number Publication Date
CN116955657A true CN116955657A (zh) 2023-10-27

Family

ID=88455355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211429090.7A Pending CN116955657A (zh) 2022-11-15 2022-11-15 评论数据处理方法、装置、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN116955657A (zh)

Similar Documents

Publication Publication Date Title
Li et al. Sentiment analysis of danmaku videos based on naïve bayes and sentiment dictionary
WO2022078102A1 (zh) 一种实体识别方法、装置、设备以及存储介质
CN110325986B (zh) 文章处理方法、装置、服务器及存储介质
CN111444357B (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN112131411A (zh) 一种多媒体资源推荐方法、装置、电子设备及存储介质
CN116702737B (zh) 文案生成方法、装置、设备、存储介质及产品
Ortis et al. An Overview on Image Sentiment Analysis: Methods, Datasets and Current Challenges.
CN112257661A (zh) 低俗图像的识别方法、装置、设备及计算机可读存储介质
CN112231563B (zh) 一种内容推荐方法、装置及存储介质
CN111507097A (zh) 一种标题文本处理方法、装置、电子设备及存储介质
KR102340963B1 (ko) Ai 기반의 영상 제작 방법 및 장치
Li et al. Share-and-chat: Achieving human-level video commenting by search and multi-view embedding
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
Chen et al. Sentiment analysis of animated film reviews using intelligent machine learning
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
Hur et al. Are we ready for MICE 5.0? An investigation of technology use in the MICE industry using social media big data
CN113656560B (zh) 情感类别的预测方法和装置、存储介质及电子设备
CN117011745A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质
CN116955657A (zh) 评论数据处理方法、装置、设备、存储介质及产品
CN115130453A (zh) 互动信息生成方法和装置
KR20220113221A (ko) 영상 소스 데이터 거래 방법 및 시스템
CN114996435A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication