CN115130453A - 互动信息生成方法和装置 - Google Patents
互动信息生成方法和装置 Download PDFInfo
- Publication number
- CN115130453A CN115130453A CN202110336504.0A CN202110336504A CN115130453A CN 115130453 A CN115130453 A CN 115130453A CN 202110336504 A CN202110336504 A CN 202110336504A CN 115130453 A CN115130453 A CN 115130453A
- Authority
- CN
- China
- Prior art keywords
- content
- information
- target
- interaction information
- interactive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本申请公开了一种互动信息生成方法和装置,涉及人工智能领域;本申请获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;基于样本内容与目标内容之间的内容相似度,从样本内容中确定相似内容;基于相似内容的互动信息,确定候选互动信息;基于候选互动信息和目标内容之间的相似度,从候选互动信息中选取目标互动信息;根据所述目标互动信息生成目标内容的互动信息。本申请可以不直接生成互动信息,通过召回与目标内容的相关性较强的相似内容,来获取候选互动信息,进而基于相似度匹配选取目标互动信息,得到目标内容的互动信息,有利于提高生成的互动信息与目标内容的匹配度,使生成的互动信息的准确性更高。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种互动信息生成方法和装置。
背景技术
互联网的发展带来了数字化媒体形态的崛起,随着以互动共享为特点的互联网技术的成熟,用户由接受信息的被动模式转变为自主创作的主导模式。在互联网快速发展的时代,随着内容生产的门槛降低,无论是图文还是视频在移动互联网时代获得了飞速的发展,用户在消费内容后,还可以和内容进行评论、点赞、转发、收藏等等各种互动行为。评论互动可以提高内容的吸引力,有助于增加内容的消费时长。
对于一些信息流内容,评论互动较少,在目前的相关技术中,一般采用机器学习基于大量的样本评论来生成新的评论,但是这样生成的评论与信息流内容的相关性较低,也就是说,这种方法获得的评论的准确性较低、质量较差,降低了用户体验。
发明内容
本申请实施例提供一种互动信息生成方法和装置,可以提高生成的互动信息与目标内容的匹配度,使生成的互动信息的准确性更高。
本申请实施例提供一种互动信息生成方法,包括:
获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;
基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;
基于所述相似内容的互动信息,确定候选互动信息;
基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;
根据所述目标互动信息生成所述目标内容的互动信息。
相应的,本申请实施例提供一种互动信息生成装置,包括:
获取单元,用于获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;
第一确定单元,用于基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;
第二确定单元,用于基于所述相似内容的互动信息,确定候选互动信息;
选取单元,用于基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;
生成单元,用于根据所述目标互动信息生成所述目标内容的互动信息。
可选的,在本申请的一些实施例中,所述选取单元可以包括第三提取子单元、第四提取子单元、第二计算子单元和选取子单元,如下:
所述第三提取子单元,用于对所述候选互动信息进行语义提取,得到所述候选互动信息的语义特征信息;
第四提取子单元,用于对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
第二计算子单元,用于基于所述目标内容在至少一个模态下的语义特征信息和所述候选互动信息的语义特征信息,计算所述目标内容和所述候选互动信息之间的相似度;
选取子单元,用于基于所述目标内容和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息。
可选的,在本申请的一些实施例中,所述选取单元具体可以用于通过训练后的互动信息选取模型,基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息。
可选的,在本申请的一些实施例中,所述选取单元还可以包括训练子单元,所述训练子单元用于对互动信息选取模型进行训练;具体如下:
所述训练子单元,用于获取训练数据,所述训练数据包括训练内容、以及所述训练内容对应的互动信息,其中,与所述训练内容的期望相似度大于预设第一相似度的互动信息作为正样本,与所述训练内容的期望相似度小于预设第二相似度的互动信息作为负样本;
通过互动信息选取模型,对所述训练内容的互动信息进行语义提取,得到所述互动信息的语义特征信息;对所述训练内容在至少一个模态下的内容信息进行语义提取,得到所述训练内容在至少一个模态下的语义特征信息;
基于所述训练内容在至少一个模态下的语义特征信息和所述互动信息的语义特征信息,计算所述训练内容和所述互动信息之间的实际相似度;
基于所述互动信息中的正样本对应的实际相似度和期望相似度,以及所述互动信息中的负样本对应的实际相似度和期望相似度,调整互动信息选取模型的参数,得到训练后的互动信息选取模型。
可选的,在本申请的一些实施例中,所述第二确定单元可以包括质量分析子单元,如下:
所述质量分析子单元,用于对所述相似内容的互动信息进行至少一个维度的质量分析,以从所述相似内容的互动信息中确定满足预设质量条件的候选互动信息。
可选的,在本申请的一些实施例中,所述质量分析子单元具体可以用于对所述相似内容的互动信息进行情感分析,以从所述相似内容的互动信息中确定情感满足预设情感条件的候选互动信息。
可选的,在本申请的一些实施例中,所述第二确定单元可以包括主题提取子单元,如下:
所述主题提取子单元,用于对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息。
可选的,在本申请的一些实施例中,所述第二确定单元还可以包括时间排列子单元,如下:
所述时间排列子单元,用于基于所述相似内容的互动信息的发布时间,对所述相似内容的互动信息进行排列,并从排列后的相似内容的互动信息中选取参考互动信息;
所述主题提取子单元具体可以用于对所述参考互动信息进行主题提取,得到所述参考互动信息的目标主题信息;计算所述参考互动信息的目标主题信息与所述目标内容的匹配度;根据所述匹配度,对所述参考互动信息进行排列,并从排列后的参考互动信息中选取候选互动信息。
可选的,在本申请的一些实施例中,所述第一确定单元可以包括获取子单元、第一提取子单元、第二提取子单元、第一计算子单元和确定子单元,如下:
所述获取子单元,用于获取所述目标内容在至少一个模态下的内容信息;
第一提取子单元,用于对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
第二提取子单元,用于对所述样本内容在至少一个模态下的内容信息进行语义提取,得到所述样本内容在至少一个模态下的语义特征信息;
第一计算子单元,用于基于所述目标内容和所述样本内容在至少一个模态下的语义特征信息,计算所述目标内容和所述样本内容之间的内容相似度;
确定子单元,用于根据所述内容相似度,从所述至少一个样本内容中确定至少一个相似内容。
可选的,在本申请的一些实施例中,所述互动信息生成装置还可以包括展示单元,如下:
所述展示单元,用于响应于针对所述目标内容对应的内容展示页面的查看操作,在所述内容展示页面的互动区域中展示所述目标内容的互动信息。
本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的互动信息生成方法中的步骤。
此外,本申请实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的互动信息生成方法中的步骤。
本申请实施例提供了一种互动信息生成方法和装置,可以获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;基于所述相似内容的互动信息,确定候选互动信息;基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;根据所述目标互动信息生成所述目标内容的互动信息。本申请可以不直接生成互动信息,通过召回与目标内容的相关性较强的相似内容,来获取候选互动信息,进而基于相似度匹配选取目标互动信息,得到目标内容的互动信息,有利于提高生成的互动信息与目标内容的匹配度,使生成的互动信息的准确性更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的互动信息生成方法的场景示意图;
图1b是本申请实施例提供的互动信息生成方法的流程图;
图2a是本申请实施例提供的互动信息生成方法的另一流程图;
图2b是本申请实施例提供的互动信息生成方法的另一流程图;
图2c是本申请实施例提供的互动信息生成方法的架构示意图;
图2d是本申请实施例提供的互动信息生成方法的另一流程图;
图2e是本申请实施例提供的互动信息生成方法的另一流程图;
图2f是本申请实施例提供的互动信息生成方法的另一流程图;
图3a是本申请实施例提供的互动信息生成装置的结构示意图;
图3b是本申请实施例提供的互动信息生成装置的另一结构示意图;
图3c是本申请实施例提供的互动信息生成装置的另一结构示意图;
图3d是本申请实施例提供的互动信息生成装置的另一结构示意图;
图3e是本申请实施例提供的互动信息生成装置的另一结构示意图;
图3f是本申请实施例提供的互动信息生成装置的另一结构示意图;
图3g是本申请实施例提供的互动信息生成装置的另一结构示意图;
图3h是本申请实施例提供的互动信息生成装置的另一结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种互动信息生成方法和装置。该互动信息生成装置具体可以集成在电子设备中,该电子设备可以是终端或服务器等设备。
可以理解的是,本实施例的互动信息生成方法可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。
如图1a所示,以终端和服务器共同执行互动信息生成方法为例。本申请实施例提供的互动信息生成系统包括终端10和服务器11等;终端10与服务器11之间通过网络连接,比如,通过有线或无线网络连接等,其中,互动信息生成装置可以集成在服务器中。
其中,服务器11,可以用于:获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;基于所述相似内容的互动信息确定候选互动信息;基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;根据所述目标互动信息生成所述目标内容的互动信息。其中,服务器11可以是单台服务器,也可以是由多个服务器组成的服务器集群或云服务器。
其中,终端10可以获取服务器11生成的目标内容的互动信息,并在目标内容的互动区域(如评论区)中显示该互动信息。其中,终端10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机(PC,Personal Computer)等。终端10上还可以设置客户端,该客户端可以是应用程序客户端或者浏览器客户端等等。
上述服务器11生成目标内容的互动信息的步骤,也可以由终端10执行。
本申请实施例提供的互动信息生成方法涉及人工智能领域中的计算机视觉技术、自然语言处理和机器学习。本申请实施例可以提高生成的互动信息与目标内容的匹配度,使生成的互动信息的准确性更高。
其中,人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。
其中,计算机视觉技术(CV,Computer Vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
其中,自然语言处理(NLP,Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从互动信息生成装置的角度进行描述,该互动信息生成装置具体可以集成在电子设备中,该电子设备可以是服务器或终端等设备。
本申请实施例的互动信息生成方法可以应用于各种需要获取互动信息的场景中。例如,某视频平台中大量视频缺少评论内容,需要生成这些视频的评论内容,通过本实施例提供的互动信息生成方法,可以获取与视频内容匹配度较高的评论内容,并在视频的评论区中显示获取到的评论内容。
如图1b所示,该互动信息生成方法的具体流程可以如下:
101、获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容。
本实施例中,目标内容为需要生成互动信息的内容,具体可以为需要获取与目标内容的内容信息相符的互动信息的内容。目标内容的类型不限,可以为视频、音频、图像以及文字等等。互动信息具体可以是评论和弹幕等。样本内容为具有互动信息的内容,其类型不限,即样本内容可以为视频、音频、图像以及文字等等。
可选地,步骤“获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容”,具体可以包括:
获取待生成互动信息的目标内容;
确定至少一个待选内容,并获取所述待选内容的用户关注度;
根据所述用户关注度,从至少一个待选内容中,确定至少一个具有互动信息的样本内容。
其中,待选内容可以为内容库中的内容,比如,待选内容可以为视频库中的视频。用户关注度可以包括内容的弹幕数量、评论数、收藏数和浏览情况信息等等,浏览情况信息可以包括浏览量以及浏览完成率等。
其中,步骤“根据所述用户关注度,从至少一个待选内容中,确定至少一个具有互动信息的样本内容”,具体可以包括:
将用户关注度满足预设条件的待选内容确定为样本内容,且该待选内容具有互动信息。
其中,预设条件可以根据实际需要进行设置,本实施例对此不作限制。例如,预设条件可以为浏览量大于1千且浏览完全率大于20%。
可选地,一些实施例中,步骤“获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容”,可以包括:
获取待生成互动信息的目标内容;
确定至少一个待选内容,并获取所述待选内容的发布时间;
根据所述发布时间,从至少一个待选内容中,确定至少一个具有互动信息的样本内容。
其中,步骤“根据所述发布时间,从至少一个待选内容中,确定至少一个具有互动信息的样本内容”可以包括:
根据所述发布时间与当前时间的距离,对所述待选内容从小到大进行排序,从排序后的待选内容中选取前I个具有互动信息的待选内容作为样本内容。
102、基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容。
可选地,本实施例中,步骤“基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容”,可以包括:
获取所述目标内容在至少一个模态下的内容信息,并对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
对所述样本内容在至少一个模态下的内容信息进行语义提取,得到所述样本内容在至少一个模态下的语义特征信息;
基于所述目标内容和所述样本内容在至少一个模态下的语义特征信息,计算所述目标内容和所述样本内容之间的内容相似度;
根据所述内容相似度,从所述至少一个样本内容中确定至少一个相似内容。
其中,目标内容和样本内容可以是单模态的内容,比如纯文字内容,也可以是多模态的内容,比如图文结合的内容、音频和视频等。样本内容具体可以来源于视频平台、内容交互平台、新闻资讯和购物平台等。其中,这些模态可以是图像模态、语音模态和文本模态等等。
可选地,本实施例中,所述目标内容为目标视频;所述至少一个模态包括文本模态和图像模态;步骤“获取所述目标内容在至少一个模态下的内容信息”,可以包括:
对所述目标视频进行图像提取处理,得到所述目标视频的图像序列,所述图像序列为所述目标视频在图像模态下的视频内容信息;
对所述目标视频进行文本提取处理,得到所述目标视频的文本序列,所述文本序列为所述目标视频在文本模态下的视频内容信息。
其中,该图像序列可以是通过对目标视频进行视频帧抽取,由抽取到的视频帧组成的。一些实施例中,可以对目标视频进行均匀抽帧,例如,可以将目标视频划分为等时长的视频片段,如以10s为划分单位,将目标视频划分为至少一个10s的视频片段,对每个视频片段抽取一帧图片。另一些实施例中,可以对目标视频进行关键帧抽取,具体地,可以通过各个视频帧之间的差值,来识别关键帧,进而对关键帧进行抽取。
其中,目标视频在文本模态下的视频内容信息可以包括视频标题、视频概述以及字幕信息等等。
可选的,在另一些实施例中,所述至少一个模态包括语音模态;步骤“获取所述目标内容在至少一个模态下的内容信息”还可以包括:对所述目标视频进行音频数据提取处理,得到所述目标视频的语音序列,所述语音序列为所述目标视频在语音模态下的视频内容信息。
一些实施例中,对于一些没有字幕的目标视频,可以对目标视频的音频数据进行语音识别,来得到对应的字幕信息,即该目标视频的文本信息。
可选的,在一些实施例中,可以只获取目标视频一个模态下的视频内容信息,对该模态下的视频内容信息进行语义提取,得到目标视频在该模态下的语义特征信息。例如,可以只获取文本模态下的视频内容信息,对文本模态下的视频内容信息进行语义提取,得到目标视频在文本模态下的语义特征信息;或者,也可以只获取图像模态下的视频内容信息,对图像模态下的视频内容信息进行语义提取,得到目标视频在图像模态下的语义特征信息。
可选地,本实施例中,步骤“对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息”,可以包括:
对所述图像序列中的各个图像进行语义提取,得到所述图像序列中的各个图像的图像语义特征信息;
将各个图像的图像语义特征信息进行融合,得到所述目标视频在图像模态下的语义特征信息;
对所述文本序列进行语义提取,得到所述目标视频在文本模态下的语义特征信息;
将所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合,得到所述目标视频在至少一个模态下的语义特征信息。
其中,步骤“对所述图像序列中的各个图像进行语义提取,得到所述图像序列中的各个图像的图像语义特征信息”,具体可以包括:
通过神经网络,对所述图像序列中的各个图像进行卷积运算和池化运算,得到所述图像序列中的各个图像的图像语义特征信息。
其中,该神经网络可以是残差网络(ResNet,Residual Network),也可以是密集连接卷积网络(DenseNet,Dense Convolutional Network)、视觉几何组网络(VGGNet,VisualGeometry Group Network)、开端模型(Inception)、开端-残差网络(Inception-Resnetv2)等,本实施例的神经网络并不仅限于上述列举的几种类型。
其中,步骤“将各个图像的图像语义特征信息进行融合,得到所述目标视频在图像模态下的语义特征信息”,可以包括:
基于各个图像的前后图像的图像语义特征信息,对所述各个图像的图像语义特征信息进行处理;
将处理后的各个图像的图像语义特征信息进行融合,得到所述目标视频在图像模态下的语义特征信息。
其中,可以通过双向长短期记忆网络(BiLSTM,Bi-directional Long Short-TermMemory)等基于各个图像的前后图像的图像语义特征信息,对所述各个图像的图像语义特征信息进行处理,本实施例对此不作限制。
一些实施例中,步骤“将处理后的各个图像的图像语义特征信息进行融合,得到所述目标视频在图像模态下的语义特征信息”,可以包括:对处理后的各个图像的图像语义特征信息进行加权变换,得到所述目标视频在图像模态下的语义特征信息。
可选地,一些实施例中,步骤“对所述文本序列进行语义提取,得到所述目标视频在文本模态下的语义特征信息”中,文本序列可以包括视频标题、视频描述以及字幕信息等等,可以将该文本序列通过变压器编码器模型(Transformer-Encoder)或基于变压器的双向编码器表示(Bert,Bidirectional Encoder Representations from Transformers)等进行语义提取,得到所述目标视频在文本模态下的语义特征信息。
一些实施例中,步骤“将所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合,得到所述目标视频在至少一个模态下的语义特征信息”,可以包括:
对所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行拼接,得到所述目标视频在至少一个模态下的语义特征信息。
其中,拼接的顺序在本实施例中不作限制,可以是于图像模态下的语义特征信息的后面拼接文本模态下的语义特征信息,也可以于文本模态下的语义特征信息的后面拼接图像模态下的语义特征信息。
可选的,一些实施例中,样本内容的语义特征信息可以是预先计算好后存储在数据库中的,在需要获取该样本内容的语义特征信息时,可以将其从数据库中提取出来,提供给该互动信息生成装置;样本内容的语义特征信息也可以通过实时计算来获取的。
其中,步骤“对所述样本内容在至少一个模态下的内容信息进行语义提取,得到所述样本内容在至少一个模态下的语义特征信息”,可以包括:
获取样本内容在至少一个模态下的内容信息;
对样本内容在至少一个模态下的内容信息进行语义提取,得到样本内容在至少一个模态下的语义特征信息。
其中,步骤“获取样本内容在至少一个模态下的内容信息”中,当样本内容为单模态的内容时,只能获取样本内容一个单模态下的内容信息,比如,若样本内容为纯文字内容,则只能获取该纯文字内容在文本模态下的内容信息。当样本内容为多模态的内容时,可以获取样本内容一个单模态下的内容信息,也可以获取样本内容多个单模态下的内容信息,例如,当样本内容为图文结合的内容时,可以获取该图文结合的内容在图像模态或者文本模态下的内容信息,也可以获取该图文结合的内容在图像模态和文本模态下的内容信息;又例如,当样本内容为样本视频时,可以获取该样本视频在文本模态下的视频内容信息,甚至可以只获取样本视频的视频标题,还可以获取该样本视频在图像模态、语音模态和文本模态下的视频内容信息,提取样本视频的多个单模态下的视频内容信息的过程可以参考上述目标视频的视频内容信息提取过程,此处不再赘述。可以理解的是,上述列举并不构成对本申请的限定。
可选地,所述样本内容为样本视频;所述至少一个模态包括文本模态和图像模态;步骤“获取样本内容在至少一个模态下的内容信息”可以包括:
对所述样本视频进行文本提取处理,得到所述样本视频的文本序列,所述文本序列为所述样本视频在文本模态下的视频内容信息;
对所述样本视频进行图像提取处理,得到所述样本视频的图像序列,所述图像序列为所述样本视频在图像模态下的视频内容信息。
可选的,另一些实施例中,所述至少一个模态包括语音模态;步骤“获取样本内容在至少一个模态下的内容信息”还可以包括:对所述样本视频进行音频数据提取处理,得到所述样本视频的语音序列,所述语音序列为所述样本视频在语音模态下的视频内容信息。
一些实施例中,对于一些没有字幕的样本视频,可以对样本视频的音频数据进行语音识别,来得到对应的字幕信息,即该样本视频的文本信息。
可选的,步骤“对样本内容在至少一个模态下的内容信息进行语义提取,得到样本内容在至少一个模态下的语义特征信息”,可以包括:
对所述样本视频的图像序列中的各个图像进行语义提取,得到所述图像序列中的各个图像的图像语义特征信息;
基于各个图像的前后图像的图像语义特征信息,对所述各个图像的图像语义特征信息进行处理;
将处理后的各个图像的图像语义特征信息进行融合,得到所述样本视频在图像模态下的语义特征信息;
对所述样本视频的文本序列进行语义提取,得到所述样本视频在文本模态下的语义特征信息;
将所述样本视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合,得到所述样本视频在至少一个模态下的语义特征信息。
可以理解的是,获取样本视频在至少一个模态下的视频内容信息的具体过程可以参考上述目标视频的视频内容信息的获取过程,此处不再赘述。同理,提取样本视频在至少一个模态下的语义特征信息的具体过程也可以参考上述目标视频的语义特征信息的提取过程。
本实施例中,步骤“基于所述目标内容和所述样本内容在至少一个模态下的语义特征信息,计算所述目标内容和所述样本内容之间的内容相似度”,可以包括:
计算所述目标内容和所述样本内容在至少一个模态下的语义特征信息之间的向量距离,所述向量距离表示所述目标内容和所述样本内容之间的内容相似度。
其中,通过度量语义特征信息间的向量距离来确定内容相似度,该向量距离可以是余弦距离即余弦相似度,余弦相似度是通过计算两个语义特征信息(也即语义特征向量)的夹角余弦值来评估二者的相似度的;在信息检索中,余弦相似度的范围从0到1,当余弦相似度的值越接近于1时,则表明两个语义特征信息的相似度越高;当余弦相似度的值越接近于0时,则表明两个语义特征信息的相似度越低。需要说明的是,该向量距离并不仅限于余弦距离。
其中,步骤“根据所述内容相似度,从所述至少一个样本内容中确定至少一个相似内容”,可以包括:
将与目标内容的内容相似度高于预设相似度阈值的样本内容,确定为相似内容。
其中,预设相似度阈值可以根据实际情况进行具体设置,本实施例对此不作限定。例如,在该内容相似度是通过余弦相似度来度量的时,该预设相似度阈值具体可以设置为0.7,当目标内容的语义特征信息和样本内容的语义特征信息的余弦相似度大于0.7时,可将该样本作为相似内容。
在另一实施例中,还可以基于内容相似度的高低,对样本内容进行排序,如,基于内容相似度的高低,对样本内容进行由高到低的排序,将前N个样本内容作为相似内容,其中N为大于等于1的自然数。
可选地,本实施例中,步骤“基于所述目标内容和所述样本内容在至少一个模态下的语义特征信息,计算所述目标内容和所述样本内容之间的内容相似度”之前,还可以包括:
基于所述样本内容在至少一个模态下的语义特征信息,生成所述样本内容的检索索引;
基于所述检索索引,创建检索索引库;
步骤“基于所述目标内容和所述样本内容在至少一个模态下的语义特征信息,计算所述目标内容和所述样本内容之间的内容相似度”,可以包括:
通过所述检索索引库,基于所述目标内容至少一个模态下的语义特征信息和所述样本内容的检索索引,计算所述目标内容和所述样本内容之间的内容相似度。
具体地,可以使用开源的相似度搜索和聚类的框架工具(如Faiss)对样本内容的语义特征信息构建检索索引,基于检索索引,创建检索索引库。当需要搜索目标内容的相似内容时,可以以目标内容的语义特征信息作为查询钥匙,通过检索索引库搜索相似内容,检索索引库通过计算目标内容的语义特征信息和样本内容的检索索引的相似度,返回相似度高于预设值的样本内容,或者,返回前K个相似度最高的样本内容(k为自然数),返回的样本内容作为目标视频的相似内容。
其中,Faiss是一种近似近邻搜索库,具体是针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,可以支持十亿级别向量的搜索。它包含多种搜索任意大小向量集的算法,以及用于算法评估和参数调整的支持代码。Faiss库包含相似性搜索的多种方法,核心模块包括高性能聚类、主成分分析PCA(Principal Component Analysis)、乘积量化。它假设实例被表示为向量,并用整数标识,同时向量可以与L2距离或点积进行比较,从而能够找到基于向量的相似内容。
103、基于所述相似内容的互动信息,确定候选互动信息。
通常,互动信息多为非正式的书面评论,存在诸多非法字符比如表情、符号等,另外,互动信息还可能包含敏感信息、低俗、无实质内容或质量较差的信息,因此需要对相似内容的互动信息进行预处理,如筛选去重,过滤低质评论(比如低俗,谩骂,灌水和负向情感的评论信息),通过筛选得到候选互动信息,再从候选互动信息中选取目标互动信息。
可选地,本实施例中,步骤“基于所述相似内容的互动信息,确定候选互动信息”,可以包括:
对所述相似内容的互动信息进行至少一个维度的质量分析,以从所述相似内容的互动信息中确定满足预设质量条件的候选互动信息。
其中,质量分析可以包括多个维度,比如情感分析、敏感话题分析、低俗语句过滤、以及涉及表情、冗余字符、错别字处理等,本实施例对此不作限制。通过对相似内容的互动信息进行质量分析,可以从中选取质量相对较高的候选互动信息,且能够减少后续的计算量。
在一些实施例中,可以基于质量对互动信息进行分级,互动信息可以包括低质互动信息和优质互动信息,低质互动信息可以包括低俗评论,谩骂评论和泛低质评论,优质互动信息可以包括趣味性的评论、观点独特的评论以及情感正向的评论。其中,可以通过文本卷积神经网络(TextCNN,Text Convolutional Neural Networks)或支持向量机(SVM,Support Vector Machine)等对互动信息进行分类。
具体地,可以基于点赞的数量,来对互动信息进行质量分级。如点赞数超过五百的为一级互动信息,点赞数处于一百和五百之间的互动信息为二级互动信息,点赞数低于一百的为三级互动信息,步骤“从所述相似内容的互动信息中确定满足预设质量条件的候选互动信息”,具体可以是将相似内容的互动信息中的一级互动信息确定为候选互动信息,预设质量条件为一级质量的互动信息。
可选的,本实施例中,步骤“对所述相似内容的互动信息进行至少一个维度的质量分析,以从所述相似内容的互动信息中确定满足预设质量条件的候选互动信息”,可以包括:
对所述相似内容的互动信息进行情感分析,以从所述相似内容的互动信息中确定情感满足预设情感条件的候选互动信息。
其中,情感分析(Sentiment Analysis),也称为情感分类,是属于自然语言处理领域的一个分支任务。通常可以基于深度学习的方法进行情感分析。
其中,预设情感条件具体可以是互动信息的情感为正向情感,不包含低俗敏感的信息,需要说明的是,预设情感条件可以根据实际情况进行设置,本实施例对此不作限制。
可选地,本实施例中,步骤“对所述相似内容的互动信息进行情感分析,以从所述相似内容的互动信息中确定情感满足预设情感条件的候选互动信息”,可以包括:
对所述相似内容的互动信息进行情感分析,以从所述相似内容的互动信息中确定目标情感类型的候选互动信息。
一些实施例中,对相似内容的互动信息进行情感分析,具体可以是将相似内容的互动信息与各预设情感类型的关键词进行匹配;基于匹配结果,确定目标情感类型的候选互动信息。具体地,可以提取相似内容的互动信息的特征向量,以及预设情感类型的关键词的特征向量,再基于二者之间的向量距离,确定二者的匹配度;向量距离越小,匹配度越高;反之,向量距离越大,匹配度越低。其中,该向量距离可以是余弦距离,也可以是欧式距离等。
其中,目标情感类型具体可以为积极正向的情感类型等。
其中,步骤“对所述相似内容的互动信息进行情感分析,以从所述相似内容的互动信息中确定目标情感类型的候选互动信息”,可以包括:
通过情感分析模型,对所述相似内容的互动信息进行情感分析,以从所述相似内容的互动信息中确定目标情感类型的候选互动信息。
需要说明的是,该情感分析模型具体可以由其他设备进行训练后,提供给该互动信息生成装置,或者,也可以由该互动信息生成装置自行进行训练。
若由该互动信息生成装置自行进行训练,则在步骤“通过情感分析模型,对所述相似内容的互动信息进行情感分析,以从所述相似内容的互动信息中确定目标情感类型的候选互动信息”之前,该互动信息生成方法还可以包括:
获取训练数据,所述训练数据包括样本互动信息、以及所述样本互动信息包含的情感属于目标情感类型的期望概率;
通过预设情感分析模型,对所述样本互动信息进行特征提取,得到所述样本互动信息的特征向量;
基于所述特征向量,预测所述样本互动信息包含的情感属于目标情感类型的实际概率;
基于所述样本互动信息包含的情感属于目标情感类型的期望概率和实际概率,调整预设情感分析模型的参数,得到情感分析模型。
其中,该训练过程是先计算出样本互动信息的情感属于目标情感类型的实际概率,然后,使用反向传播算法对预设情感分析模型的参数进行调整,基于样本互动信息的情感属于目标情感类型的实际概率和期望概率,优化预设情感分析模型的参数,使实际概率趋近于期望概率,得到训练后的情感分析模型。
可选的,本实施例中,步骤“对所述相似内容的互动信息进行至少一个维度的质量分析,以从所述相似内容的互动信息中确定满足预设质量条件的候选互动信息”,可以包括:
对所述相似内容的互动信息进行敏感话题分析,以从所述相似内容的互动信息中确定满足预设非敏感条件的候选互动信息。
其中,步骤“对所述相似内容的互动信息进行敏感话题分析,以从所述相似内容的互动信息中确定满足预设非敏感条件的候选互动信息”,可以包括:
计算所述相似内容的互动信息与预设敏感词的匹配度;
对所述相似内容的互动信息按照所述匹配度从小到大进行排序;
从排序后的相似内容的互动信息中选取前J个互动信息作为候选互动信息。
一些实施例中,步骤“基于所述相似内容的互动信息,确定候选互动信息”,可以包括:
对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息。
其中,主题信息具体可以是互动信息的内容主旨概括(如主要描述事件)、标签信息、关键词或者分类等。预设主题条件具体可以是与目标内容的匹配度大于预设匹配度的相似内容的互动信息对应的目标主题信息,预设主题条件可以根据实际情况进行设置,本实施例对此不作限制。
具体地,互动信息的主题信息可以包括多个级别,比如互动信息的主题信息可以划分为一级,二级和三级分类,比如对于一条互动信息,其一级分类可以为“游戏”,二级分类可以为“游戏a”,三级分类可以为“游戏a中的角色1”。例如,在一级分类与目标内容匹配成功的情况下,再基于二级分类与目标内容的匹配度对互动信息进行排序;其中每个类目内部可以单独排序。
在一些实施例中,基于相似内容的互动信息的主题信息与目标内容的匹配度,对相似内容的互动信息进行筛选,具体可以是将一级、二级和三级分类均与目标内容匹配的互动信息作为候选互动信息,也可以是将一级分类与目标内容匹配、且二级分类与目标内容的匹配度大于预设匹配度的相似内容的互动信息作为候选互动信息,本实施例对此不作限制。具体地,可以是从相似内容的互动信息中确定一级分类与目标内容匹配的第一互动信息,再基于二级分类与目标内容的匹配度,对第一互动信息按照匹配度从大到小进行排序,选取排序前P的第一互动信息作为候选互动信息;本实施例对此不作限制,具体可以根据实际情况基于互动信息的主题进行筛选。
其中,基于主题信息进行筛选,是为了先对相似内容的互动信息进行粗粒度的基础相似度筛选,以减少后续细粒度的筛选过程中的计算量。
可选的,在一些实施例中,步骤“对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息”之前,还可以包括:
基于所述相似内容的互动信息的发布时间,对所述相似内容的互动信息进行排列,并从排列后的相似内容的互动信息中选取参考互动信息;
所述对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息,包括:
对所述参考互动信息进行主题提取,得到所述参考互动信息的目标主题信息;
计算所述参考互动信息的目标主题信息与所述目标内容的匹配度;
根据所述匹配度,对所述参考互动信息进行排列,并从排列后的参考互动信息中选取候选互动信息。
其中,可以基于发布时间与当前时间的距离,对相似内容的互动信息按从小到大进行排序,从排列后的相似内容的互动信息中选取前H个互动信息作为参考互动信息。再基于主题信息,对参考互动信息进一步筛选。
在一些实施例中,可以对相似内容的互动信息进行至少一个维度的质量分析,从相似内容的互动信息中选取满足预设质量条件的初始互动信息;再从初始互动信息中选取发布时间在预设时间内且主题信息与目标内容的匹配度大于预设匹配度的候选互动信息。
具体地,可以对目标情感类型的初始互动信息按照发布时间的先后进行排序,得到排序后目标情感类型的初始互动信息,其中,排序越靠前,发布时间越早,具体可以选取排序中后N条目标情感类型的初始互动信息;再对这N条目标情感类型的初始互动信息进行主题的筛选,具体地,可以计算互动信息的主题信息与目标内容的匹配度,对这N条目标情感类型的初始互动信息按照匹配度从大到小进行排序,再从中选取前M(M≤N)个目标情感类型的初始互动信息作为候选互动信息。
可选的,本实施例中,也可以先通过质量分析对相似内容的互动信息进行筛选,再基于主题信息与目标内容的匹配度进行筛选,最后基于互动信息的发布时间选取候选互动信息;还可以先基于发布时间对相似内容的互动信息进行筛选,再基于质量分析进一步筛选,最后基于主题信息与目标内容的匹配度选取候选互动信息。筛选过程中步骤顺序可以根据实际情况进行调整,本实施例对此不作限制。
104、基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息。
其中,步骤“基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息”,可以包括:
基于所述目标内容在至少一个模态下的内容信息和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息。
可选地,本实施例中,步骤“基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息”,可以包括:
对所述候选互动信息进行语义提取,得到所述候选互动信息的语义特征信息;
对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
基于所述目标内容在至少一个模态下的语义特征信息和所述候选互动信息的语义特征信息,计算所述目标内容和所述候选互动信息之间的相似度;
基于所述目标内容和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息。
其中,目标内容在至少一个模态下的语义特征信息可以使用步骤102中已经计算得到的目标内容在至少一个模态下的语义特征信息,也可以基于目标内容在至少一个模态下的内容信息进行重新计算,本实施例对此不作限制。可以理解的是,对于重新计算的情况,获取目标内容在至少一个模态下的语义特征信息的具体过程可以参考步骤102中的描述。
其中,语义特征信息具体可以为语义特征向量,可以通过度量语义特征向量间的向量距离来确定目标内容和候选互动信息之间的相似度。向量距离越大,相似度越低;向量距离越小,相似度越高。其中,该向量距离具体可以是余弦距离。
可选的,一些实施例中,步骤“基于所述目标内容和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息”,可以包括:将与目标内容的相似度高于预设相似度阈值的候选互动信息,确定为目标互动信息。另一些实施例中,步骤“基于所述目标内容和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息”,可以包括:基于所述相似度的高低,对候选互动信息进行排序,如基于相似度的高低,对候选互动信息进行由高到低的排序,将前M个候选互动信息作为目标互动信息,其中M为大于等于1的自然数。
可选地,步骤“对所述候选互动信息进行语义提取,得到所述候选互动信息的语义特征信息”中,可以通过文本卷积神经网络(TextCNN,Text Convolutional NeuralNetworks)、基于变压器的双向编码器表示(Bert,Bidirectional EncoderRepresentations from Transformers)或变压器的精简双向编码器表示(AlBert,ALiteBert)等对候选互动信息进行语义提取,得到候选互动信息的语义特征信息。但是应当理解的是,本实施例的针对候选互动信息的语义提取模型并不仅限于上述列举的几种类型。
可选地,本实施例中,步骤“基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息”,可以包括:
通过训练后的互动信息选取模型,基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息。
需要说明的是,该互动信息选取模型具体可以由其他设备进行训练后,提供给该互动信息生成装置,或者,也可以由该互动信息生成装置自行进行训练。
若由该互动信息生成装置自行进行训练,则在步骤“通过训练后的互动信息选取模型,基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息”之前,该互动信息生成方法还可以包括:
获取训练数据,所述训练数据包括训练内容、以及所述训练内容对应的互动信息,其中,与所述训练内容的期望相似度大于预设第一相似度的互动信息作为正样本,与所述训练内容的期望相似度小于预设第二相似度的互动信息作为负样本;
通过互动信息选取模型,对所述训练内容的互动信息进行语义提取,得到所述互动信息的语义特征信息;对所述训练内容在至少一个模态下的内容信息进行语义提取,得到所述训练内容在至少一个模态下的语义特征信息;
基于所述训练内容在至少一个模态下的语义特征信息和所述互动信息的语义特征信息,计算所述训练内容和所述互动信息之间的实际相似度;
基于所述互动信息中的正样本对应的实际相似度和期望相似度,以及所述互动信息中的负样本对应的实际相似度和期望相似度,调整互动信息选取模型的参数,得到训练后的互动信息选取模型。
其中,本实施例中,该训练过程是先计算出训练内容和所述互动信息之间的实际相似度,然后,使用反向传播算法对互动信息选取模型的参数进行调整,基于互动信息中的正样本对应的实际相似度和期望相似度,以及所述互动信息中的负样本对应的实际相似度和期望相似度,优化互动信息选取模型的参数,使正样本的实际相似度趋近于正样本的期望相似度;负样本的实际相似度趋近于负样本的期望相似度,得到训练后的互动信息选取模型。其中,正样本的期望相似度和负样本的期望相似度的值可以根据实际情况进行设置。
其中,正样本的期望相似度大于第一预设相似度,负样本的期望相似度小于第二预设相似度,第一预设相似度和第二预设相似度的值可以根据实际情况进行设置,本申请对此没有限制。例如,可以根据对目标内容的互动信息的要求来进行设置。若对目标内容的互动信息的匹配要求越高,则第一预设相似度越大,第二预设相似度越小。
105、根据所述目标互动信息生成所述目标内容的互动信息。
其中,可以将从相似内容的互动信息中选取到的目标互动信息作为目标内容的互动信息。
具体地,本实施例中,在得到目标内容的互动信息后,可以将其迁移到目标内容对应的内容展示页面中的互动区域,即在目标内容的互动区域中显示生成的目标内容的互动信息,其中,互动区域可以用于展现目标内容的互动信息。
本实施例中,步骤“根据所述目标互动信息生成所述目标内容的互动信息”之后,还可以包括:
响应于针对所述目标内容对应的内容展示页面的查看操作,在所述内容展示页面的互动区域中展示所述目标内容的互动信息。
其中,查看操作具体可以是点击操作、滑动操作等,本实施例对此不作限制。
其中,目标内容的互动信息在互动区域中的显示顺序具体可以根据其与目标内容的相似度、主题信息以及发布时间来确定,也可以基于互动信息与目标内容的相似度来确定互动信息在互动区域中的显示顺序,将相似度最高的互动信息显示在互动区域中最前的位置;本实施例对此不作限制。
比如,可以获取目标内容的互动信息的发布时间、与目标内容的相似度;并确定发布时间和相似度对应的权重;基于所述权重,确定互动信息的显示顺序,以基于显示顺序在互动区域中显示目标内容的互动信息。
目前获取目标内容的互动信息的方法主要是采用机器学习通过文本生成,也即自然语言生成(NLG,Natural Language Generation)的方法来生成新的评论,这种方法需要大量的样本数据进行学习,且直接依据文本内容生成的文本的质量相对较差,可能存在语句不通、场景不符等问题。
而本申请的互动信息生成方法,其核心思路是不直接生成互动信息,而是利用目标内容本身的相关性召回相似内容,再对相似内容的互动信息进行相似度计算,选取目标互动信息,最后进行互动信息的迁移。通过互动信息的迁移,可以最大化利用已有互动信息,通过采用迁移方法,可以避免文本生成方法当中评论质量难以控制和逻辑不同的情况;而且,本方法还可以丰富互动区域(即评论区域)的内容,有效提升信息流内容消费的平均时长,增加用户互动活跃度和内容互动的氛围;另外,对于新发布的内容,可以降低零评论内容占比,能够有效改善用户的阅读体验和增加用户粘性。
由上可知,本实施例可以获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;基于所述相似内容的互动信息确定候选互动信息;基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;根据所述目标互动信息生成所述目标内容的互动信息。本申请可以不直接生成互动信息,通过召回与目标内容的相关性较强的相似内容,来获取候选互动信息,进而基于相似度匹配选取目标互动信息,得到目标内容的互动信息,有利于提高生成的互动信息与目标内容的匹配度,使生成的互动信息的准确性更高。
根据前面实施例所描述的方法,以下将以该互动信息生成装置具体集成在服务器举例作进一步详细说明。
本申请实施例提供一种互动信息生成方法,如图2a所示,该互动信息生成方法的具体流程可以如下:
201、服务器获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容。
本实施例中,目标内容为需要生成互动信息的内容,具体可以为需要获取与目标内容的内容信息相符的互动信息的内容。目标内容的类型不限,可以为视频、音频、图像以及文字等等。互动信息具体可以是评论和弹幕等。样本内容为具有互动信息的内容,其类型不限,即样本内容可以为视频、音频、图像以及文字等等。
202、服务器基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容。
可选地,本实施例中,步骤“服务器基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容”,可以包括:
服务器获取所述目标内容在至少一个模态下的内容信息,并对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
对所述样本内容在至少一个模态下的内容信息进行语义提取,得到所述样本内容在至少一个模态下的语义特征信息;
基于所述目标内容和所述样本内容在至少一个模态下的语义特征信息,计算所述目标内容和所述样本内容之间的内容相似度;
根据所述内容相似度,从所述至少一个样本内容中确定至少一个相似内容。
其中,目标内容和样本内容可以是单模态的内容,比如纯文字内容,也可以是多模态的内容,比如图文结合的内容、音频和视频等。
203、服务器基于所述相似内容的互动信息,确定候选互动信息。
通常,互动信息多为非正式的书面评论,存在诸多非法字符比如表情、符号等,另外,互动信息还可能包含敏感信息、低俗、无实质内容或质量较差的信息,因此需要对相似内容的互动信息进行预处理,如筛选去重,过滤低质评论(比如低俗,谩骂,灌水和负向情感的评论信息),通过筛选得到候选互动信息,再从候选互动信息中选取目标互动信息。
可选地,本实施例中,步骤“基于所述相似内容的互动信息,确定候选互动信息”,可以包括:
对所述相似内容的互动信息进行至少一个维度的质量分析,以从所述相似内容的互动信息中确定满足预设质量条件的候选互动信息。
其中,质量分析可以包括多个维度,比如情感分析、敏感话题分析、低俗语句过滤、以及涉及表情、冗余字符、错别字处理等,本实施例对此不作限制。通过对相似内容的互动信息进行质量分析,可以从中选取质量相对较高的候选互动信息,且能够减少后续的计算量。
一些实施例中,步骤“基于所述相似内容的互动信息,确定候选互动信息”,可以包括:
对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息。
其中,基于主题信息进行筛选,是为了先对相似内容的互动信息进行粗粒度的基础相似度筛选,以减少后续细粒度的筛选过程中的计算量。
可选的,在一些实施例中,步骤“对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息”之前,还可以包括:
基于所述相似内容的互动信息的发布时间,对所述相似内容的互动信息进行排列,并从排列后的相似内容的互动信息中选取参考互动信息;
所述对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息,包括:
对所述参考互动信息进行主题提取,得到所述参考互动信息的目标主题信息;
计算所述参考互动信息的目标主题信息与所述目标内容的匹配度;
根据所述匹配度,对所述参考互动信息进行排列,并从排列后的参考互动信息中选取候选互动信息。
204、服务器基于所述目标内容在至少一个模态下的内容信息和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息。
可选地,本实施例中,步骤“服务器基于所述目标内容在至少一个模态下的内容信息和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息”,可以包括:
对所述候选互动信息进行语义提取,得到所述候选互动信息的语义特征信息;
对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
基于所述目标内容在至少一个模态下的语义特征信息和所述候选互动信息的语义特征信息,计算所述目标内容和所述候选互动信息之间的相似度;
基于所述目标内容和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息。
可选地,步骤“对所述候选互动信息进行语义提取,得到所述候选互动信息的语义特征信息”中,可以通过文本卷积神经网络(TextCNN,Text Convolutional NeuralNetworks)、基于变压器的双向编码器表示(Bert,Bidirectional EncoderRepresentations from Transformers)或变压器的精简双向编码器表示(AlBert,ALiteBert)等对候选互动信息进行语义提取,得到候选互动信息的语义特征信息。但是应当理解的是,本实施例的针对候选互动信息的语义提取模型并不仅限于上述列举的几种类型。
205、服务器根据所述目标互动信息生成所述目标内容的互动信息。
206、服务器将生成的目标内容的互动信息发送给终端,以使终端在所述目标内容的互动区域中显示所述目标内容的互动信息。
在一具体实施例中,如图2b所示,从候选互动信息中选取目标互动信息的过程如下:
获取目标内容在至少一个模态下的内容信息,如文本模态下的标签、标题等以及其他模态下的内容信息,通过语义提取模型对各个模态下的内容信息进行语义提取,得到目标内容在各个模态下的语义特征信息,并对目标内容在各个模态下的语义特征信息进行融合,得到目标内容的目标语义特征信息;同时,通过语义提取模型(如Bert)对候选互动信息进行语义提取,得到候选互动信息的语义特征信息;计算目标内容的目标语义特征信息和候选互动信息的语义特征信息之间的相似度,基于相似度,从候选互动信息中选取目标互动信息。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
本实施例以互动信息生成装置集成服务器,该服务器为集群服务器为例,该集群服务器可以包括上下行内容接口服务器、内容存储服务器、调度中心服务器、排重服务器、审核服务器、内容分发出口服务器、统计上报接口服务器、评论排序与匹配服务器、评论迁移服务器、内容匹配服务器、评论业务服务器、评论质量评价服务器、评论内容存储服务器、以及统计上报接口服务器等服务器,集群服务器中的各个服务器之间的连接关系可以如图2c所示,其中,集群服务器可以通过上下行内容接口服务器与内容生成端进行通信连接,以及通过上下行内容接口服务器、统计上报接口服务器、或内容分发出口服务器与内容消费端进行通信连接。其中,内容生成端可以是生产待发布内容的客户端,内容消费端可以是接收集群服务器推送的待发布内容,以及显示待发布内容的客户端,内容生成端可以包括一个或多个,内容消费端可以包括一个或多个。
请参阅图2d,图2d为本申请实施例提供的互动信息生成方法的流程示意图。该方法流程可以包括:
S10、上下行内容接口服务器接收内容生成端上传的待发布内容。
内容生成端可以通过专业生产内容(Professional Generated Content,PGC)、用户原创内容(UGC,User Generated Content)、多频道网络(Multi-Channel Network,MCN)、或专业用户生产内容(Professional User Generated Content,PUGC)等内容生产对应的用户账号生成待发布内容,例如,可以通过内容生成端(即移动端)或者后端的应用程序接口(Application Programming Interface,API),通过本地或者web(World Wide Web,全球广域网)发布系统提供的图文内容或者上传视频内容(包括短视频和小视频等)等待发布内容。内容生成端可以与上下行内容接口服务器建立通信连接,并获取上下行内容接口服务器的服务器接口地址,然后基于服务器接口地址将待发布内容发送给上下行内容接口服务器,此时,上下行内容接口服务器接收内容生成端上传的待发布内容。
S11、上下行内容接口服务器将图文元信息写入内容存储服务器。
内容存储服务器即内容数据库,所有内容生成端发布内容的元信息都可以保存在内容存储服务器中。对内容审核(可以包括人工审核)过程中可以读取内容存储服务器中的信息,同时审核的结果和状态也可以回传进入内容存储服务器中保存。内容存储服务器还可以存储排重服务器等的处理结果。
其中,元信息可以包括内容大小、封面图链接、文件格式、码率、标题、发布时间、账号作者、来源渠道、以及入库时间(即存储时间)等,该元信息还可以包括内容审核过程中对内容的分类,该分类可以包括一级别分类、二级别分类、三级别分类和标签信息等,例如一篇讲解XX品牌手机的内容,一级分类是科技,二级分类是智能手机,三级分类是国内手机,标签信息是XX品牌和XX型号。
需要说明的是,内容存储服务器中可以依据不同内容的类别设置不同的内容池,不同类别的内容可以存储至对应的内容池中。内容匹配服务器和排重服务器等均需要从内容存储服务器中获取内容,例如,排重服务器可以依据业务需求加载过去一段时间(如一周)已经入库启用的内容,对于重复重新入库的内容将加上过滤标记,不再提供给审核服务器进行审核。
S12、上下行内容接口服务器将待发布内容写入调度中心服务器。
需要说明的是,步骤S11和步骤S12的执行先后顺序可以根据实际需要进行灵活设置,例如,可以同时执行步骤S11和步骤S12,或者先执行步骤S11,后执行步骤S12,或者,先执行步骤S12,后执行步骤S11等。
其中,调度中心服务器可以用于负责内容流转的整个调度过程,通过上下行内容接口服务器接收存入内容存储服务器的内容,以及从内容存储服务器中获取内容的元信息。
S13、调度中心服务器调用排重服务器的内容排重服务。
调度中心服务器可以调度排重服务器,对重复存入内容存储服务器的内容进行标记和过滤,生成去重流水信息。
排重服务器的去重操作可以包括标题去重、封面图去重、内容正文去重、视频指纹和音频指纹去重等,例如,可以采用simhash(一种哈希算法)及Bert算法将标题、封面图和内容正文等向量化,对于视频内容可以抽取视频指纹和音频指纹构建向量,然后计算向量之间的距离(比如欧式距离)来确定是否重复,并将重复的内容过滤。
S14、调度中心服务器调用审核服务器的内容审核服务。
其中,审核服务器可以通过构建的审核模型对内容进行审核,或者是审核服务器通过人工对内容进行审核等。该审核模型可以根据实际需要进行灵活设置,例如,可以通过审核模型对内容中的文字进行切词处理,并对切词得到的词语进行语义分析,基于语义分析结果进行敏感词或安全问题的分析,若存在敏感词或安全问题,则审核不通过,此时可以禁止发布该内容;以及对内容中的图片进行识别,确定图片中是否包含禁止发布的部分,若是,则审核不通过,此时可以禁止发布该内容;等等。当调用人工审核时,人工审核过程中可以读取内容存储服务器中存储的信息,同时人工审核的结果和状态可以回传进入内容存储服务器中保存。
S15、调度中心服务器调用评论迁移服务器的评论迁移服务。
调度中心服务器还可以调度评论迁移服务器,获取相似内容的互动信息,再从中筛选目标互动信息。具体过程可以如图2e所示,包括:
S20、调度中心服务器调用评论迁移服务器,将内容通过评论迁移服务器发送给内容匹配服务器,以便内容匹配服务器召回与目标内容匹配的相似内容。
S21、内容匹配服务器将召回的相似内容发送给内容存储服务器。
S22、评论迁移服务器通过内容存储服务器确定相似内容,并调用评论内容存储服务器(即评论内容数据库)读取相似内容的评论内容。
S23、评论迁移服务器调用评论质量评价服务器,对相似内容的评论内容进行低质评论过滤处理。
S24、评论迁移服务器调用评论排序与匹配服务器,以基于评论内容与目标内容之间的相似度,确定评论内容的排序信息。
S25、评论迁移服务器基于评论内容的排序信息,从中选取目标评论,将目标评论内容发送给评论业务服务器,以便评论业务服务器将目标评论内容迁移到目标内容的互动区域。
在目标评论内容写入到评论业务服务器中后,评论业务服务器可以将目标评论内容发送给排重服务器,以及将目标评论内容发送给调度中心服务器,以便调度中心服务器可以对目标评论内容进行标记,为后续业务场景利用目标评论内容提供参考。
S16、在排重服务器对目标评论内容进行排重服务后,内容存储服务器从排重服务器中读取排重后的目标评论内容。
S17、调度中心服务器基于审核结果对内容存储服务器中的元信息进行更新。
例如,当审核通过时,更新后的元信息中可以包括内容审核通过的相关信息,当审核不通过时,更新后的元信息中可以包括内容审核不通过的相关信息。
S18、调度中心服务器基于更新后的元信息对目标评论内容进一步筛选,调度中心服务器将筛选后的目标评论内容发送给内容分发出口服务器。
S19、内容分发出口服务器向内容消费端推送筛选后的目标评论内容。
其中,内容分发出口服务器可以是一组地域上就近部署在内容消费端附近的接入服务器,内容分发出口服务器可以获取分发的结果,向内容消费端推送筛选后的目标评论内容,内容消费端在接收到筛选后的目标评论内容后,可以在目标内容的互动区域中显示筛选后的目标评论内容。
在一实施例中,响应于内容消费端中用户针对目标内容的互动操作,如点赞、评论等行为,内容消费端可以将这些互动信息上报到服务器,其过程可以参考图2f,如下:
S30、内容消费端从上下行内容接口服务器获取内容的索引信息。
S31、内容消费端上报内容分发统计信息给统计上报接口服务器,并与评论业务服务器建立通信连接,以进行评论数据的传输;
S32、将评论业务服务器获取到的新的互动信息写入到评论内容存储服务器(即互动内容库)中;
S33、评论质量评价服务器从统计上报接口服务器中读取统计信息,并对其进行质量分析;
S34、评论质量评价服务器从评论内容存储服务器中读取原始评论流水,对其进行质量分析。
其中,统计信息可以包括统计用户基于发布的内容的评论、转发、分享、收藏、或点赞等操作行为等。
由上可知,本实施例可以通过服务器获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;基于所述相似内容的互动信息确定候选互动信息;基于所述目标内容在至少一个模态下的内容信息和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息;根据所述目标互动信息生成所述目标内容的互动信息;服务器将生成的目标内容的互动信息发送给终端,以使终端在所述目标内容的互动区域中显示所述目标内容的互动信息。本申请可以不直接生成互动信息,通过召回与目标内容的相关性较强的相似内容,来获取候选互动信息,进而基于相似度匹配选取目标互动信息,得到目标内容的互动信息,有利于提高生成的互动信息与目标内容的匹配度,使生成的互动信息的准确性更高。
为了更好地实施以上方法,本申请实施例还提供一种互动信息生成装置,如图3a所示,该互动信息生成装置可以包括获取单元301、第一确定单元302、第二确定单元303、选取单元304和生成单元305,如下:
(1)获取单元301;
获取单元301,用于获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容。
(2)第一确定单元302;
第一确定单元302,用于基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容。
可选的,在本申请的一些实施例中,所述第一确定单元302可以包括获取子单元3021、第一提取子单元3022、第二提取子单元3023、第一计算子单元3024和确定子单元3025,参见图3b,如下:
所述获取子单元3021,用于获取所述目标内容在至少一个模态下的内容信息;
第一提取子单元3022,用于对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
第二提取子单元3023,用于对所述样本内容在至少一个模态下的内容信息进行语义提取,得到所述样本内容在至少一个模态下的语义特征信息;
第一计算子单元3024,用于基于所述目标内容和所述样本内容在至少一个模态下的语义特征信息,计算所述目标内容和所述样本内容之间的内容相似度;
确定子单元3025,用于根据所述内容相似度,从所述至少一个样本内容中确定至少一个相似内容。
(3)第二确定单元303;
第二确定单元303,用于基于所述相似内容的互动信息,确定候选互动信息。
可选的,在本申请的一些实施例中,所述第二确定单元303可以包括质量分析子单元3031,参见图3c,如下:
所述质量分析子单元3031,用于对所述相似内容的互动信息进行至少一个维度的质量分析,以从所述相似内容的互动信息中确定满足预设质量条件的候选互动信息。
可选的,在本申请的一些实施例中,所述质量分析子单元3031具体可以用于对所述相似内容的互动信息进行情感分析,以从所述相似内容的互动信息中确定情感满足预设情感条件的候选互动信息。
可选的,在本申请的一些实施例中,所述第二确定单元303可以包括主题提取子单元3032,参见图3d,如下:
所述主题提取子单元3032,用于对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息。
可选的,在本申请的一些实施例中,所述第二确定单元303还可以包括时间排列子单元3033,参见图3e,如下:
所述时间排列子单元3033,用于基于所述相似内容的互动信息的发布时间,对所述相似内容的互动信息进行排列,并从排列后的相似内容的互动信息中选取参考互动信息;
所述主题提取子单元3032具体可以用于对所述参考互动信息进行主题提取,得到所述参考互动信息的目标主题信息;计算所述参考互动信息的目标主题信息与所述目标内容的匹配度;根据所述匹配度,对所述参考互动信息进行排列,并从排列后的参考互动信息中选取候选互动信息。
(4)选取单元304;
选取单元304,用于基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息。
可选的,在本申请的一些实施例中,所述选取单元304可以包括第三提取子单元3041、第四提取子单元3042、第二计算子单元3043和选取子单元3044,参见图3f,如下:
所述第三提取子单元3041,用于对所述候选互动信息进行语义提取,得到所述候选互动信息的语义特征信息;
第四提取子单元3042,用于对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
第二计算子单元3043,用于基于所述目标内容在至少一个模态下的语义特征信息和所述候选互动信息的语义特征信息,计算所述目标内容和所述候选互动信息之间的相似度;
选取子单元3044,用于基于所述目标内容和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息。
可选的,在本申请的一些实施例中,所述选取单元304具体可以用于通过训练后的互动信息选取模型,基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息。
可选的,在本申请的一些实施例中,所述选取单元304还可以包括训练子单元3045,所述训练子单元3045用于对互动信息选取模型进行训练;参见图3g,具体如下:
所述训练子单元3045,用于获取训练数据,所述训练数据包括训练内容、以及所述训练内容对应的互动信息,其中,与所述训练内容的期望相似度大于预设第一相似度的互动信息作为正样本,与所述训练内容的期望相似度小于预设第二相似度的互动信息作为负样本;
通过互动信息选取模型,对所述训练内容的互动信息进行语义提取,得到所述互动信息的语义特征信息;对所述训练内容在至少一个模态下的内容信息进行语义提取,得到所述训练内容在至少一个模态下的语义特征信息;
基于所述训练内容在至少一个模态下的语义特征信息和所述互动信息的语义特征信息,计算所述训练内容和所述互动信息之间的实际相似度;
基于所述互动信息中的正样本对应的实际相似度和期望相似度,以及所述互动信息中的负样本对应的实际相似度和期望相似度,调整互动信息选取模型的参数,得到训练后的互动信息选取模型。
(5)生成单元305;
生成单元305,用于根据所述目标互动信息生成所述目标内容的互动信息。
可选的,在本申请的一些实施例中,所述互动信息生成装置还可以包括展示单元306,参见图3h,如下:
所述展示单元306,用于响应于针对所述目标内容对应的内容展示页面的查看操作,在所述内容展示页面的互动区域中展示所述目标内容的互动信息。
由上可知,本实施例可以由获取单元301获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;通过第一确定单元302基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;由第二确定单元303基于所述相似内容的互动信息,确定候选互动信息;通过选取单元304基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;通过生成单元305根据所述目标互动信息生成所述目标内容的互动信息。本申请可以不直接生成互动信息,通过召回与目标内容的相关性较强的相似内容,来获取候选互动信息,进而基于相似度匹配选取目标互动信息,得到目标内容的互动信息,有利于提高生成的互动信息与目标内容的匹配度,使生成的互动信息的准确性更高。
本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,该电子设备可以是终端或者服务器等,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,该电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;基于所述相似内容的互动信息,确定候选互动信息;基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;根据所述目标互动信息生成所述目标内容的互动信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;基于所述相似内容的互动信息,确定候选互动信息;基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;根据所述目标互动信息生成所述目标内容的互动信息。本申请可以不直接生成互动信息,通过召回与目标内容的相关性较强的相似内容,来获取候选互动信息,进而基于相似度匹配选取目标互动信息,得到目标内容的互动信息,有利于提高生成的互动信息与目标内容的匹配度,使生成的互动信息的准确性更高。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种互动信息生成方法中的步骤。例如,该指令可以执行如下步骤:
获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;基于所述相似内容的互动信息确定候选互动信息;基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;根据所述目标互动信息生成所述目标内容的互动信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种互动信息生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种互动信息生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述互动信息生成方面的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种互动信息生成方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种互动信息生成方法,其特征在于,包括:
获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;
基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;
基于所述相似内容的互动信息,确定候选互动信息;
基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;
根据所述目标互动信息生成所述目标内容的互动信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息,包括:
对所述候选互动信息进行语义提取,得到所述候选互动信息的语义特征信息;
对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
基于所述目标内容在至少一个模态下的语义特征信息和所述候选互动信息的语义特征信息,计算所述目标内容和所述候选互动信息之间的相似度;
基于所述目标内容和所述候选互动信息之间的相似度,从所述候选互动信息中选取目标互动信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息,包括:
通过训练后的互动信息选取模型,基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;
在所述通过训练后的互动信息选取模型,基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息之前,所述方法还包括:
获取训练数据,所述训练数据包括训练内容、以及所述训练内容对应的互动信息,其中,与所述训练内容的期望相似度大于预设第一相似度的互动信息作为正样本,与所述训练内容的期望相似度小于预设第二相似度的互动信息作为负样本;
通过互动信息选取模型,对所述训练内容的互动信息进行语义提取,得到所述互动信息的语义特征信息;对所述训练内容在至少一个模态下的内容信息进行语义提取,得到所述训练内容在至少一个模态下的语义特征信息;
基于所述训练内容在至少一个模态下的语义特征信息和所述互动信息的语义特征信息,计算所述训练内容和所述互动信息之间的实际相似度;
基于所述互动信息中的正样本对应的实际相似度和期望相似度,以及所述互动信息中的负样本对应的实际相似度和期望相似度,调整互动信息选取模型的参数,得到训练后的互动信息选取模型。
4.根据权利要求1所述的方法,其特征在于,所述基于所述相似内容的互动信息,确定候选互动信息,包括:
对所述相似内容的互动信息进行至少一个维度的质量分析,以从所述相似内容的互动信息中确定满足预设质量条件的候选互动信息。
5.根据权利要求4所述的方法,其特征在于,所述对所述相似内容的互动信息进行至少一个维度的质量分析,以从所述相似内容的互动信息中确定满足预设质量条件的候选互动信息,包括:
对所述相似内容的互动信息进行情感分析,以从所述相似内容的互动信息中确定情感满足预设情感条件的候选互动信息。
6.根据权利要求1所述的方法,其特征在于,所述基于所述相似内容的互动信息,确定候选互动信息,包括:
对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息之前,还包括:
基于所述相似内容的互动信息的发布时间,对所述相似内容的互动信息进行排列,并从排列后的相似内容的互动信息中选取参考互动信息;
所述对所述相似内容的互动信息进行主题提取,以从所述相似内容的互动信息中确定主题信息满足预设主题条件的候选互动信息,包括:
对所述参考互动信息进行主题提取,得到所述参考互动信息的目标主题信息;
计算所述参考互动信息的目标主题信息与所述目标内容的匹配度;
根据所述匹配度,对所述参考互动信息进行排列,并从排列后的参考互动信息中选取候选互动信息。
8.根据权利要求1所述的方法,其特征在于,所述基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容,包括:
获取所述目标内容在至少一个模态下的内容信息,并对所述目标内容在至少一个模态下的内容信息进行语义提取,得到所述目标内容在至少一个模态下的语义特征信息;
对所述样本内容在至少一个模态下的内容信息进行语义提取,得到所述样本内容在至少一个模态下的语义特征信息;
基于所述目标内容和所述样本内容在至少一个模态下的语义特征信息,计算所述目标内容和所述样本内容之间的内容相似度;
根据所述内容相似度,从所述至少一个样本内容中确定至少一个相似内容。
9.根据权利要求1所述的方法,其特征在于,所述根据所述目标互动信息生成所述目标内容的互动信息之后,还包括:
响应于针对所述目标内容对应的内容展示页面的查看操作,在所述内容展示页面的互动区域中展示所述目标内容的互动信息。
10.一种互动信息生成装置,其特征在于,包括:
获取单元,用于获取待生成互动信息的目标内容、以及至少一个具有互动信息的样本内容;
第一确定单元,用于基于所述样本内容与所述目标内容之间的内容相似度,从所述至少一个样本内容中确定至少一个相似内容;
第二确定单元,用于基于所述相似内容的互动信息,确定候选互动信息;
选取单元,用于基于所述候选互动信息和所述目标内容之间的相似度,从所述候选互动信息中选取目标互动信息;
生成单元,用于根据所述目标互动信息生成所述目标内容的互动信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110336504.0A CN115130453A (zh) | 2021-03-29 | 2021-03-29 | 互动信息生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110336504.0A CN115130453A (zh) | 2021-03-29 | 2021-03-29 | 互动信息生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115130453A true CN115130453A (zh) | 2022-09-30 |
Family
ID=83375539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110336504.0A Pending CN115130453A (zh) | 2021-03-29 | 2021-03-29 | 互动信息生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115130453A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801483A (zh) * | 2023-02-10 | 2023-03-14 | 北京京能高安屯燃气热电有限责任公司 | 一种信息共享处理方法及系统 |
-
2021
- 2021-03-29 CN CN202110336504.0A patent/CN115130453A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801483A (zh) * | 2023-02-10 | 2023-03-14 | 北京京能高安屯燃气热电有限责任公司 | 一种信息共享处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
Roy et al. | Towards cross-domain learning for social video popularity prediction | |
US20220237222A1 (en) | Information determining method and apparatus, computer device, and storage medium | |
CN111767403B (zh) | 一种文本分类方法和装置 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN111723295B (zh) | 一种内容分发方法、装置和存储介质 | |
CN112231563B (zh) | 一种内容推荐方法、装置及存储介质 | |
CN111507097A (zh) | 一种标题文本处理方法、装置、电子设备及存储介质 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
CN113590928A (zh) | 内容推荐方法、装置及计算机可读存储介质 | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
CN111831924A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN114491149A (zh) | 信息处理方法及装置、电子设备、存储介质、程序产品 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN112231554B (zh) | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN113656560B (zh) | 情感类别的预测方法和装置、存储介质及电子设备 | |
WO2022148108A1 (en) | Systems, devices and methods for distributed hierarchical video analysis | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN115115049A (zh) | 神经网络模型的训练方法、装置、设备、介质及程序产品 | |
CN113569091A (zh) | 视频数据的处理方法、装置 | |
CN112269877A (zh) | 数据标注方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |