CN113392315A

CN113392315A - 一种主题类型挖掘方法、装置、设备及存储介质

Info

Publication number: CN113392315A
Application number: CN202011125470.2A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-09-14

Abstract

本发明涉及人工智能技术领域，具体是一种主题类型挖掘方法、装置、设备及存储介质，所述方法包括：获取待挖掘的目标内容，确定所述目标内容的标题信息和标签信息；获取与所述目标内容相关的至少一条评论信息；基于预先建立的双塔模型，利用所述标题信息、所述标签信息和所述至少一条评论信息确定所述目标内容对应的至少一个第一语义向量；为每个所述第一语义向量在预先建立的语义向量检索库中确定与之相匹配的第二语义向量，得到第二语义向量集；其中，所述语义向量检索库包括基于所述双塔模型为多个候选主题类型的特征描述文本提取的第二语义向量；根据所述第二语义向量集确定所述目标内容的主题类型。本发明能够提高主题类型挖掘的准确性。

Description

一种主题类型挖掘方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，特别涉及一种主题类型挖掘方法、装置、设备及存储介质。

背景技术

在移动互联网快速发展的时代，随着内容生产的门槛降低，无论是图文内容还是视频内容均获得了飞速的发展。

为了让用户准确地获取到感兴趣的优质内容，推荐系统应运而生。目前的推荐系统采用的内容推荐方法，主要是将内容生产者上传的图文内容或者视频内容进行审核、筛选后放入推荐内容池，然后基于用户的画像特征，通过推荐算法例如协同推荐、矩阵分解、监督学习算法逻辑回归(Logistic Regression)模型、基于深度学习的模型和梯度提升决策树(Gradient Boosting Decision Tree，GBDT)等结合画像特征来进行推荐。

目前对内容进行审核和筛选主要包括人工审核和机器处理，人工审核主要查看是否标题党、是否无营养、是否造谣等等，机器处理主要通过机器学习和自然语言处理技术对内容进行过滤和处理，过滤敏感的政治、法律或者色情内容，同时对标题党、同质化内容进行去重处理。但是由于内容本身的复杂性和内容形式的多样性，以及由于模型本身语义理解能力的限制，导致很多需要背景知识处理的内容质量问题都难以处理。很多内容比如深度、实用、有趣的内容由于存在个性化，非常难以定义，不同用户感受不一样，难以积累大量的样本，导致机器处理无法进行识别和判断，人审核的时候也难以把握质量标准。因此如何准确地挖掘内容的主题信息，帮助用户从海量的内容中筛选出更具吸引力的优质内容，提高用户的体验，成为十分关注的研究课题。

发明内容

针对现有技术的上述问题，本发明的目的在于提供一种主题类型挖掘方法、装置、设备及存储介质，能够提高主题类型挖掘的准确性，提高挖掘效率。

为了解决上述问题，本发明一方面提供一种主题类型挖掘方法，包括：

获取待挖掘的目标内容，确定所述目标内容的标题信息和标签信息；

获取与所述目标内容相关的至少一条评论信息；

基于预先建立的双塔模型，利用所述标题信息、所述标签信息和所述至少一条评论信息确定所述目标内容对应的至少一个第一语义向量；

为每个所述第一语义向量在预先建立的语义向量检索库中确定与之相匹配的第二语义向量，得到第二语义向量集；其中，所述语义向量检索库包括基于所述双塔模型为多个候选主题类型的特征描述文本提取的第二语义向量；

根据所述第二语义向量集确定所述目标内容的主题类型。

本发明另一方面提供一种主题类型挖掘装置，包括：

目标内容获取模块，用于获取待挖掘的目标内容，确定所述目标内容的标题信息和标签信息；

评论信息获取模块，用于获取与所述目标内容相关的至少一条评论信息；

第一语义向量确定模块，用于基于预先建立的双塔模型，利用所述标题信息、所述标签信息和所述至少一条评论信息确定所述目标内容对应的至少一个第一语义向量；

第二语义向量确定模块，用于为每个所述第一语义向量在预先建立的语义向量检索库中确定与之相匹配的第二语义向量，得到第二语义向量集；其中，所述语义向量检索库包括基于所述双塔模型为多个候选主题类型的特征描述文本提取的第二语义向量；

主题类型确定模块，用于根据所述第二语义向量集确定所述目标内容的主题类型。

本发明另一方面提供一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述的主题类型挖掘方法。

本发明另一方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如上述的主题类型挖掘方法。

由于上述技术方案，本发明具有以下有益效果：

本发明的主题类型挖掘方法，基于双塔模型，利用目标内容的标题信息、标签信息，以及至少一条评论信息来确定所述目标内容的主题类型，充分利用了后验评论数据来挖掘目标内容的主题类型，能够提高主题类型挖掘的准确性，提高挖掘效率，从而加速优质主题内容的发现。并且，本发明通过利用用户评论信息挖掘目标内容的主题类型，能够用于不同领域和不同类型的目标内容的挖掘，具有较强的适应性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明一个实施例提供的实施环境示意图；

图2是本发明一个实施例提供的主题类型挖掘方法的流程图；

图3是本发明一个实施例提供的评论实例的示意图；

图4是本发明另一个实施例提供的主题类型挖掘方法的流程图；

图5是本发明一个实施例提供的双塔模型的结构示意图；

图6是本发明一个实施例提供的模型训练方法的流程图；

图7是本发明一个实施例提供的主题类型挖掘装置的结构示意图；

图8是本发明一个实施例提供的主题类型挖掘系统的结构示意图；

图9是本发明一个实施例提供的服务器的结构示意图。

具体实施方式

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的方案涉及人工智能的机器学习领域和自然语言处理领域。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。自然语言处理(Nature Language Processing，NLP)是一门融语言学、计算机科学、数学于一体的科学，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，因此这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系；自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本发明实施例中所涉及的相关术语做以下解释：

PGC：Professional Generated Content，专业生产内容，指专业生产内容的机构或者组织生产的内容。

UGC：User Generated Content，用户原创内容，是指由终端用户生产和共享的内容，例如社交媒体和在线平台上的文本、音频、图像和视频等。它是伴随着以提倡个性化为主要特点的Web2.0概念而兴起的，是一种用户使用互联网的新方式，即由原来的以下载为主变成下载和上传并重。

PUGC：Professional User Generated Content，专业用户生产内容，是以UGC形式，产出的相对接近PGC的内容。

MCN：Multi-Channel Network，多渠道网络，是一种多频道网络的产品形态，将PGC内容联合起来，在资本的有力支持下，保障内容的持续输出，从而最终实现商业的稳定变现。

Feeds：消息来源，又称为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源，是一种资料格式，网站透过它将最新资讯传播给用户，通常以时间轴方式排列，时间轴是Feeds最原始最直接也最基本的展示形式。将Feeds汇流于一处称为聚合，而用于聚合的软体称为聚合器，对用户而言，聚合器是专门用来订阅网站的软件，一般亦称为简易信息聚合(Really Simple Syndication，RSS)阅读器、Feed阅读器、新闻阅读器等。

BERT模型：Bidirectional Encoder Representation from Transformers，即双向Transformer的编码器，是2018年谷歌提出的一种预训练模型。BERT模型的主体是一个Transformer模型，用于提取文本特征，能够充分描述字符级、词级、句子级甚至句间关系特征。

嵌入表示：embedding，在数学上表示一个映射关系(F:X->Y)。在自然语言处理中，嵌入表示特指从语义空间到向量空间的映射结果，即用一个低维度向量表示一个实体。

Faiss：FacebookAI团队开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。

参考说明书附图1，其示出了本发明实施例提供的一种实施环境示意图，该实施环境可以包括终端110和服务器120。所述终端110以及所述服务器120可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

所述终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。所述终端110可以运行有一个或多个客户端，所述多个客户端可以为同一类型的客户端，也可以为不同类型的客户端。

所述服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在实际应用中，所述客户端可以为资讯类应用的客户端，例如RSS阅读器、Feed阅读器、新闻阅读器等，用户打开、登录或点击所述客户端后可以生产或者浏览图文/视频内容，用户在浏览内容后，还可以对内容进行评论、点赞、转发或收藏等互动行为。当用户在所述终端110生产内容后，所述终端110可以将生产的内容发送至所述服务器120中，所述服务器120可以对该内容进行审核、筛选和处理，并分发给其他终端110，其他终端110可以以Feeds流形式展示出来供用户快速刷新。当用户在所述终端110对内容进行评论时，所述终端110可以将评论信息发送至所述服务器120中，所述服务器120可以利用所述评论信息对该内容的主题类型进行挖掘，从而达到加速优质主题内容的发现，使得优质内容能够得到更好的分发的目的。

需要说明的是，图1仅仅是一种示例。

参考说明书附图2，其示出了本发明一个实施例提供的主题类型挖掘方法的流程，该方法可以应用于图1中的服务器中。具体的如图2所示，所述方法可以包括以下步骤：

S201：获取待挖掘的目标内容，确定所述目标内容的标题信息和标签信息。

本发明实施例中，所述目标内容可以为各个咨询类应用或者平台中的内容，包括图片内容、文本内容和视频内容等，所述目标内容可以为UGC内容、PGC内容，也可以为PUGC内容，本发明实施例不做限定。

本发明实施例中，所述目标内容的标签信息可以为预先通过机器算法和/或人工进行标注的，例如可以在分发所述目标内容之前进行审核、筛选和处理的过程中进行标注，也可以为所述目标内容的生产者在生产所述目标内容时输入的，所述标签可以表示所述目标内容的内容信息、情感分类、生产者信息和目标用户信息等。

S203：获取与所述目标内容相关的至少一条评论信息。

本发明实施例中，可以预先设定一个时间窗口(例如10分钟)，获取在这个时间窗口内产生的针对所述目标内容的所有评论信息，来确定所述目标内容的主题类型，所述评论信息可以包括浏览该目标内容的至少一个用户所发布的至少一条评论。在一个示例中，如图3所示，其示出了一个关于美女运动员的评论实例，可以获取到“漂亮。田径游泳排球美女如云啊”和“仙女”等评论信息。

在一个可能的实施例中，获取到与所述目标内容相关的至少一条评论信息之后，还可以对所述至少一条评论信息进行预处理。具体地，所述预处理一方面可以包括去掉评论信息中的噪声，包括去掉以下类型的噪声：(1)重复无意义单字，例如“哈哈哈哈哈哈”；(2)重复拼音，例如“红红火火恍恍惚惚”；(3)重复人名，例如“肖战肖战肖战肖战”；(4)不通顺评论，例如“三大几乎是大街上的骄傲快速建立”，这种不通顺的评论可以通过单独的不通顺模型进行识别；(5)全表情评论；(6)长度较短评论，例如可以是3个字及以内的评论；(7)低俗，谩骂，灌水等低质量的评论，可以通过单独的识别模型进行识别。另一方面，可以从评论用户角度出发，结合用户的画像，对评论信息进行筛选。一般来说具有如下特征的用户发表的评论信息质量比较高：(1)头衔，评论头衔较高的用户评论活跃，这类用户的评论应该受到重视；(2)学历，高学历人群思考完整性相对较好，所使用的词汇可能会比较好，不容易出现“好好好、赞赞赞”等比较水的评论；(3)历史评论互动数，某个用户之前发表过的评论得到的点赞数特别多，可以在一定程度上帮助预测他的最新评论的质量；(4)用户画像，通过历史行为统计发现用户活跃的特征，提高一定的权重。例如某个活跃度较高的用户的核心兴趣是科技，内容消费大部分是科技内容，他在该领域可能有一定“深度”见解。

在一个可能的实施例中，结合参考说明书附图4，所述获取与所述目标内容相关的至少一条评论信息之后，还可以包括对所述至少一条评论信息进行筛选处理；具体地，所述筛选处理可以包括：

S204：利用预设情感分析模型对所述至少一条评论信息进行情感分析，分别确定每条评论信息的情感倾向；从所述至少一条评论信息中筛选具有预设情感倾向的评论信息。

具体地，为了挖掘优质的主题内容，可以对评论信息的情感倾向进行分析，选择有效正向或者中性的至少一条评论信息。这些评论信息本身的情感倾向是正向的，相当于是利用用户反馈积极的评论信息进行主题类型挖掘，通过评论本身情感倾向类型对应关联挖掘的内容性质。具体可以采用文本分类任务的卷积神经网络模型(Text ConvolutionNeural Network,TextCNN)和长短时记忆网络(Long Short-Term MemoryNetwork，LSTM)有监督学习的模型构建所述预设情感分析模型，得到各条评论信息的情感倾向。需要说明的是，也可以利用现有的其他情感分析模型分析评论信息的情感倾向，本发明实施例不做限定。

S205：基于预先建立的双塔模型，利用所述标题信息、所述标签信息和所述至少一条评论信息确定所述目标内容对应的至少一个第一语义向量。

本发明实施例中，可以预先建立双塔模型，并针对获取到的每条评论信息(或者可以是筛选后的每条评论信息)，基于所述双塔模型，利用所述标题信息、所述标签信息和所述评论信息确定一个第一语义向量，由于所述评论信息可以为多条，所述第一语义向量也可以为多个，所述第一语义向量与所述评论信息为一一对应关系。

在一个可能的实施例中，所述双塔模型可以包括第一子模型和第二子模型，所述第一子模型可以包括语义表示层和全连接层；

所述基于预先建立的双塔模型，利用所述标题信息、所述标签信息和所述至少一条评论信息确定所述目标内容对应的至少一个第一语义向量可以包括：

利用所述语义表示层对所述标题信息和所述标签信息分别进行处理，得到所述标题信息的语义向量和所述标签信息的语义向量；

利用所述语义表示层对所述至少一条评论信息进行处理，分别得到每条评论信息的语义向量；

针对每条评论信息，利用所述全连接层对所述评论信息的语义向量、所述标题信息的语义向量和所述标签信息的语义向量进行融合，得到所述目标内容对应的第一语义向量。

在一个可能的实施例中，由于所述目标内容的标题信息和标签信息是固定的，因此还可以预先通过BERT模型提取所述标题信息的语义向量和所述标签信息的语义向量，在进行主题类型挖掘的过程中可以直接使用所述标题信息的语义向量和所述标签信息的语义向量。

在一个示例中，结合参考说明书附图5，所述双塔模型可以分为两侧(每一侧即对应一个子模型)，左侧的子模型为第一子模型，也可以称为用户&文本塔(User&Contenttower)，所述第一子模型可以包括BERT模型和全连接层，所述BERT模型可以用于提取目标文本的标签信息、标题信息以及用户的评论信息的语义向量，所述全连接层可以将得到的各个语义向量融合为一个与所述目标内容相关的第一语义向量。右侧的子模型为第二子模型，也可以称为目标塔(Target tower)，所述第二子模型也可以包括BERT模型，所述BERT模型可以用于提取多个候选主题类型的特征描述文本的第二语义向量。进而可以利用K-最近邻法(K-NearestNeighbor，KNN)进行检索，或者利用Faiss进行向量检索，确定所述目标内容的主题类型。

在实际应用中，综合模型效果与效率两方面考虑，可以选择2层BERT模型作为实际模型，在损失少量精度的前提下，大幅提高推理速度。当然，也可以选择更多层BERT模型作为实际模型，本发明实施例不做限定。

S207：为每个所述第一语义向量在预先建立的语义向量检索库中确定与之相匹配的第二语义向量，得到第二语义向量集；其中，所述语义向量检索库包括基于所述双塔模型为多个候选主题类型的特征描述文本提取的第二语义向量。

本发明实施例中，可以预先基于所述双塔模型的第二子模型为多个候选主题类型的特征描述文本提取第二语义向量，将所述第二语义向量存储至语义向量检索库中。所述第二子模型可以包括BERT模型，所述多个候选主题类型以及对应的特征描述文本可以是事先定义的，具有非常丰富的语义信息，一般情况下都是网络上影响力大、用户关心和有兴趣的、能够引入讨论的主题内容。具体地，可以根据不同应用场景及用户需求对内容进行分类，例如可以划分有趣内容、深度内容、实用内容。然后结合具体的类型类目和制作及情节手法，又可以分为很多子主题的细分内容，例如游戏类的，可以划分搞笑游戏、精彩操作、创意剧情；生活类的，可以划分街拍、自拍、模仿秀，反差、猎奇、悬念；网红内容的，可以划分段子、整蛊、鬼畜；美食类的，可以划分美食菜谱、美食探店、吃播；萌宠类的，可以划分动物日常、动物剧情、喂养护理等。另外，还有更加语义丰富和抽象的用户视角内容，例如用户通过评论和交互，会给出很多内容对应主题的相关讨论，包括实用内容、网课趣事、美女运动员、秀恩爱、彩礼讨论、宠物纠纷、直播纠纷、维权投诉、创业经验、拆迁现场、扫黑除恶等等。

在一个可能的实施例中，所述为每个所述第一语义向量在预先建立的语义向量检索库中确定与之相匹配的第二语义向量，得到第二语义向量集可以包括：

针对每个第一语义向量，确定所述语义向量检索库中每个第二语义向量与所述第一语义向量的相似度；

获取与所述第一语义向量的相似度满足预设条件的第二语义向量，作为与所述第一语义向量相匹配的第二语义向量；

将通过每个所述第一语义向量确定的第二语义向量进行汇总，得到第二语义向量集。

具体地，所述获取与所述第一语义向量的相似度满足预设条件的第二语义向量，作为与所述第一语义向量相匹配的第二语义向量可以包括：

根据所述相似度的大小，由大到小对所述语义向量检索库中每个第二语义向量进行排序；

将排序靠前的预设数量个第二语义向量作为与所述第一语义向量相匹配的第二语义向量。

在实际应用中，可以通过两个向量的夹角的余弦值来度量向量之间的相似性，可以根据实际情况为每个所述第一语义向量选取一个或者多个相匹配的第二语义向量，即所述第一语义向量可以匹配一个第二语义向量，也可以匹配多个第二语义向量，所述至少一个第一语义向量对应的所有第二语义向量即组成所述第二语义向量集。

S209：根据所述第二语义向量集确定所述目标内容的主题类型。

本发明实施例中，可以将所述至少一个评论信息对应最多的候选主题类型确定为所述目标内容的主题类型。由于所述第一语义向量与所述评论信息一一对应，则可以将第一语义向量对应的候选主题类型作为评论信息对应的候选主题类型，而针对每个第一语义向量，可以利用与之相匹配的第二语义向量对应的候选主题类型确定其对应的候选主题类型。

在一个可能的实施例中，所述根据所述第二语义向量集确定所述目标内容的主题类型可以包括：

针对每个第一语义向量，根据所述第二语义向量集中与之相匹配的第二语义向量确定所述第一语义向量对应的候选主题类型；

统计相同的候选主题类型的数量，将数量最多的候选主题类型确定为所述目标内容的主题类型。

在实际应用中，可以通过K最近邻分类算法确定各个第一语义向量对应的候选主题类型。K最近邻分类算法是数据挖掘分类技术中最简单的方法之一，所谓K最近邻，就是K个最近的邻居的意思，即每个样本都可以用它最接近的K个邻近值来代表。KNN分类算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分类样本所属的类别。

在实际应用中，针对每个第一语义向量，还可以利用Faiss进行向量检索，取排名靠前的一个或者多个第二语义向量作为与所述第一语义向量相匹配的第二语义向量，并根据获取到的第二语义向量确定所述第一语义向量对应的候选主题类型。

具体地，针对每个第一语义向量，如果只选取一个之相匹配的第二语义向量，可以将所述第二语义向量对应的候选主题类型直接作为所述第一语义向量对应的候选主题类型；如果选取多个与之相匹配的第二语义向量，可以分别确定每个第二语义向量对应的候选主题类型，将多个第二语义向量对应最多的候选主题类型确定为所述第一语义向量对应的候选主题类型。

具体地，针对所述目标内容，如果只获取到一个评论信息，则得到的第一语义向量只有一个，可以将该语义向量对应的候选主题类型直接作为所述目标内容的主题类型；如果获取到多个评论信息，则得到的第一语义向量也有多个，可以将多个第一语义向量对应最多的候选主题类型确定为所述目标内容的主题类型。

在一个可能的实施例中，结合参考说明书附图6，所述方法还可以包括训练双塔模型，如图6所示，所述训练双塔模型可以包括：

S601：获取预设的多个候选主题类型以及与之对应的特征描述文本；

S603：获取预设的多个样本内容，对每个所述样本内容进行主题类型信息标注；

S605：针对每个样本内容，获取与之对应的评论信息；将所述评论信息与所述样本内容的主题类型信息进行关联，生成所述样本内容对应的训练样本对；

S607：基于预设机器学习算法，利用所述多个候选主题类型对应的特征描述文本以及所述多个样本内容对应的训练样本对构建所述双塔模型。

本发明实施例中，可以事先定义所述多个候选主题类型以及对应的特征描述文本；可以从咨询类应用或者平台中获取样本内容以及对应的评论信息，再通过人工标注对应的主题类型信息。也可以从咨询类应用或者平台中获取各个候选主题类型对应的多个样本内容，以及对应的评论信息。

在实际应用中，可以通过预先定义的优质种子评论找到一部分对应的内容，这些内容可以预先定义是哪些主题类型的内容；然后再通过内容反向查看对应的用户评论，从用户评论中选择与对应主题类型信息相关联的评论，生成评论信息和主题类型信息的关联对，这些关联对就是正向的样本；可以通过这些关联对，构建评论信息文本和主题类型关联匹配的模型，即所述双塔模型。

在一个可能的实施例中，当获取到所述评论信息后，也可以对所述评论信息进行预处理，所述预处理过程与图2所示方法实施例中的预处理过程相同。同样地，还可以利用预设情感分析模型对所述评论信息进行情感分析，分别确定每条评论信息的情感倾向，从所述评论信息中选择正向或中性的评论信息进行模型训练。

在一个示例中，样本构造的样例如表1所示，可以从多个场景中(例如短小视频内容场景)，对应相关的用户评论和主题类型，通过收集和标记大量这样对应关系的数据可以作为通过评论挖掘主题类型的正样本，来建立双塔模型。

表1

具体地，可以预先构建一个神经网络模型，所述神经网络模型可以包括第一子模型和第二子模型，所述第一子模型可以包括语义表示层和全连接层，所述语义表示层可以为BERT模型，所述第二子模型也可以包括BERT模型，可以利用深度语义匹配来训练网络，在训练过程中可以调整所述神经网络模型的参数直至收敛，得到所述双塔模型。

综上所述，本发明的主题类型挖掘方法，基于双塔模型，利用目标内容的标题信息、标签信息，以及至少一条评论信息来确定所述目标内容的主题类型，充分利用了后验评论数据来挖掘目标内容的主题类型，能够提高主题类型挖掘的准确性，提高挖掘效率，从而加速优质主题内容的发现。并且，本发明通过利用用户评论信息挖掘目标内容的主题类型，能够用于不同领域和不同类型的目标内容的挖掘，具有较强的适应性。

本发明的主题类型挖掘方法，通过利用筛选的有效正向或者中性的评论信息，基于用户观察视角来挖掘优质内容的主题类型，能够加速优质主题内容的发现，让优质主题内容能够得到更好的分发，降低人工筛选优质主题内容的成本，提高运营效率；同时能够为内容创作者提供创作方向的指导和帮助，使得在对应的内容平台上生成更多符合用户需求的优质内容，从而使得内容生态体系能够更加完善和健康。

参考说明书附图7，其示出了本发明一个实施例提供的一种主题类型挖掘装置的结构。如图7所示，所述装置可以包括：

目标内容获取模块710，用于获取待挖掘的目标内容，确定所述目标内容的标题信息和标签信息；

评论信息获取模块720，用于获取与所述目标内容相关的至少一条评论信息；

第一语义向量确定模块730，用于基于预先建立的双塔模型，利用所述标题信息、所述标签信息和所述至少一条评论信息确定所述目标内容对应的至少一个第一语义向量；

第二语义向量确定模块740，用于为每个所述第一语义向量在预先建立的语义向量检索库中确定与之相匹配的第二语义向量，得到第二语义向量集；其中，所述语义向量检索库包括基于所述双塔模型为多个候选主题类型的特征描述文本提取的第二语义向量；

主题类型确定模块750，用于根据所述第二语义向量集确定所述目标内容的主题类型。

在一个可能的实施例中，所述装置还可以包括筛选模块，用于对所述至少一条评论信息进行筛选处理，包括：利用预设情感分析模型对所述至少一条评论信息进行情感分析，分别确定每条评论信息的情感倾向；从所述至少一条评论信息中筛选具有预设情感倾向的评论信息。

在一个可能的实施例中，所述装置还可以包括双塔模型训练模块，所述双塔模型训练模块可以包括：

候选主题类型获取单元，用于获取预设的多个候选主题类型以及与之对应的特征描述文本；

样本内容获取单元，用于获取预设的多个样本内容，对每个所述样本内容进行主题类型信息标注；

训练样本对关联单元，用于针对每个样本内容，获取与之对应的评论信息；将所述评论信息与所述样本内容的主题类型信息进行关联，生成所述样本内容对应的训练样本对；

双塔模型构建单元，用于基于预设机器学习算法，利用所述多个候选主题类型对应的特征描述文本以及所述多个样本内容对应的训练样本对构建所述双塔模型。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与相应方法实施例属于同一构思，其具体实现过程详见对应方法实施例，这里不再赘述。

本发明一个实施例还提供了一种主题类型挖掘系统，参考说明书附图8，所述系统可以包括内容生产端801、内容消费端802、上下行内容接口服务器803、内容数据库804、调度中心服务器805、人工审核系统806、机器处理系统807、互动及统计上报接口808、互动内容数据库809、主题内容向量库810、主题挖掘服务811和主题挖掘模型812；

所述内容生产端801为PGC、UGC、MCN或者PUGC的内容生产者，可以通过移动端或者后端应用程序接口(Application Programming Interface，API)系统，提供本地或者拍摄的图文内容，视频或者图集内容。

所述内容生产端801还可以通过和上下行内容接口服务器的通讯，先获取上传服务器接口地址，然后在上传本地文件，拍摄过程当中本地图文内容可以选择搭配的音乐，滤镜模板和图文的美化功能等等。

所述内容消费端802可以和上下行内容接口服务器通讯，获取访问图文或者视频文件的索引信息，然后下载对应的流媒体文件并且通过本地播放器进行播放。

所述内容消费端802同时可以将上传和下载过程中用户播放的行为数据、卡顿、加载时间、播放点击等上报给服务器。

所述内容消费端802还可以消费内容的互动信息，包括将内容的评论UGC短文本、点赞、转发、收藏等互动信息通过互动及统计上报接口上报。

所述上下行内容接口服务器803可以和内容生产端直接通讯，从前端提交的内容，包括内容的标题、发布者、摘要、封面图、发布时间和拍摄的图文，可以直接通过该服务器进入服务端，把文件存入内容数据库。

所述上下行内容接口服务器803还可以将图文内容的元信息，比如图文文件大小、封面图链接、码率、文件格式、标题、发布时间、作者等信息写入内容数据库。

所述上下行内容接口服务器803还可以将上传的文件提交给调度中心服务器，进行后续的内容处理和流转。

所述内容数据库804是内容的核心数据库，所有生产者发布内容的元信息都保存在该数据库中，包括图文文件大小、封面图链接、码率、文件格式、标题、发布时间、作者等，还包括视频文件大小、视频格式、是否原创或者首发，还包括人工审核过程中对内容的分类(包括一，二，三级别分类和标签信息，比如一篇讲解华为手机的文章，一级分科是科技，二级分类是智能手机，三级分类是国内手机，标签信息是华为，mate30)。

所述上下行内容接口服务器803在收到视频文件时对内容进行标准的转码操作，转码完成后异步返回元信息，主要包括文件大小、码率、规格、截取封面图这些信息都会保存在所述内容数据库804中；人工审核过程中可以读取所述内容数据库804中的信息，同时人工审核的结果和状态也会回传进入所述内容数据库804，来更新所述内容数据库804中内容的元信息。

所述调度中心服务器805负责内容流转的整个调度过程，可以通过所述上下行内容接口服务器803接收入库的内容，然后从所述内容数据库804中获取内容的元信息。

所述调度中心服务器805可以调度人工审核系统806和机器处理系统807对内容进行处理，并控制调度的顺序和优先级；对内容处理主要包括机器处理和人工审核处理，所述机器处理的核心是调用排重服务排查完全重复和相似的内容，排重的结果会写入所述内容数据库804中，完全重复的内容不会给人工进行重复的二次处理。所述排重服务对不同码率、不同清晰度、不同尺寸、部分黑屏、有无滤镜、有无logo和在相似图文内容当中插入部分广告内容和片头片尾的裁剪都可以进行处理，有效减少进入人工审核过程中处理的内容。具体地，对图文内容排重通常采用的是相似哈希(sim hash)算法，视频内容采用的是构建视频embedding向量进行排重。

所述调度中心服务器805还可以调度进入人工审核系统806进行人工审核的内容。最后通过人工审核系统806的内容可以通过内容出口分发服务，通常是推荐引擎或者搜索引擎或者运营直接的展示页面提供给所述内容消费端802。

所述调度中心服务器805还可以和主题挖掘服务811通讯，调度完成通过评论信息进行主题类型的挖掘和标记。

所述人工审核系统806是一个业务复杂的基于web数据库开发的系统，可以读取所述内容数据库804中图文内容本身的原始信息，通过人工来对图文内容是否涉及色情、赌博、政治敏感的特性进行一轮初步过滤。

在初步审核的基础之上，所述人工审核系统806还可以对内容进行二次审核，主要是对内容进行分类和标签的标注或者确认，由于图文内容本身完全通过机器学习比如深度学习还不完全成熟，所以需要通过在机器处理的机器上进行二次的人工审核处理，通过人机协作，提升图文本身标注的准确性和效率。

所述机器处理系统807可以提供图文、视频的排重服务，主要是对图文和视频进行向量化(对于图文内容通常将图文通过BERT向量化)，然后建立向量的索引，然后通过比较向量之间的距离来确定相似程度；在进行排重任务之前，可以先对标题短文本进行排重，减少后续处理的计算量。

所述互动及统计上报接口808和所述内容消费端802通讯，接收上报上来的内容评论UGC短文本、点赞、转发、收藏等互动信息；可以将接收到的评论互动数据写入所述互动内容数据库809，作为后续评论挖掘和模型训练的数据源。

所述互动内容数据库809可以保存用户的评论互动数据，为构建情感分析模型及主题挖掘模型提供训练的原始样本数据。

所述主题内容向量库810可以统一保存所有候选主题类型的embedding向量，并可以和所述主题挖掘服务811通讯，完成具体的主题挖掘过程，所述主题挖掘服务811在这里检索查询。

所述主题挖掘服务811可以将所述主题挖掘模型服务化，接收评论互动信息，接受所述调度中心服务器805的调度服务，完成主题挖掘的过程，同时和所述主题内容向量库810通讯，完成主题类型具体匹配过程和策略。

所述主题挖掘模型812可以读取所述互动内容数据库809的样本数据，按照上述方法实施例提供的模型训练方法构建相应的主题挖掘模型；所述主题挖掘模型为双塔模型，共享权重参数，可以依据收集和标记的样本量，按照需要支持和扩展的主题覆盖范围，进行定向的模型更新和升级，提升整体的挖掘效果。

本发明一个实施例还提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的主题类型挖掘方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例所提供的方法实施例可以在终端、服务器或者类似的运算装置中执行，即上述电子设备可以包括终端、服务器或者类似的运算装置。以运行在服务器上为例，如图9所示，其示出了本发明实施例提供的运行主题类型挖掘方法的服务器的结构示意图。该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Unit，CPU)910(例如，一个或一个以上处理器)和存储器930，一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中，存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器910可以设置为与存储介质920通信，在服务器900上执行存储介质920中的一系列指令操作。服务器900还可以包括一个或一个以上电源960，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口940，和/或，一个或一个以上操作系统921，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器900的通信供应商提供的无线网络。在一个实例中，输入输出接口940包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口940可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯，所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System ofMobilecommunication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(ShortMessaging Service，SMS)等。

本领域普通技术人员可以理解，图9所示的结构仅为示意，服务器900还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

本发明一个实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种主题类型挖掘方法相关的至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的主题类型挖掘方法。

可选地，在本发明实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本发明一个实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现例中提供的主题类型挖掘方法。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主题类型挖掘方法，其特征在于，包括：

获取与所述目标内容相关的至少一条评论信息；

根据所述第二语义向量集确定所述目标内容的主题类型。

2.根据权利要求1所述的方法，其特征在于，所述双塔模型包括第一子模型和第二子模型，所述第一子模型包括语义表示层和全连接层；

所述基于预先建立的双塔模型，利用所述标题信息、所述标签信息和所述至少一条评论信息确定所述目标内容对应的至少一个第一语义向量包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取与所述目标内容相关的至少一条评论信息之后，还包括：

对所述至少一条评论信息进行筛选处理，包括：

利用预设情感分析模型对所述至少一条评论信息进行情感分析，分别确定每条评论信息的情感倾向；

从所述至少一条评论信息中筛选具有预设情感倾向的评论信息。

4.根据权利要求1或2所述的方法，其特征在于，所述为每个所述第一语义向量在预先建立的语义向量检索库中确定与之相匹配的第二语义向量，得到第二语义向量集包括：

5.根据权利要求4所述的方法，其特征在于，所述获取与所述第一语义向量的相似度满足预设条件的第二语义向量，作为与所述第一语义向量相匹配的第二语义向量包括：

6.根据权利要求1或2所述的方法，其特征在于，所述根据所述第二语义向量集确定所述目标内容的主题类型包括：

7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括训练双塔模型，所述训练双塔模型包括：

获取预设的多个候选主题类型以及与之对应的特征描述文本；

获取预设的多个样本内容，对每个所述样本内容进行主题类型信息标注；

针对每个样本内容，获取与之对应的评论信息；将所述评论信息与所述样本内容的主题类型信息进行关联，生成所述样本内容对应的训练样本对；

基于预设机器学习算法，利用所述多个候选主题类型对应的特征描述文本以及所述多个样本内容对应的训练样本对构建所述双塔模型。

8.一种主题类型挖掘装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任意一项所述的主题类型挖掘方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7任意一项所述的主题类型挖掘方法。