CN116028235A

CN116028235A - 自媒体信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN116028235A
Application number: CN202111245855.7A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2023-04-28

Abstract

本申请涉及信息处理技术领域，尤其涉及一种自媒体信息处理方法、装置、电子设备及存储介质，所述方法包括：接收远程服务调用请求，所述远程服务调用请求包括待处理自媒体信息，以及所述待处理自媒体信息的任务类型标识；确定与所述任务类型标识对应的目标预处理单元和目标推理单元；基于所述目标预处理单元对所述待处理自媒体信息进行预处理，得到预处理信息；基于所述目标推理单元对所述预处理信息进行信息推理，得到对所述待处理自媒体信息的处理结果信息。本申请能够避免进行大量机器模型部署所带来的资源消耗，以及保证对内容信息处理的时效性。

Description

自媒体信息处理方法、装置、电子设备及存储介质

技术领域

本申请涉及信息处理技术领域，尤其涉及一种自媒体信息处理方法、装置、电子设备及存储介质。

背景技术

现在内容分发领域，自媒体内容的上传量大幅增长，为了保证分发内容的安全性和质量，需要在短时间内完成自媒体内容的安全性审核，目前主要是通过大量的人工审核同时辅助以机器学习模型来实现。其中大量机器模型对各种内容信息进行处理需要消耗大量的机器资源和算法资源，多个阶段的处理服务串联会有延迟，从而导致机器学习模型对内容信息处理的效率较低，且对内容信息处理的时效性得到不到保证。

发明内容

本申请所要解决的技术问题在于，提供一种自媒体信息处理方法、装置、电子设备及存储介质，能够避免进行大量机器模型部署所带来的资源消耗，以及保证对内容信息处理的时效性。

为了解决上述技术问题，一方面，本申请提供了一种自媒体信息处理方法，所述方法包括：

接收远程服务调用请求，所述远程服务调用请求包括待处理自媒体信息，以及所述待处理自媒体信息的任务类型标识；

确定与所述任务类型标识对应的目标预处理单元和目标推理单元；所述目标预处理单元为预先基于具有相同内容任务领域标识的多个内容处理模型进行抽象得到；

基于所述目标预处理单元对所述待处理自媒体信息进行预处理，得到预处理信息；

基于所述目标推理单元对所述预处理信息进行信息推理，得到对所述待处理自媒体信息的处理结果信息；

其中，所述目标预处理单元与所述目标推理单元通过内容处理管线进行串联。

另一方面，本申请提供了一种自媒体信息处理装置，包括：

调用请求接收模块，用于接收远程服务调用请求，所述远程服务调用请求包括待处理自媒体信息，以及所述待处理自媒体信息的任务类型标识；

处理单元确定模块，用于确定与所述任务类型标识对应的目标预处理单元和目标推理单元；所述目标预处理单元为预先基于具有相同内容任务领域标识的多个内容处理模型进行抽象得到；

预处理模块，用于基于所述目标预处理单元对所述待处理自媒体信息进行预处理，得到预处理信息；

处理生成确定模块，用于基于所述目标推理单元对所述预处理信息进行信息推理，得到对所述待处理自媒体信息的处理结果信息；

另一方面，本申请提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的自媒体信息处理方法。

另一方面，本申请提供了一种计算机存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行如上述的自媒体信息处理方法。

实施本申请实施例，具有如下有益效果：

本申请通过对多个内容处理模型进行远程服务化，使得在需要进行内容信息处理时，通过远程服务调用请求为请求发送方提供远程内容处理服务，从而能够避免每个请求发送方均在本地进行内容处理模型的部署，避免了过多的机器资源消耗；基于与自媒体信息的任务类型标识，确定目标预处理单元和目标推理单元，目标预处理单元基于具有相同内容任务领域标识的多个内容处理模型进行抽象得到；基于目标预处理单元和目标推理单元对待处理自媒体进行处理，得到待处理自媒体信息的处理信息。其中基于多个内容处理模型抽象得到目标预处理模型，并进行统一部署，能够避免对相同预处理单元进行重复部署，提高模型服务化部署效率；另外，远程服务化框架中的各处理单元的输出信息通过内容处理管线进行串联，从而能够降低各处理阶段之间的延时，从而为内容处理的时效性提供保障。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的实施环境示意图；

图2是本申请实施例提供的一种自媒体信息处理方法流程图；

图3是本申请实施例提供的目标预处理单元的确定方法流程图；

图4是本申请实施例提供的目标后处理单元的确定方法流程图；

图5是本申请实施例提供的一种预处理信息处理方法流程图；

图6是本申请实施例提供的一种信息处理方法流程图；

图7是本申请实施例提供的算法服务化及部署的框架示意图；

图8是本申请实施例提供的内容处理服务化框架部署示意图；

图9是本申请实施例提供的自媒体信息流内容处理算法服务化部署系统流程框架图；

图10是本申请实施例提供的一种自媒体信息处理装置示意图；

图11是本申请实施例提供的一种电子设备结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本说明书实施例中涉及的相关名词做以下解释：

RPC：Remote Procedure Call，即远程过程调用。它允许本地计算机调用另一台远程计算机上的程序，不需要了解底层网络细节，从而使得整个过程就像本地调用一样方便。

MCN(Multi-Channel Network)：是一种多频道网络的产品形态，将PGC内容联合起来，在资本的有力支持下，保障内容的持续输出，从而最终实现商业的稳定变现。

PGC(Professional Generated Content)互联网术语，指专业生产内容(视频网站)、专家生产内容(微博)。用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。也称为PPC，(Professionally-produced Content)。

UGC(User Generated Content)指用户原创内容，是伴随着以提倡个性化为主要特点的Web2.0概念而兴起的。它并不是某一种具体的业务，而是一种用户使用互联网的新方式，即由原来的以下载为主变成下载和上传并重。

PUGC(Professional User Generated Content)：是以UGC形式，产出的相对接近PGC的专业音频内容。

请参阅图1，其示出了本申请实施例提供的实施环境示意图，该实施环境可包括：至少一个第一终端110和第二终端120，所述第一终端110和所述第二终端120可通过网络进行数据通信。

具体地，第一终端110在需要进行内容处理时，向第二终端120发送远程调用服务请求，以调用部署在第二终端120的内容模型服务；第二终端120基于远程调用服务请求进行内容处理，得到内容处理结果，并返回给第一终端110。

所述第一终端110可以基于浏览器/服务器模式(Browser/Server，B/S)或客户端/服务器模式(Client/Server，C/S)与第二终端120进行通信。所述第一终端110可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中的第一终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

所述第二终端120与第一终端110可以通过有线或者无线建立通信连接，所述第二终端120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，其中服务器可以是云端服务器。

为了解决现有技术中进行大量模型部署所带来的资源消耗，以及对内容信息处理的时效性得不到保证的问题，本申请实施例提供了一种自媒体信息处理方法，该方法的执行主体可以为图1中的第二终端，请参阅图2，该方法具体可包括：

S210.接收远程服务调用请求，所述远程服务调用请求包括待处理自媒体信息，以及所述待处理自媒体信息的任务类型标识。

用于对内容进行处理的内容处理模型可分为不同的内容任务领域，且每个内容任务领域中又可包括多个不同类型的内容处理模型。具体地，内容任务领域可包括NLP(Natural Language Processing，自然语言处理)领域，以及CV(ComputerVision，计算机视觉)领域；其中NLP领域的内容处理模型可包括：敏感词识别模型、错别字识别模型、广告识别模型等；CV领域的内容处理模型可包括视频分类模型、视频检测模型、视频分割模型等。

本申请实施例中可对不同内容任务领域的多个内容处理模型进行远程服务化统一部署，从而使得在需要进行内容处理时，可直接进行远程服务化调用即可实现内容处理。

具体地，请求发送方在发送远程服务调用请求时，会确定待处理自媒体信息，以及需要对待处理自媒体信息执行的内容处理操作，可采用任务类型标识对内容处理操作进行标识，以使得第二终端在接收到远程服务调用请求时，确定采用哪个内容处理模型对待处理自媒体信息进行处理。其中，对于任务类型标识可以是请求发送方与第二终端提前约定好的，即是双方都知晓的。任务类型标识可用于标识对待处理自媒体信息的处理目标，例如任务类型标识可以为语义识别、敏感词识别、目标对象识别、视频分类等。

S220.确定与所述任务类型标识对应的目标预处理单元和目标推理单元；所述目标预处理单元为预先基于具有相同内容任务领域标识的多个内容处理模型进行抽象得到。

每个内容处理模型一般可包括预处理单元和推理单元，其中预处理单元可用于原始输入信息进行处理，以生成满足预设条件或者预设规则的预处理信息；推理单元是内容处理模型中对内容信息进行实质性处理的部分，其能够基于预处理信息进行推理、预测或者计算等操作，从而生成相应的推理结果。

可预先建立各推理单元与多个任务类型标识的对应关系，从而在已知任务类型标识时，可确定相应的目标推理单元。

对于目标预处理单元的确定方法，可参阅图3，该方法可包括：

S310.对每个内容任务领域标识对应的多个内容处理模型包含的预处理单元进行分析，确定所述多个内容处理模型的共有预处理单元；所述每个内容任务领域标识对应多个任务类型标识。

S320.基于所述共有预处理单元，得到与所述每个内容任务领域标识对应的目标预处理单元。

S330.建立所述目标预处理单元与所述多个任务类型标识的对应关系。

对于不同的内容任务领域，相应内容处理模型的预处理一般不同。例如，对于NLP领域，预处理一般可以包括分词处理、词干提取处理、词形还原处理等；对于CV领域，预处理一般可包括帧划分处理、抽帧处理、图像增强处理等。目标预处理单元用于对原始的待处理自媒体信息进行处理，以生成满足预设条件或者满足预设规则的预处理信息。从而，对于NLP领域，相应地有分词预处理单元、词干提取预处理单元、词形还原预处理单元等；对于CV领域，相应地有帧划分预处理单元、抽帧预处理单元、图像增强预处理单元等。对于不同的内容处理模型，其可能具有相同的预处理单元，例如对于敏感词检测模型和语义识别模型，均具有分词预处理单元，从而可将分词预处理单元单独抽离出来，称为一个独立的分词预处理单元，这样当后续调用语义识别服务以及敏感词识别服务时，均会先调用这个独立的分词预处理单元，然后再将分词结果输入到相应的进行语义识别的目标推理单元，以及进行敏感词识别的目标推理单元进行处理。目标推理单元为对待处理自媒体信息进行实质性处理，从而生成相应推理信息的单元，推理信息与任务类型标识相对应。

本申请实施例中对于内容处理模型的各处理单元一般是分离部署的，即目标预处理单元与目标推理单元一般是分离部署的，当需要用到哪个部分，便会调用相应的处理部分。

具体地，以NLP领域为例，当需要对待处理多媒体信息进行语义识别时，相应的目标预处理单元可以为分词预处理单元，即采用分词预处理单元对待处理自媒体信息进行分词，得到与待处理自媒体信息对应的多个分词；将多个分词输入到目标推理单元，得到待处理自媒体信息的语义信息，即目标推理单元用于基于多个分词进行语义分析与预测，得到相应的语义信息。

从而，通过将不同内容模型的共有预处理单元抽象成一个独立的预处理单元，即在部署实现某项功能的预处理单元时，部署一个即可，而不需要对于每个内容处理模型均对该共有预处理单元分别部署，从而能够避免服务化部署的重复工作，提高服务化部署效率。

另外，多个内容处理模型还可能具有非共有预处理单元，例如内容处理模型A具有预处理单元a，内容处理模型B具有预处理单元b，a和b不同，从而预处理单元a和预处理单元b为非共有预处理单元，可分别建立各非共有预处理单元与多个任务类型标识的对应关系；以便于在需要调用非共有预处理单元时，可直接基于任务类型标识进行确定，从而提高非共有预处理单元调用的灵活性和便利性。

进一步地，对于有些内容处理模型还可包括后处理单元；请参阅图4，其示出了一种目标后处理单元确定方法，该方法可包括：

S410.对每个内容任务领域标识对应的多个内容处理模型包含的后处理单元进行分析，确定所述多个内容处理模型的共有后处理单元；所述每个内容任务领域标识对应多个任务类型标识；所述后处理单元用于将所述目标推理单元输出的推理信息转换成与业务场景对应的业务结果信息。

S420.基于所述共有后处理单元，得到与所述每个内容任务领域标识对应的目标后处理单元。

S430.建立所述目标后处理单元与所述多个任务类型标识的对应关系。

对于有些目标推理单元的输出信息不能直接应用，需要在进行后处理，得到最终的输出结果；例如后处理可包括归一化处理，相应地可确定用于归一化的目标后处理单元。

对于目标后处理单元的确定过程与目标预处理过程的确定方法以及调用方法类似，在此不再赘述。

从而，通过将不同内容模型的共有后处理单元抽象成一个独立的后处理单元，即在部署实现某项功能的预处理单元时，部署一个即可，而不需要对于每个内容处理模型均对该共有预处理单元分别部署，从而能够避免服务化部署的重复工作，提高服务化部署效率。

同样地，多个内容处理模型还可能具有非共有后处理单元，例如内容处理模型C具有后处理单元c，内容处理模型D具有后处理单元d，c和d不同，从而后处理单元c和后处理单元d为非共有后处理单元，可分别建立各非共有后处理单元与多个任务类型标识的对应关系；以便于在需要调用非共有后处理单元时，可直接基于任务类型标识进行确定，从而提高非共有后处理单元调用的灵活性和便利性。

S230.基于所述目标预处理单元对所述待处理自媒体信息进行预处理，得到预处理信息。

S240.基于所述目标推理单元对所述预处理信息进行信息推理，得到对所述待处理自媒体信息的处理结果信息。

请参阅图5，其示出了一种预处理信息处理方法，该方法可包括：

S510.将所述预处理信息输入到所述目标推理单元进行信息推理，得到推理信息。

S520.基于所述待处理自媒体信息的任务类型标识，确定与所述任务类型标识对应的目标后处理单元。

S530.将所述推理信息输入到所述目标后处理单元进行信息后处理，得到对所述待处理自媒体信息的处理结果信息。

内容处理管线是指把所有内容处理服务化能力串联起来的服务，因为有多个服务按照先后顺序运行，像一个管道流水线，所以称为内容处理管线；内容处理管线能够将内容处理流转主链路上每一个需要算法处理的内容及元数据一一送入处理管线，按照事先配置的优先级和经过哪些模型来的一一经过平台的算法模型；即本申请实施例中通过内容管线能够将目标预处理单元的输出信息与目标推理单元的输出信息进行串联，从而能够降低各处理阶段之间的延时，从而为内容处理的时效性提供保障。

进一步地，所述基于所述目标预处理单元对所述待处理自媒体信息进行预处理，得到预处理信息包括：

在第一服务进程中，通过所述目标预处理单元对所述待处理自媒体信息进行预处理，得到所述预处理信息；

所述将所述预处理信息输入到所述目标推理单元进行信息推理，得到推理信息包括：

在第二服务进程中，通过所述目标推理单元对所述目标预处理信息进行信息推理，得到所述推理信息；

其中，所述第一服务进程与所述第二服务进程为不同的进程。

通过在不同的服务进程中进行信息预处理以及信息推理，能够将预处理和信息推理进行分离。具体地，基于RPC Python的多Task能力，通过预处理worker进程，根据核数高可扩展和推理进程Inference两者结合的方式来达硬件资源的重复利用，也就是说将服务化过程当中前后置处理和具体的推理进程计算过程相分离，两个进程可以在同一硬件设备部署也可以分开部署，中间可以采用进程间通讯IPC(Inter-Process Communication，进程间通信)机制，比如共享存储，消息队列等方式进行高效通讯。

进一步地，所述第一服务进程包括至少一个子进程；

所述在第一服务进程中，通过所述目标预处理单元对所述待处理自媒体信息进行预处理，得到所述预处理信息包括：

当基于所述至少一个子进程对所述待处理自媒体信息进行预处理时，预处理速度与当前任务处理速度不匹配，基于所述当前任务处理速度，调整所述第一服务进程中子进程的数量。

服务化框架能够支持2个及2个以上的计算单元，比如GPU或者CPU的核，因为上面分离部署了，实际推理计算和预处理计算可以单独进行；这里对子进程的数量调整可以与核数扩展相对应；扩展的作用是更好利用硬件设备的核数资源，如果不扩展，就无法发挥多核的作用，造成不必要的等待，比如推理的时候需要大量的预处理结果输入，但是预处理很慢，推理很快，这个时候就需要更多预处理进程，即子进程提供输入，整体速度才能更快。

请参阅图6，其示出了一种信息处理方法，该方法可包括：

S610.对所述待处理自媒体信息的处理结果信息进行目标信息检测，得到信息检测结果。

S620.当所述信息检测结果指示所述待处理自媒体信息中包含所述目标信息时，基于所述待处理自媒体信息的信息类别标识，确定对所述待处理自媒体信息的目标处理操作。

S630.对所述处理结果信息执行所述目标处理操作。

对于一些模型的结果不能直接应用，需要设置对应的后置规则或者配置策略，比如CV模型完整性识别结果，后置会依据不同内容来源或者类目设置不同的过滤后验规则等等，它不在模型当中实现，但是和某一个模型处理结果密切相关，需要保留这里灵活插入处理能力，具体实现时候在框架当中可以注册一个回调函数CallBack。比如在图片不完整识别场景中，一张美妆类目的人脸，画面是半张脸在描眉，对于美妆内容，虽然是图片不完整，但是符合美妆类目的预计，这个图片不应该过滤；但是非美妆类目比如社会新闻，半张脸展现就是不完整图片，应该过滤。类似规则和不完整检测模型结果密切相关，需要有灵活配置依赖这个结果的不同策略。

在本申请实施例中，每个算法模型开发完成以后，通过服务化框架和处理管线一键部署和管理模型的版本及迭代。随着模型和版本增多，开发团队在多模型和多版本的管理上会遇到很多问题，而模型的超参数、训练指标、存储格式等元数据的缺失更会加剧这一问题。所以服务化框架当中，专门引入了一个模型管理单元ModelManger，ModelManger是在服务化框架当中单独设计的，部署是和服务化框架在一起的，用来管理框架服务化的这个具体模型文件的不同版本。

本申请实施例提供的服务化框架(即下图当中的Ronda Serving为例，这个是服务化框架的名称)能够扩展算法服务化：支持所有内容处理领域CV/NLP领域的模型以及复杂算法逻辑。每个算法模型开发完成以后，通过服务化框架和处理管线一键部署和管理模型的版本及迭代。

请参阅图7，其示出了算法服务化及部署的框架示意图，服务化框架包括：

(1)服务化网络层统一基于RPC，即远程过程调用。它允许本地计算机调用另一台远程计算机上的程序，不需要了解底层网络细节，从而使得整个过程就像本地调用一样方便，它将网络通信底层细节及相关配置都组件化了，比如GPRC框架(Google的RPC开源框架)，这里考虑到算法模型开发语言和性能的问题，主要支持python和C++语言，基于TRpcPython，cpp的servable是基于trpc cpp，服务化部署框支持，降低服务化的成本。其他语言支持可以实现同样接口方式扩展接入；代码语言选择方面，比如Python数据预处理具备快速实验调试的特点主要服务于训练端，C++数据预处理具备性能高的特点主要服务于推理端，C++数据预处理和Python具有相同API接口。

(2)Servable服务化处理模型包括推理前后置处理逻辑，图7中的预处理和后处理部分，允许定制，比如CV模型都需要不少相同的前置的处理比如视频统一抽帧和图片增强，NLP模型统一的分词前置处理。还有一些模型的结果不能直接应用，需要设置对应的后置规则或者配置策略，比如CV模型完整性识别结果，后置会依据不同内容来源或者类目设置不同的过滤后验规则等等，它不在模型当中实现，但是和某一个模型处理结果密切相关，需要保留这里灵活插入处理能力，具体实现时候在框架当中可以注册一个回调函数CallBack。

(3)通过model manager来进行模型上线和动态更新，管理模型的不同版本和确定生效的版本，具体配置策略写入的入口是通过图7中的中控服务Sever来实现，它通常是一个面向业务的算法模型Web配置策略入口。其中，中控服务Server可以理解为：上层配置系统来管理一个具体业务对应服务化服务集群的整体入口，它对上层策略层提供管理模型版本及应用策略的入口。模型服务在线serving的部分，主要是在servable这一层，如果原生算法框架是tensorflow，或者libtorch的模型可以继续使用这些模型框架原生的servable，但如果是pytorch或者sklearn的模型或者需要前后预处理的内容算法场景，可以使用的python servable；这里的无量Server是指特定的大模型比如模型大小超过1T，千亿级别参数，它的服务化需要单独来进行，这里主要用于说明在服务化这一层可以依据不同规模支持扩展。

请参阅图8，其示出了内容处理服务化框架部署示意图，包括：

(1)框架要能解决传统python服务面临多进程和多线程的选择，硬件资源利用效率不够，python服务没法支持多进程，只能通过协程方式实现，这样多核设备的硬件资源没法被重复利用；鉴于此这里的Serving服务化框架基于RPC Python的多Task能力，通过预处理worker进程，根据核数高可扩展和推理进程Inference两者结合的方式来达硬件资源的重复利用，也就是说将服务化过程当中前后置处理和具体的推理进程计算过程相分离，2个进程可以在同一硬件设备部署也可以分开部署，中间可以采用进程间通讯IPC机制，比如共享存储，消息队列等方式进行高效通讯。

(2)如下图所示算法推理部署框架图，对于推理过程采用独立inference进程，可以支持GPU批处理，也可以支持CPU，可以依据需要时间延迟和成本预算，选择不同的硬件计算设备，最终整体提升服务吞吐率。

平台算法服务化及部署模块直接加载NLP/CV算法导出的模型，根据配置来实例化数据预处理逻辑，提供统一的API快速实现模型推理代码，上游服务业务通过API接口或者so包调用推理库，这样深度学习模型服务化，进行一键轻量级的部署方案，为了避免衰退，可以定期利用每个算法模型对应的BenchMark及收集的反馈数据通过算法评测服务获取模型的准召数据，及时发现模型的衰退情况并且更新模型。

请参阅图9，其示出了自媒体信息流内容处理算法服务化部署方法和系统流程框架图，在信息流业务当中，涉及到CV，NLP等大量的不同模型，内容处理管线上的模型种类很多，每个模型又不完全一样，结构复杂，每个对应能力模型(比如内容安全性及内容质量的标题党，广告营销，假新闻，历史旧闻，错别字，不通顺，文不对题，广告这些属于NLP处理的模型，还有比如图片清晰度，视频清晰度，视频内容理解比如标签，分类，视频目标检测，视频剪辑和分割等等CV处理模型等)服务化部署过程当中，通过内容处理管线，按照不同优先级和内容机制不同，配置处理不同的平台算法服务，各种不同的模型通过一个服务化框架来服务化模型，同时能够对不同的模型提供算法模型的评测，及时发现模型的衰退，保持服务及时的更新。

自媒体信息流内容处理算法服务化部署方法和系统各个服务模块的主要功能如下：

一.内容生产和消费端

(1)PGC或者UGC，MCN或者PUGC的内容生产者，通过移动端或者后端接口API系统，提供本地或者拍摄的视频内容，这些都是分发内容的主要内容来源；

(2)通过和上下行内容接口服务的通讯，先获取上传服务器接口地址，然后在上传本地文件，拍摄过程当中本地视频内容可以选择搭配的音乐，滤镜模板和视频的美化功能等等，如果是图文内容直接通过发文端编辑发布；

(3)作为消费者，和上下行内容接口服务器通讯，获取访问视频文件的索引信息，然后和视频存储服务器通讯，下载对应的流媒体文件并且通过本地播放器来播放观看；

(4)同时将上传和下载过程当中用户播放的行为数据，卡顿，加载时间，播放点击等上报给统计服务器，同时提供明显的内容质量反馈和举报入口，包括质量问题类型，对应上述各种低质内容特征，对应的视频文件唯一ID或者图文的rowkey及图文内容的唯一标识；

(5)消费端通常通过Feeds流方式消费内容数据。

二.上下行内容接口服务器

(1)和内容生产端直接通讯，从前端提交的内容，通常是视频内容的标题，发布者，摘要，封面图，发布时间，或者是拍摄的视频直接通过该服务器进入服务端，把文件存入视频内容存储服务；

(2)将视频内容的元信息，比如视频文件大小，封面图链接，码率，文件格式，标题，发布时间，作者等信息，图文内容是指标题，作者，封面图，来源渠道等信息写入内容数据库；

(3)将上传的文件提交给调度中心服务器，进行后续的内容处理和流转；

三.内容数据库

(1)自媒体生产内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是内容本身的元信息频文件大小，封面图链接，码率，文件格式，标题，发布时间，作者，还包括人工审核过程中对内容的分类(包括一，二，三级别分类和标签信息，比如一段关于华为手机的视频或者图文内容一级分类是科技，二级分类是手机，三级分类是国内手机，标签可能是××)；

(2)上下行内容接口服务器将发布的文件存储在内容存储服务器上以后，内容存储服务器会对视频内容进行标准的转码操作，转码完成后异步返回元信息主要是文件大小，码率，规格，截取封面图这些信息都会保存在内容数据库当中，如果是图文和图集内容，保存原始的图片数据；

(3)人工审核过程当中会读取内容数据库当中的信息，同时人工审核的结果和状态也会回传进入内容数据库；

(4)调度中心对内容处理主要包括机器处理和人工审核处理，这里机器处理核心就是调用排重服务，排重的结果会写入内容数据库，完全重复一样的内容不会给人工进行重复的二次处理

四.调度中心

(1)负责内容流转的整个调度过程，通过上下行内容接口服务接收入库的内容，然后从内数据库中获取内容的元信息；

(2)调度人工审核系统和机器处理系统，控制调度的顺序和优先级；

(3)对于视频内容，先和排重服务服务通讯，后者对不同码率，不同清晰度，不同尺寸，部分黑屏，有无滤镜，有无水印logo等，实际实现过程当中这些都是通过内容处理关系服务实现不同的模型，对于图文内容(比如内容安全性及内容质量的标题党，广告营销，谣言，旧闻，错别字，不通顺，低俗色情等等)是通过内容处理管线上的NLP模型实现；

(4)调度进入人工审核系统需要进行人工审核的内容，过滤掉机器识别不了需要人工确认的内容；

(5)最后通过人工审核系统的内容启用通过内容出口分发服务通常是推荐引擎或者搜索引擎或者运营直接的展示页面提供给终端的内容消费者；

五.人工审核系统&样本数据库

(1)需要读取内容数据库中内容本身的原始信息，通常是一个业务复杂的基于web数据库开发的系统，通过人工来对机器处理不了的内容是否涉及敏感的特性进行一轮初步过滤；

(2)在初步审核的基础之上，对内容进行二次审核，主要是对内容进行分类和标签的标注或者确认；

(3)接受调度中心服务的调度，对内容消费端用户投诉和举报反馈的内容进行人工复核，复核满足条件的内容写入样本数据库，供后续平台算法系统进行机器建模；

(4)上线以后的模型和服务的流水，需要人员定期巡检，确定模型能力是否衰退或者变化，发现的异常案例直接上报更新下一个周期更新模型的样本库当中，确保模型能力不衰退，这个主要由人工巡检系统与人工审核系统配合来完成；

(5)各种渠道收集和处理的样本结果保存在样本数据库当中；

六.内容存储服务

(1)通常是一组分布范围很广，离C侧用户很久的就近接入的存储服务器通常外围还有CDN加速服务器进行分布式缓存加速，通过上下行内容接口服务器将内容生产者上传的内容保存起来；

(2)终端消费者在获取内容索引信息后即内容访问的低质，也可以直接访问内容存储服务器下载对应的内容；

七.内容处理算法管线

(1)按照上面提到的处理步骤和策略，和调度服务中心通讯，完成内容处理的各个平台算法模型服务的配置和调度，确保调查和处理的结果满足配置条件；

(2)和算法评测服务通讯，主要是为了避免模型衰退，可以定期利用每个算法模型对应的BenchMark及收集的反馈数据通过算法评测服务获取模型的准召数据，及时发现模型的衰退情况并且更新模型。

八.算法模型库

(1)包括内容处理模型比如内容安全性及内容质量的标题党，广告营销，假新闻，历史旧闻，错别字，不通顺，文不对题，广告这些属于NLP处理的模型；

(2)还有比如图片清晰度，视频清晰度，视频内容理解比如标签，分类，视频目标检测，视频剪辑和分割等等CV处理模型等等，具体依赖于处理管线上业务的实际需求；

九.平台算法服务及部署

(1)读取样本数据库的各种样本数据，利用不同机器学习框架来对信息流内容处理和理解进行建模，并且按照上面描述模型算法服务化框架及部署的进行服务化；

(2)和内容处理管线通讯，完成各个平台算法服务的调度；

十.线上巡检

(1)上线以后的模型和服务的流水，需要人员定期巡检，主动确定模型能力是否衰退或者变化，发现的异常案例直接上报更新下一个周期更新模型的样本库当中，确保模型能力不衰退，这个是监控系统的重要组成部分；

十一.内容排重服务

通过内容本身的特征指纹特征进行比较(比如图文内容计算SIMHASH，视频内容计算是的指纹embeeding)，重复相似的文件指保留一份延续到后续的链路，减少链路上不必要的重复文件。

十二.统计接口和统计分析服务

(1)接受内容消费端的消费流水数据上报，作为后续统计数据的主要来源；

(2)和平台算法服务及部署模块铜须，提供用户消费的后验行为数据，比如点击率，消费时长，PV和VV等等；

十三.用户反馈及举报接口服务

(1)接受内容消费端对于内容质量的反馈和举报信息的上报，然后调用人工审核系统进行质量内容的审核和标记；

(2)审核的结果写入样本数据库，作为信息流内容质量控制系统进行机器样本建模监控系统的数据主要来源。

本申请通过基于远程过程调用RPC远程过程调用技术提供机器学习服务化框架来加速服务化效率，利用算法模型+调度配置+算法评测进行一键部署算法模型。其核心思想：将信息流内容处理算法模型部署的前置处理和后置处理进行抽象提炼，利用RPC远程过程调用框架对算法模型服务过程进行封装和接管，大幅度降低服务化实现和部署的成本。具体实现包括：(1)网络层统一基于RPC框架，屏蔽网络通信底层及配置；(2)算法模型服务化支持模型推理和前后处理逻辑，支持算法定制；(3)同时通过模型管理model manager来进行模型上线和更新及版本维护，服务化框架能够扩展算法服务化，支持所有信息流内容处理cv/nlp领域的模型以及复杂算法逻辑。通过本发明，能够提升信息流内容分发不同算法框架得到算法模型环境优化部署，提升研发效率；能够解决传统python服务面临多进程和多线程的选择，硬件资源利用效率不够的问题，充分利用硬件资源；能够针对信息流业务场景，提供的统一的前后置处理，基于RPC Python的多任务能力和预处理worker进程分离部署，支持核数配置扩展；能够利用独立inference进程，支持GPU和CPU批处理对算法管线处理流水的效率和服务吞吐率得到显著的提升。

请参阅图10，本实施例还提供了一种自媒体信息处理装置，包括：

调用请求接收模块1010，用于接收远程服务调用请求，所述远程服务调用请求包括待处理自媒体信息，以及所述待处理自媒体信息的任务类型标识；

处理单元确定模块1020，用于用于确定与所述任务类型标识对应的目标预处理单元和目标推理单元；所述目标预处理单元为预先基于具有相同内容任务领域标识的多个内容处理模型进行抽象得到；

预处理模块1030，用于基于所述目标预处理单元对所述待处理自媒体信息进行预处理，得到预处理信息；

处理生成确定模块1040，用于基于所述目标推理单元对所述预处理信息进行信息推理，得到对所述待处理自媒体信息的处理结果信息；

进一步地，所述装置还包括：

第一确定模块，用于对每个内容任务领域标识对应的多个内容处理模型包含的预处理单元进行分析，确定所述多个内容处理模型的共有预处理单元；所述每个内容任务领域标识对应多个任务类型标识；

第二确定模块，用于基于所述共有预处理单元，得到与所述每个内容任务领域标识对应的目标预处理单元；

第一建立模块，用于建立所述目标预处理单元与所述多个任务类型标识的对应关系。

进一步地，所述装置还包括：

第三确定模块，用于对每个内容任务领域标识对应的多个内容处理模型包含的后处理单元进行分析，确定所述多个内容处理模型的共有后处理单元；所述每个内容任务领域标识对应多个任务类型标识；所述后处理单元用于将所述目标推理单元输出的推理信息转换成与业务场景对应的业务结果信息；

第四确定模块，用于基于所述共有后处理单元，得到与所述每个内容任务领域标识对应的目标后处理单元；

第二建立模块，用于建立所述目标后处理单元与所述多个任务类型标识的对应关系。

进一步地，所述处理生成确定模块1040包括：

信息推理模块，用于将所述预处理信息输入到所述目标推理单元进行信息推理，得到推理信息；

第五确定模块，用于基于所述待处理自媒体信息的任务类型标识，确定与所述任务类型标识对应的目标后处理单元；

后处理模块，用于将所述推理信息输入到所述目标后处理单元进行信息后处理，得到对所述待处理自媒体信息的处理结果信息。

进一步地，所述预处理模块1030包括：

第一处理模块，用于在第一服务进程中，通过所述目标预处理单元对所述待处理自媒体信息进行预处理，得到所述预处理信息；

所述信息推理模块包括：

第二处理模块，用于在第二服务进程中，通过所述目标推理单元对所述目标预处理信息进行信息推理，得到所述推理信息；

进一步地，所述第一服务进程包括至少一个子进程；

所述第一处理模块包括：

调整单元，用于当基于所述至少一个子进程对所述待处理自媒体信息进行预处理时，预处理速度与当前任务处理速度不匹配，基于所述当前任务处理速度，调整所述第一服务进程中子进程的数量。

进一步地，所述远程服务调用请求中还包括所述待处理自媒体信息的信息类别标识；所述装置还包括：

信息检测模块，用于对所述待处理自媒体信息的处理结果信息进行目标信息检测，得到信息检测结果；

第六确定模块，用于当所述信息检测结果指示所述待处理自媒体信息中包含所述目标信息时，基于所述待处理自媒体信息的信息类别标识，确定对所述待处理自媒体信息的目标处理操作；

操作执行模块，用于对所述处理结果信息执行所述目标处理操作。

上述实施例中提供的装置可执行本申请任意实施例所提供方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的方法。

本实施例还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行如本实施例上述任一方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一方法。

进一步地，图11示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图，所述设备可以参与构成或包含本申请实施例所提供的装置。如图11所示，设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种播放器预加载方法或一种播放器运行方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

本实施例上述的任一方法均可基于图11所示的设备进行实施。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或中断产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本实施例中所示出的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比示出的更多或更少的部件，或者组合某些部件，或者具有不同的部件的布置。应当理解到，本实施例中所揭露的方法、装置等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元模块的间接耦合或通信连接。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员还可以进一步意识到，结合本说明书所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但这种实现不应认为超出本申请的范围。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种自媒体信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对每个内容任务领域标识对应的多个内容处理模型包含的预处理单元进行分析，确定所述多个内容处理模型的共有预处理单元；所述每个内容任务领域标识对应多个任务类型标识；

基于所述共有预处理单元，得到与所述每个内容任务领域标识对应的目标预处理单元；

建立所述目标预处理单元与所述多个任务类型标识的对应关系。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对每个内容任务领域标识对应的多个内容处理模型包含的后处理单元进行分析，确定所述多个内容处理模型的共有后处理单元；所述每个内容任务领域标识对应多个任务类型标识；所述后处理单元用于将所述目标推理单元输出的推理信息转换成与业务场景对应的业务结果信息；

基于所述共有后处理单元，得到与所述每个内容任务领域标识对应的目标后处理单元；

建立所述目标后处理单元与所述多个任务类型标识的对应关系。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标推理单元对所述预处理信息进行信息推理，得到对所述待处理自媒体信息的处理结果信息包括：

将所述预处理信息输入到所述目标推理单元进行信息推理，得到推理信息；

基于所述待处理自媒体信息的任务类型标识，确定与所述任务类型标识对应的目标后处理单元；

将所述推理信息输入到所述目标后处理单元进行信息后处理，得到对所述待处理自媒体信息的处理结果信息。

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标预处理单元对所述待处理自媒体信息进行预处理，得到预处理信息包括：

6.根据权利要求5所述的方法，其特征在于，所述第一服务进程包括至少一个子进程；

7.根据权利要求1所述的方法，其特征在于，所述远程服务调用请求中还包括所述待处理自媒体信息的信息类别标识；

所述方法还包括：

对所述待处理自媒体信息的处理结果信息进行目标信息检测，得到信息检测结果；

当所述信息检测结果指示所述待处理自媒体信息中包含所述目标信息时，基于所述待处理自媒体信息的信息类别标识，确定对所述待处理自媒体信息的目标处理操作；

对所述处理结果信息执行所述目标处理操作。

8.一种自媒体信息处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的自媒体信息处理方法。

10.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行如权利要求1至7任一项所述的自媒体信息处理方法。