CN114760523A

CN114760523A - 音视频处理方法、装置、设备及存储介质

Info

Publication number: CN114760523A
Application number: CN202210329873.1A
Authority: CN
Inventors: 岳振
Original assignee: China Mobile Communications Group Co Ltd; MIGU Digital Media Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Digital Media Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-07-15

Abstract

本申请公开了一种音视频处理方法、装置、设备和存储介质，该方法包括：采集观看原始音视频的用户的用户信息，其中，所述用户信息包括图像信息、语音信息以及与所述原始音视频关联的资料信息中的至少一项；基于所述用户信息，确定所述用户的年龄；在所述年龄小于预设年龄阈值时，对所述原始音视频中的敏感内容，进行处理，得到目标音视频；将所述目标音视频发送给所述用户。本申请实时针对性模糊化处理音视频内容，在保护未成年人的心理健康的同时不破坏成年观众观看视频内容的完整性。

Description

音视频处理方法、装置、设备及存储介质

技术领域

本申请涉及通信计算机技术领域，尤其涉及一种音视频处理方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，很多平台上的视频内容不少都存在不适合未成年人观看的敏感内容，需要对敏感内容模糊化处理，从而保护未成年人的心理健康。

现有技术中，在对音视频内容中的敏感内容模糊化处理如打码处理时，对所有用户一视同仁统一处理，也即，打码处理不具有针对性，破坏了成年用户观看视频内容的完整性。

发明内容

本申请的主要目的在于提供一种音视频处理方法、装置、设备和存储介质，旨在实时针对性模糊化处理音视频内容，在保护未成年人的心理健康的同时不破坏成年用户观看视频内容的完整性。

为实现上述目的，本申请提供一种音视频处理方法，所述音视频处理方法包括：

采集观看原始音视频的用户的用户信息，其中，所述用户信息包括图像信息、语音信息以及与所述原始音视频关联的资料信息中的至少一项；

基于所述用户信息，确定所述用户的年龄；

在所述年龄小于预设年龄阈值时，对所述原始音视频中的敏感内容，进行处理，得到目标音视频；

将所述目标音视频发送给所述用户。

可选地，所述基于所述用户信息，确定所述用户的年龄的步骤，包括：

基于所述图像信息中的人脸信息，对所述用户是否成年进行评分，得到第一评分；

基于所述语音信息中的音调信息，对所述用户是否成年进行评分，得到第二评分；

基于所述资料信息中的年龄信息和/或者教育信息，对所述用户是否成年进行评分，得到第三评分；

获取所述图像信息、所述语音信息以及所述资料信息分别对应的第一预设权重，第二预设权重和第三预设权重，其中，所述第一预设权重大于所述第二预设权重，所述第二预设权重大于所述第一预设权重；

基于所述第一评分、所述第二评分、所述第三评分，所述第一预设权重、所述第二预设权重以及所述第一预设权重，确定所述用户的年龄。

可选地，所述基于所述图像信息中的人脸信息，对所述用户是否成年进行评分，得到第一评分的步骤，包括：

在所述图像信息中的人脸信息为多个时，基于所述图像信息中的每个人脸信息，对相应用户是否成年进行评分，得到多个人脸评分；

从所述多个人脸评分中选择最小评分作为所述第一评分。

可选地，所述在所述年龄小于预设年龄阈值时，对所述原始音视频中的敏感内容，进行处理，得到目标音视频的步骤，包括：

在所述年龄小于预设年龄阈值时，对所述原始音视频进行分解，得到原始视频流和原始音频流；

对所述原始视频流进行图像识别，若所述原始视频流中存在敏感画面，则对所述敏感画面进行模糊化处理，得到目标视频流；

对所述原始音频流进行敏感内容的识别，若所述原始音频流中存在敏感内容，则对所述敏感内容进行替换，得到目标音频流；

合成所述目标视频流与所述目标音频流，得到目标音视频。

可选地，所述对所述原始视频流进行图像识别，若所述原始视频流中存在敏感画面，则对所述敏感画面进行模糊化处理，得到目标视频流的步骤，包括：

确定关键帧；

基于所述关键帧，每间隔预设时间抽取画面帧，并将所述画面帧实时发送到预设图像识别模块进行实时图像识别；

若所述画面帧中存在敏感画面，则以存在敏感画面的所述画面帧向前、向后继续抽取画面帧，直到发现不包含敏感画面的其他画面帧，确定存在敏感画面的各画面帧组成的帧的区间为模糊化区间；

通过人脸识别技术查找所述原始视频流中的人物头像，并记录每个人物出现的频率，确定出现频率最高的目标人物的图像；

采集年龄小于预设年龄阈值的用户的头像，将所述目标人物的图像和所述用户的头像融合，得到模糊化图像；

基于所述模糊化图像对所述模糊化区间中的敏感画面进行模糊化处理，得到目标视频流。

可选地，所述对所述原始音频流进行敏感内容的识别，若所述原始音频流中存在敏感内容，则对所述敏感内容进行替换，得到目标音频流的步骤，包括：

对所述原始音频流进行语音识别，得到所述原始音频流中的语音对话内容；

将所述语音对话内容转换成文字内容，对所述文字内容中的敏感文字进行识别，并标识出对应的时间戳；

基于所述文字内容和所述语音对话内容，确定不同人物的语音特征；

基于所述不同人物的语音特征，确定不同人物的语音库；

基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音，将所述敏感内容替换为所述噪音，得到目标音频流。

可选地，所述基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音，将所述敏感内容替换为所述噪音，得到目标音频流的步骤，包括：

基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音；

基于所述时间戳，确定所述噪音的噪音文字；

将所述敏感内容替换为所述噪音，将所述敏感内容的字幕文字替换为所述噪音文字，得到目标音频流。

本申请还提供一种音视频处理装置，所述音视频处理装置包括：

采集模块，用于采集观看原始音视频的用户的用户信息，其中，所述用户信息包括图像信息、语音信息以及与所述原始音视频关联的资料信息中的至少一项；

第一确定模块，用于基于所述用户信息，确定所述用户的年龄；

第二确定模块，用于在所述年龄小于预设年龄阈值时，对所述原始音视频中的敏感内容，进行处理，得到目标音视频；

发送模块，用于将所述目标音视频发送给所述用户。

可选地，所述第一确定模块包括：

第一评分单元，用于基于所述图像信息中的人脸信息，对所述用户是否成年进行评分，得到第一评分；

第二评分单元，用于基于所述语音信息中的音调信息，对所述用户是否成年进行评分，得到第二评分；

第三评分单元，用于基于所述资料信息中的年龄信息和/或者教育信息，对所述用户是否成年进行评分，得到第三评分；

获取单元，用于获取所述图像信息、所述语音信息以及所述资料信息分别对应的第一预设权重，第二预设权重和第三预设权重，其中，所述第一预设权重大于所述第二预设权重，所述第二预设权重大于所述第一预设权重；

第一确定单元，用于基于所述第一评分、所述第二评分、所述第三评分，所述第一预设权重、所述第二预设权重以及所述第一预设权重，确定所述用户的年龄。

可选地，所述第一评分单元包括：

评分子单元，用在所述图像信息中的人脸信息为多个时，基于所述图像信息中的每个人脸信息，对相应用户是否成年进行评分，得到多个人脸评分；

选择子单元，用于从所述多个人脸评分中选择最小评分作为所述第一评分。

可选地，所述第二确定模块包括：

分解单元，用于在所述年龄小于预设年龄阈值时，对所述原始音视频进行分解，得到原始视频流和原始音频流；

模糊化单元，用于对所述原始视频流进行图像识别，若所述原始视频流中存在敏感画面，则对所述敏感画面进行模糊化处理，得到目标视频流；

替换单元，用于对所述原始音频流进行敏感内容的识别，若所述原始音频流中存在敏感内容，则对所述敏感内容进行替换，得到目标音频流；

合成单元，用于合成所述目标视频流与所述目标音频流，得到目标音视频。

可选地，所述模糊化单元用于实现：

确定关键帧；

可选地，所述替换单元用于实现：

基于所述不同人物的语音特征，确定不同人物的语音库；

可选地，所述替换单元还用于实现：

基于所述时间戳，确定所述噪音的噪音文字；

本申请还提供一种音视频处理设备，所述音视频处理设备为实体节点设备，所述音视频处理设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述音视频处理方法的程序，所述音视频处理方法的程序被处理器执行时可实现如上述的音视频处理方法的步骤。

本申请还提供一种存储介质，所述存储介质上存储有实现上述音视频处理方法的程序，所述音视频处理方法的程序被处理器执行时实现如上述的音视频处理方法的步骤。

本申请还提供一种计算机程序产品、包括计算机程序，该计算机程序被处理器执行时实现上述的音视频处理方法的步骤。

本申请提供一种音视频处理方法、装置、设备及存储介质，与现有技术中针对敏感内容的打码处理不具有针对性，破坏了成年用户观看视频内容的完整性相比，在本申请中采集观看原始音视频的用户的用户信息，其中，所述用户信息包括图像信息、语音信息以及与所述原始音视频关联的资料信息中的至少一项；基于所述用户信息，确定所述用户的年龄；在所述年龄小于预设年龄阈值时，对所述原始音视频中的敏感内容，进行处理，得到目标音视频；将所述目标音视频发送给所述用户。在本申请中，基于至少一项用户信息准确确定用户的年龄，且在用户年龄小于预设年龄阈值时，才对原始音视频中的敏感内容进行模糊化处理，因而，使得模糊化处理如打码处理具有针对性即只针对未成年人，在保护未成年人的前提下保留了成年人观看视频内容的完整性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请音视频处理方法第一实施例的流程示意图；

图2为本申请音视频处理方法中步骤S20的细化步骤流程示意图；

图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图；

图4为本申请音视频处理方法的场景示意图；

图5为本申请音视频处理方法的第一实施例中确定模糊化区间的示意图；

图6为本申请音视频处理方法的第一实施例中对所述原始音视频进行分解的第一流程示意图；

图7为本申请音视频处理方法第一实施例中确定不同人物的语音库的流程示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种音视频处理方法，在本申请音视频处理方法的第一实施例中，参照图1，所述音视频处理方法包括：

步骤S10，采集观看原始音视频的用户的用户信息，其中，所述用户信息包括图像信息、语音信息以及与所述原始音视频关联的资料信息中的至少一项；

步骤S20，基于所述用户信息，确定所述用户的年龄；

步骤S30，在所述年龄小于预设年龄阈值时，对所述原始音视频中的敏感内容，进行处理，得到目标音视频；

步骤S40，将所述目标音视频发送给所述用户。

在本实施例中，所述音视频处理方法应用于音视频处理装置，所述音视频处理装置属于音视频处理设备，所述音视频处理设备属于音视频处理系统。

在本实施例中，针对的应用场景为：

第一：随着互联网技术的发展，很多平台上的视频内容不少都存在不适合未成年人观看的敏感内容，需要对敏感内容模糊化处理，从而保护未成年人的心理健康。

现有技术中，在对音视频内容中的敏感内容模糊化处理如打码处理时，对所有用户统一处理，也即，打码处理不具有针对性，破坏了成年用户观看视频内容的完整性。

在本实施例中，基于至少一项用户信息准确确定用户的年龄，且在用户年龄小于预设年龄阈值时，才对原始音视频中的敏感内容进行模糊化处理，因而，使得模糊化处理如打码处理具有针对性即只针对未成年人，在保护未成年人的前提下保留了成年人观看视频内容的完整性。

第二：随着互联网技术的发展，很多平台上的视频内容不少都存在不适合未成年人观看的敏感内容，需要对敏感内容模糊化处理，从而保护未成年人的心理健康。

现有技术中，在对音视频内容中的敏感内容模糊化处理如打码处理时，需要事先人工审核音视频内容，对直播类节目难以及时处理，也即，现有模糊化处理不具有实时性，还是导致未成年人的身心健康受到影响。

在本实施例中，基于至少一项用户信息准确确定用户的年龄，且在用户年龄小于预设年龄阈值时，实时对原始音视频中的敏感内容进行模糊化处理，因而，使得模糊化处理如打码处理具有实时性，避免影响未成年人的身心健康。

具体步骤如下：

在本实施例中，需要说明的是，硬件部署场景如图4所示，音视频处理系统包括多个摄像机，电视机，移动终端以及麦克风等硬件，其中，摄像机和麦克风可以是独立于电视机或者移动终端中的(内置以及外置均可)，该摄像机和麦克风可以是电视机内部的硬件或者移动终端内部的硬件(内置以及外置均可)。

在本实施例中，电视机或者移动终端用于播放音视频内容，摄像机用于实时采集用户或者观众的图像，而麦克风用于实时采集用户或者观众的声音。

在本实施例中，电视机中或者移动终端中的原始音视频若存在敏感内容，且用户是未成年人用户时，可以实时对电视机中的原始音视频进行处理，并将处理后得到的目标音视频展示给用户。

在本实施例中，所述用户信息包括图像信息、语音信息以及与所述原始音视频关联的资料信息中的至少一项。

具体地，所述用户信息包括图像信息、语音信息以及与所述原始音视频关联的资料信息三项信息。

其中，外置摄像机或者内置摄像机实时采集用户图像，并结合人工智能，对用户图像进行人脸识别和面部分析，得到图像信息。

其中，内置麦克风或者外置麦克风实时采集用户对话，进而，得到用户的语音信息，其中，由于外置麦克风采集用户对话时会加载原始音视频中的音频内容，所以需要在分析前将原始音视频中的外放音进行剥离，以提高识别的准确度。

其中，对于需要登录才能观看的原始音视频，还可以从用户登录系统等处获取或者调取原始音视频关联的用户资料，通过用户资料可以获取用户年龄、用户教育信息等。

步骤S20，基于所述用户信息，确定所述用户的年龄；

在本实施例中，结合用户信息中的图像信息、语音信息以及所述资料信息中的至少一项，确定所述用户的年龄。

其中，参照图2，所述基于所述用户信息，确定所述用户的年龄的步骤，包括：

步骤S21，基于所述图像信息中的人脸信息，对所述用户是否成年进行评分，得到第一评分；

在本实施例中，将所述图像信息中的人脸信息输入至预设未成年人脸识别模型中，得到用户是否成年的第一评分，得分记为F，该分数占一定权重P1(第一预设权重)。

步骤S22，基于所述语音信息中的音调信息，对所述用户是否成年进行评分，得到第二评分；

在本实施例中，如果音调信息中音调较低如低于第一预设音调值则认为年龄较大，反之如果音调较高如高于第二预设音调值则认为年龄较小，其中，第一预设音调值低于所述第二预设音调值，在本实施例中，基于预设音调处理模型对用户是否成年打分，得分记为V，权重P2(第二预设权重)。

步骤S23，基于所述资料信息中的年龄信息和/或者教育信息，对所述用户是否成年进行评分，得到第三评分；

在本实施例中，基于所述资料信息中的年龄信息和/或者教育信息，对所述用户是否成年进行评分，得到第三评分，具体地，将年龄信息和/或者教育信息输入至预设年龄推测模型中，得到打分，记为D，权重P3，

其中，如果用户的年龄低于18或者处于中小学阶段，则认为未成年。

步骤S24，获取所述图像信息、所述语音信息以及所述资料信息分别对应的第一预设权重，第二预设权重和第三预设权重，其中，所述第一预设权重大于所述第二预设权重，所述第二预设权重大于所述第一预设权重；

在本实施例中，获取所述图像信息、所述语音信息以及所述资料信息分别对应的第一预设权重P1，第二预设权重P2和第三预设权重P3。

其中，由于观众未必是注册用户，且人脸识别可信度较高，声音识别次之，因而，P1>P2>P3。

步骤S25，基于所述第一评分、所述第二评分、所述第三评分，所述第一预设权重、所述第二预设权重以及所述第一预设权重，确定所述用户的年龄。

在本实施例中，基于所述第一评分、所述第二评分、所述第三评分，所述第一预设权重、所述第二预设权重以及所述第一预设权重，确定所述用户的年龄，具体地，最终年龄推断值＝F*P1+V*P2+D*P3。

如果年龄推断值超过预设区间，则认为用户中有未成年人，当前播放的音视频内容需要经过打码处理才能播放。

本说明书中年龄的确定方式并不局限于以上实施例中的的方式，单纯通过F、V、D或P1、P2、P3也可以进行用户年龄的推断，此处用户可以通过操作自行进行设置。具体地，当F\V\D的取值为……时，认定为未成年人

其中，所述基于所述图像信息中的人脸信息，对所述用户是否成年进行评分，得到第一评分的步骤，包括：

步骤A1，在所述图像信息中的人脸信息为多个时，基于所述图像信息中的每个人脸信息，对相应用户是否成年进行评分，得到多个人脸评分；

步骤A2，从所述多个人脸评分中选择最小评分作为所述第一评分。

在本实施例中，在所述图像信息中的人脸信息为多个时，基于所述图像信息中的每个人脸信息，对相应用户是否成年进行评分，得到多个人脸评分，也即，如果存在多名用户或者观众，则对所有用户或者观众均进行人脸识别并打分，取最低年龄为结果值X。

在本实施例中，在所述年龄小于预设年龄阈值如小于18岁(可以设置)时，确定所述原始音视频中的敏感内容，对所述敏感内容进行模糊化处理，得到目标音视频。

在所述年龄不小于预设年龄阈值如不小于18岁(可以设置)时，不执行确定所述原始音视频中的敏感内容，对所述敏感内容进行模糊化处理，得到目标音视频的步骤。

其中，在所述年龄小于预设年龄阈值时，确定所述原始音视频中的敏感内容，对所述敏感内容进行模糊化处理具体可以是：在所述年龄小于预设年龄阈值时，确定所述原始音视频中的敏感文字内容和敏感语音内容，对所述敏感文字内容和敏感语音内容进行模糊化处理，得到目标音视频。

步骤S40，将所述目标音视频发送给所述用户。

在本实施例中，将所述目标音视频发送并展示给所述用户。

进一步地，基于本申请中第一实施例，提供本申请的另一实施例，在该实施例中，所述在所述年龄小于预设年龄阈值时，对所述原始音视频中的敏感内容，进行处理，得到目标音视频的步骤，包括：

步骤S31，在所述年龄小于预设年龄阈值时，对所述原始音视频进行分解，得到原始视频流和原始音频流；

在本实施例中，如图6所示，在所述年龄小于预设年龄阈值时，对所述原始音视频进行分解(预设分解技术)，得到原始视频流和原始音频流，以便于对原始视频流和原始音频流分别进行处理。

步骤S32，对所述原始视频流进行图像识别，若所述原始视频流中存在敏感画面，则对所述敏感画面进行模糊化处理，得到目标视频流；

在本实施例中，对所述原始视频流进行图像识别处理，若所述原始视频流中存在敏感画面，则对所述敏感画面进行模糊化处理，得到目标视频流。

在本实施例中，模糊化的方式可以是打码，也可以是马赛克的方式，具体不做限定。

所述对所述原始视频流进行图像识别，若所述原始视频流中存在敏感画面，则对所述敏感画面进行模糊化处理，得到目标视频流的步骤，包括：

步骤B1，确定关键帧；

其中，基于预设配置信息，确定关键帧，例如，配置信息中确定每30帧才有一帧完整帧，则该完整帧为关键帧。

步骤B2，基于所述关键帧，每间隔预设时间抽取画面帧，并将所述画面帧实时发送到预设图像识别模块进行实时图像识别；

基于所述关键帧，每间隔预设时间(如0.1S或者1S，可以进行设置)抽取画面帧，并实时将所述画面帧实时发送到预设图像识别模块进行实时图像识别。

步骤B3，若所述画面帧中存在敏感画面，则以存在敏感画面的所述画面帧向前、向后继续抽取画面帧，直到发现不包含敏感画面的其他画面帧，确定存在敏感画面的各画面帧组成的帧的区间为模糊化区间；

具体地，若所述画面帧中存在敏感画面，则以存在敏感画面的所述画面帧向前、向后继续抽取画面帧，如则向前、向后每隔1秒抽取一帧，逐步扩大模糊化范围，直到发现不包含敏感画面的帧，确定存在敏感画面的各画面帧组成的帧的区间为模糊化区间，具体地，此区间标识为打码区间，可打码处理，如图5所示。

步骤B4，通过人脸识别技术查找所述原始视频流中的人物头像，并记录每个人物出现的频率，确定出现频率最高的目标人物的图像；

在本实施例中，通过人脸识别技术查找所述原始视频流中的人物头像，并记录每个人物出现的频率，确定出现频率最高的目标人物的图像，具体地，每M秒抽取1帧画面帧，通过人脸识别找出画面中的人物头像，并记录每个人物出现的频率，推断出现频率最高的为“主角”。

步骤B5，采集年龄小于预设年龄阈值的用户的头像，将所述目标人物的图像和所述用户的头像融合，得到模糊化图像；

在本实施例中，还采集年龄小于预设年龄阈值的用户的头像，将所述目标人物的图像和所述用户的头像融合，得到模糊化图像，也即，具体的，从该“主角”头像图片中抽取一幅，并与目标人物的图像融合后，作为模糊化图像如打码图像。

步骤B6，基于所述模糊化图像对所述模糊化区间中的敏感画面进行模糊化处理，得到目标视频流。

具体地，视频中某画面需要打码时，用模糊化图像覆盖需要打码的部分，进而得到目标视频流。

步骤S33，对所述原始音频流进行敏感内容的识别，若所述原始音频流中存在敏感内容，则对所述敏感内容进行替换，得到目标音频流；

在本实施例中，还对所述原始音频流进行敏感内容的识别，若所述原始音频流中存在敏感内容(包括语音内容和文本内容)，则对所述敏感内容进行替换，得到目标音频流。

步骤S34，合成所述目标视频流与所述目标音频流，得到目标音视频。

在得到目标视频流与所述目标音频流后，合成所述目标视频流与所述目标音频流，得到目标音视频。

在本实施例中，需要说明的是，通过在所述年龄小于预设年龄阈值时，对所述原始音视频进行分解，得到原始视频流和原始音频流；对所述原始视频流进行图像识别，若所述原始视频流中存在敏感画面，则对所述敏感画面进行模糊化处理，得到目标视频流；对所述原始音频流进行敏感内容的识别，若所述原始音频流中存在敏感内容，则对所述敏感内容进行替换，得到目标音频流；合成所述目标视频流与所述目标音频流，得到目标音视频。在本实施例中，对视频流和音频流中的信息都进行敏感信息的处理，避免处理不完全，而影响未成年人的心理健康。

进一步地，基于本申请中上述实施例，提供本申请的另一实施例，所述对所述原始音频流进行敏感内容的识别，若所述原始音频流中存在敏感内容，则对所述敏感内容进行替换，得到目标音频流的步骤，包括：

步骤C1，对所述原始音频流进行语音识别，得到所述原始音频流中的语音对话内容；

在本实施例中，还基于预设的语音识别技术对所述原始音频流进行语音识别，得到所述原始音频流中的语音对话内容，具体地，将原始音频流发送到音频处理模块，得到所述原始音频流中的语音对话内容。

步骤C2，将所述语音对话内容转换成文字内容，对所述文字内容中的敏感文字进行识别，并标识出对应的时间戳；

其中，将所述语音对话内容转换成文字内容，对所述文字内容中的敏感文字进行识别，并标识出对应的时间戳，具体地，把语音转换成[时间戳：文本]的形式，例如：

[00:25.44]自从

[00:25.45]你

[00:25.47]离开

[00:25.48]我

[00:25.49]我

[00:25.50]不知道

[00:25.53]这些

[00:25.54]心里话

[00:25.57]还能

[00:25.59]向谁说。

步骤C3，基于所述文字内容和所述语音对话内容，确定不同人物的语音特征；

步骤C4，基于所述不同人物的语音特征，确定不同人物的语音库；

在本实施例中，将所述文字内容和所述语音对话内容，输入到预设语音识别引擎，得到不同人物的语音特征，基于所述不同人物的语音特征，确定不同人物的语音库。

例如，如图7所示，一段视频中有3个角色A、B、C在对话，根据语音音色等特征分辨出3个角色，并结合字幕制作出相应的语音库A、B、C。

步骤C5，基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音，将所述敏感内容替换为所述噪音，得到目标音频流。

在本实施例中，还基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音，将所述敏感内容替换为所述噪音，得到目标音频流，具体地，对于音频中敏感内容，通过当前发音人的音库合成噪音(如“啊”、“嗯”、“嘀”等)，替换原有音频片段。

其中，所述基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音，将所述敏感内容替换为所述噪音，得到目标音频流的步骤，包括：

步骤D1，基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音；

步骤D2，基于所述时间戳，确定所述噪音的噪音文字；

步骤D3，将所述敏感内容替换为所述噪音，将所述敏感内容的字幕文字替换为所述噪音文字，得到目标音频流。

在本实施例中，还基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音，确定所述噪音的噪音文字，基于所述时间戳，将所述敏感内容替换为所述噪音，将所述敏感内容的字幕文字替换为所述噪音文字，得到目标音频流。在本实施例中，还确定对敏感的字幕文字进行替换。

在本实施例中，对所述原始音频流进行语音识别，得到所述原始音频流中的语音对话内容；将所述语音对话内容转换成文字内容，对所述文字内容中的敏感文字进行识别，并标识出对应的时间戳；基于所述文字内容和所述语音对话内容，确定不同人物的语音特征；基于所述不同人物的语音特征，确定不同人物的语音库；基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音，将所述敏感内容替换为所述噪音，得到目标音频流，在本实施例中，对目标音频流中敏感的语音内容和敏感的字幕内容均进行替换，避免影响未成年人的健康。

参照图3，图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示，该音视频处理设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该音视频处理设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图3中示出的音视频处理设备结构并不构成对音视频处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块以及音视频处理程序。操作系统是管理和控制音视频处理设备硬件和软件资源的程序，支持音视频处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与音视频处理系统中其它硬件和软件之间通信。

在图3所示的音视频处理设备中，处理器1001用于执行存储器1005中存储的音视频处理程序，实现上述任一项所述的音视频处理方法的步骤。

本申请音视频处理设备具体实施方式与上述音视频处理方法各实施例基本相同，在此不再赘述。

发送模块，用于将所述目标音视频发送给所述用户。

可选地，所述第一确定模块包括：

可选地，所述第一评分单元包括：

可选地，所述第二确定模块包括：

可选地，所述模糊化单元用于实现：

确定关键帧；

可选地，所述替换单元用于实现：

基于所述不同人物的语音特征，确定不同人物的语音库；

可选地，所述替换单元还用于实现：

基于所述时间戳，确定所述噪音的噪音文字；

本申请音视频处理装置的具体实施方式与上述音视频处理方法各实施例基本相同，在此不再赘述。

本申请实施例提供了一种存储介质，且所述存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的音视频处理方法的步骤。

本申请存储介质具体实施方式与上述音视频处理方法各实施例基本相同，在此不再赘述。

本申请计算机程序产品的具体实施方式与上述音视频处理方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音视频处理方法，其特征在于，所述音视频处理方法包括：

采集观看原始音视频用户的用户信息，其中，所述用户信息包括图像信息、语音信息以及与所述原始音视频关联的资料信息中的至少一项；

基于所述用户信息，确定所述用户的年龄；

将所述目标音视频发送给所述用户。

2.如权利要求1所述的音视频处理方法，其特征在于，所述基于所述用户信息，确定所述用户的年龄的步骤，包括：

基于所述第一评分、所述第二评分、所述第三评分，或所述第一预设权重、所述第二预设权重以及所述第一预设权重，确定所述用户的年龄。

3.如权利要求2所述的音视频处理方法，其特征在于，所述基于所述图像信息中的人脸信息，对所述用户是否成年进行评分，得到第一评分的步骤，包括：

从所述多个人脸评分中选择最小评分作为所述第一评分。

4.如权利要求1所述的音视频处理方法，其特征在于，所述在所述年龄小于预设年龄阈值时，对所述原始音视频中的敏感内容，进行处理，得到目标音视频的步骤，包括：

合成所述目标视频流与所述目标音频流，得到目标音视频。

5.如权利要求4所述的音视频处理方法，其特征在于，所述对所述原始视频流进行图像识别，若所述原始视频流中存在敏感画面，则对所述敏感画面进行模糊化处理，得到目标视频流的步骤，包括：

确定关键帧；

6.如权利要求4所述的音视频处理方法，其特征在于，所述对所述原始音频流进行敏感内容的识别，若所述原始音频流中存在敏感内容，则对所述敏感内容进行替换，得到目标音频流的步骤，包括：

基于所述不同人物的语音特征，确定不同人物的语音库；

7.如权利要求6所述的音视频处理方法，其特征在于，所述基于所述时间戳和所述不同人物的语音库，合成当前人物的噪音，将所述敏感内容替换为所述噪音，得到目标音频流的步骤，包括：

基于所述时间戳，确定所述噪音的噪音文字；

8.一种音视频处理装置，其特征在于，所述音视频处理装置包括：

发送模块，用于将所述目标音视频发送给所述用户。

9.一种音视频处理设备，其特征在于，所述音视频处理设备包括：存储器、处理器以及存储在存储器上的用于实现所述音视频处理方法的程序，

所述存储器用于存储实现音视频处理方法的程序；

所述处理器用于执行实现所述音视频处理方法的程序，以实现如权利要求1至7中任一项所述音视频处理方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有实现音视频处理方法的程序，所述实现音视频处理方法的程序被处理器执行以实现如权利要求1至7中任一项所述音视频处理方法的步骤。