CN113076932B

CN113076932B - 训练音频语种识别模型的方法、视频检测方法及其装置

Info

Publication number: CN113076932B
Application number: CN202110470368.4A
Authority: CN
Inventors: 谢强; 邓天生; 于天宝; 贠挺; 陈国庆; 林赛群
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-08-04
Anticipated expiration: 2041-04-28
Also published as: CN113076932A

Abstract

本公开公开了训练音频语种识别模型的方法、视频检测方法及其装置，涉及人工智能领域，尤其涉及深度学习领域。具体实现方案为：从人声音频文件中获取多个音频片段；基于多个音频片段中包含非目标语种语音的音频片段，确定用于训练音频语种识别模型的第一样本数据集；基于多个音频片段中包含目标语种语音的音频片段，确定用于训练音频语种识别模型的第二样本数据集；以及基于第一样本数据集和第二样本数据集，训练音频语种识别模型。以此方式，本公开的技术方案可以快速高效且低成本地完成对音频语种识别模型的训练，从而准确确定待测视频文件的检测结果。

Description

训练音频语种识别模型的方法、视频检测方法及其装置

技术领域

本公开涉及计算机技术领域，尤其涉及深度学习领域，具体地，涉及训练音频语种识别模型的方法、视频检测方法、及其装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

随着人民群众的生活水平提升和科技的进步，人们获取信息和休闲娱乐的方式逐渐发生变化，视频因其内容丰富、信息密度高、趣味性强等特点迅速占据了人们的生活中的碎片时间。在搜索、推荐类的相关产品中，视频是用户较为喜欢的新的内容呈现方式。部分视频中的对话语言是外语且没有中文字幕，导致大部分用户很难理解视频内容。这样就对用户的信息获取造成了障碍，减低了产品的用户体验。

发明内容

本公开提供了一种训练音频语种识别模型的方法、视频检测方法、及其装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的第一方面，提供了一种训练音频语种识别模型的方法。该方法可以包括从人声音频文件中获取多个音频片段。进而，可以基于多个音频片段中包含非目标语种语音的音频片段，确定用于训练音频语种识别模型的第一样本数据集。该方法还可以包括基于多个音频片段中包含目标语种语音的音频片段，确定用于训练音频语种识别模型的第二样本数据集。此外，该方法可以进一步包括基于第一样本数据集和第二样本数据集，训练音频语种识别模型。

根据本公开的第二方面，提供了一种视频检测方法，该方法可以包括从待检测的视频文件中获取音频文件和多个图像。进而，可以从音频文件中获取多个人声音频片段。该方法可以进一步包括对多个人声音频片段进行语种识别，并且对多个图像进行字幕语种检测。此外，该方法还可以包括如果多个人声音频片段被确定为包含非目标语种语音并且多个图像被确定为不包含目标语种字幕，确定待检测的视频文件的检测结果。

在本公开的第三方面中，提供了一种训练音频语种识别模型的装置，包括：音频片段获取模块，被配置为从人声音频文件中获取多个音频片段；第一样本数据集确定模块，被配置为基于多个音频片段中包含非目标语种语音的音频片段，确定用于训练音频语种识别模型的第一样本数据集；第二样本数据集确定模块，被配置为基于多个音频片段中包含目标语种语音的音频片段，确定用于训练音频语种识别模型的第二样本数据集；以及音频语种识别模型训练模块，被配置为基于第一样本数据集和第二样本数据集，训练音频语种识别模型。

在本公开的第四方面中，提供了一种视频检测装置，包括：解析模块，被配置为从待检测的视频文件中获取音频文件和多个图像；人声音频片段获取模块，被配置为从音频文件中获取多个人声音频片段；人声语种识别模块，被配置为对多个人声音频片段进行语种识别；字幕语种检测模块，被配置为对多个图像进行字幕语种检测；以及后处理模块，被配置为如果多个人声音频片段被确定为包含非目标语种语音并且多个图像被确定为不包含目标语种字幕，确定待检测的视频文件的检测结果。

在本公开的第五方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第六方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第七方面中，提供了一种计算机程序产品，计算机程序在被处理器执行时实现根据本公开的第一方面的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的详细示例环境的示意图；

图3示出了根据本公开的实施例的训练音频语种识别模型的过程的流程图；

图4示出了根据本公开的实施例的训练音频语种识别模型的详细过程的流程图；

图5示出了根据本公开的实施例的视频检测的过程的流程图；

图6示出了根据本公开的实施例的训练音频语种识别模型的装置的框图；

图7示出了根据本公开的实施例的视频检测装置的框图；以及

图8示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

外语无字幕视频一般是来自国外的视频内容，包括外语电影、电视剧、综艺节目和新闻视频等，这些视频内容的信息主要通过对话方式来传递，中文字幕信息的缺失影响了用户对视频内容信息的获取，造成了理解障碍。所以在实际的视频类相关产品(诸如视频搜索、推荐等)中，此类视频的占比通常会被降低，从而使此类视频对用户造成的负向体验最小化。为此，在视频入库阶段，通常会以来人工检测手段识别外语无字幕视频。也就是说，人工审核员会观看视频，并筛除外语无字幕视频。然而，使用人工方式筛除外语无字幕视频，需要雇佣大量的审核员，并进行业务培训。因此，存在处理流程效率低、成本高的问题。除此之外，使用人工审核还常常会因为审核员注意力不集中而导致错申、漏审。

为此，本公开提供了一种视频检测方法，能够快速高效且低成本地实现对外语无字幕视频的检测和识别。该视频检测方法需要对视频文件中的音频进行语种识别，因此至少需要训练音频语种识别模型。为此，本公开还提供了一种训练音频语种识别模型的方法。

根据本公开的实施例，提出了一种模型训练方案。在该方案中，可以将海量音频片段中具有非中文语音的音频片段标注为第一样本(例如，作为正样本)，以及将包含中文语音的音频片段标注为第二样本(例如，作为负样本)，以便基于第一样本和第二样本训练音频语种识别模型。具体地，本公开的音频语种识别模型的训练过程可以包括：从人声音频文件中获取多个音频片段；基于多个音频片段中包含非中文语音的音频片段，确定用于训练音频语种识别模型的第一样本数据集；基于多个音频片段中包含中文语音的音频片段，确定用于训练音频语种识别模型的第二样本数据集；以及基于第一样本数据集和第二样本数据集，训练该音频语种识别模型。此外，本公开的实施例还包括利用基于上述方法训练的检测模型来对视频文件进行检测，以便从多个视频文件中筛除外语无字幕视频。以此方式，实现了高效、准确的模型训练和视频检测。

此外，为了优化音频语种识别模型，还可以在一轮或多轮模型训练结束后，使用模型和人声检测算法对海量的视频数据的音频进行语种识别，搜集预测错误的音频片段，从而将其加入样本数据集进行重新训练。以此方式，可以显著减少模型误检的情况。

以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，示例环境100中包含待检测的视频文件110、计算设备120和经计算设备120确定的检测结果130。

在一些实施例中，待检测的视频文件110可以是网络平台上的海量短视频中的至少一个短视频。在本公开中，短视频是指短片视频。作为一种互联网内容传播方式，短视频通常是在互联网新媒体上传播的时长在5分钟以内的视频。应理解，视频文件110也可以是除短视频之外的其他视频内容，诸如外语电影、电视剧、综艺节目和新闻视频等。

在一些实施例中，计算设备120可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理PDA、媒体播放器等)、消费电子产品、小型计算机、大型计算机、云计算资源等。在计算设备120接收到待检测的视频文件110之后，可以从视频文件110中解析出音频文件122。进而，计算设备120可以按照固定时长的时间窗从作为人声音频的音频文件122中截取多个音频片段126。这些音频片段126的特征数据被输入至配置在计算设备120中的语种识别模型140，从而可以由语种识别模型140预测每个音频片段中包含非中文语音的概率。另一方面，计算设备120还可以从视频文件110中解析处多个图像124，该多个图像124的特征数据被输入至配置在计算设备120中的语种检测模型150，从而可以由语种检测模型150确定多个图像124中是否包含中文字幕。基于上述确定的结果，即可通过检测单元160确定视频文件110中是否是外语无字幕视频的检测结果130。应理解，本公开所述的“中文”仅是示例性的，本公开可以针对任何特定语种进行相应的视频识别和筛除。

此外，还应理解，虽然本公开示出了作为“一个”处理单元的计算设备120，但如上所述的从视频文件110解析出音频文件122的过程、从音频文件122中截取多个音频片段126的过程、以及由语种识别模型140对每个音频片段进行预测的过程可以分别在不同的多个处理单元中执行，且这些处理单元可以被统称为计算设备120。作为示例，从视频文件110解析出音频文件122的过程以及从音频文件122中截取多个音频片段126的过程可以在作为边缘计算节点的现场计算机中执行，并且由语种识别模型140对每个音频片段进行预测的过程可以在具备更为强大的计算能力的云服务器中执行。

本公开的至少一个要点在于，利用了改进的方式来对音频语种识别模型进行训练。下文将以机器学习模型为例参考图2对计算设备120中的语种识别模型140的训练和使用进行描述。

图2示出了根据本公开的实施例的详细示例环境200的示意图。与图1类似地，示例环境200可以包含计算设备220、待检测的视频文件210和检测结果230。区别在于，示例环境200总体上可以包括模型训练系统270和模型应用系统280。作为示例，模型训练系统270和/或模型应用系统280可以在如图1所示的计算设备120或如图2所示的计算设备220中实现。应当理解，仅出于示例性的目的描述示例环境200的结构和功能并不旨在限制本文所描述主题的范围。本文所描述主题可以在不同的结构和/或功能中实施。

如前所述，对从视频文件210中解析出的音频文件中的多个音频片段进行检测来确定视频文件210的检测结果230的过程可以分为两个阶段：模型训练阶段和模型应用阶段。作为示例，在模型训练阶段中，模型训练系统270可以利用第一样本数据集250和第二样本数据集260来训练用于识别音频语种的模型240。应理解，第一样本数据集250即为经标注的包含非目标语种(例如，非中文，或称为“外语”)语音的音频片段的集合，第二样本数据集260即为经标注的包含目标语种(例如，中文)语音的音频片段的集合。在模型应用阶段中，模型应用系统280可以接收经训练的模型240，从而由模型240基于与视频文件210相关联的音频文件来确定视频文件210是否包含非目标语种语音。进而，计算设备220可以在视频文件210包含非目标语种语音且不包含目标语种字幕时输出该视频文件210是外语无字幕视频的检测结果230。

在其他实施例中，模型240可以被构建为学习网络。在一些实施例中，该学习网络可以包括多个网络，其中每个网络可以是一个多层神经网络，其可以由大量的神经元组成。通过训练过程，每个网络中的神经元的相应参数能够被确定。这些网络中的神经元的参数被统称为模型240的参数。

模型240的训练过程可以以迭代方式来被执行。具体地，模型训练系统270可以从第一样本数据集250和第二样本数据集260中获取样本数据，并且利用该样本数据来进行训练过程的一次迭代，以更新模型240的相应参数。模型训练系统270可以基于第一样本数据集250和第二样本数据集260中的多个样本数据执行上述过程，直至模型240的参数中的至少部分参数收敛或者直至达到预定迭代次数，由此获得最终的模型参数。

上文描述的技术方案仅用于示例，而非限制本发明。应理解，还可以按照其他方式和连接关系来布置各个网络。为了更清楚地解释上述方案的原理，下文将参考图3来更详细描述训练模型240的过程。

图3示出了根据本公开的实施例的训练音频语种识别模型的过程300的流程图。在某些实施例中，过程300可以在图1的计算设备120以及图2的计算设备220中实现。现参照图3并结合图2描述根据本公开实施例的模型训练的过程300。为了便于理解，在下文描述中提及的具体实例均是示例性的，并不用于限定本公开的保护范围。

在302，计算设备220可以从人声音频文件中获取多个音频片段。应理解，该音频文件是通过对视频文件210进行解析而获取的，从而可以减少用于训练模型的样本的数据量，加快了训练速度。在某些实施例中，人声音频文件可以是从视频文件和/或语种音频公开数据集中获取的，由此可以在获取广泛样本的同时节约人工标注的人力成本。此外，从音频文件中获取多个音频片段的方式可以是按照具有固定时长的时间窗、以预定时间间隔来从音频文件中截取多个音频片段。作为示例，计算设备220可以滑动具有诸如3秒时长的时间窗，来按照诸如0.5秒的时间间隔从人声音频文件中截取音频片段。

在某些实施例中，上述多个音频片段可以具有预定时长，并且上述多个音频片段中的一个音频片段与另一音频片段具有重叠部分。以此方式，可以避免样本遗漏，从而可以利用有限的经标注视频获得更多的第一样本数据集250和第二样本数据集260。

在304，计算设备220可以基于多个音频片段中包含非目标语种语音的音频片段，确定训练用于进行音频语种识别的模型240的第一样本数据集250。第一样本数据集250例如可以是正样本数据集。在某些实施例中，非目标语种语音可以是非中文语音，即“外语”。

在306，相应地，计算设备220可以基于多个音频片段中包含目标语种语音的音频片段，确定训练用于进行音频语种识别的模型240的第二样本数据集260。在某些实施例中，目标语种语音可以是中文语音。应理解，第二样本数据集260与第一样本数据集250不同。第二样本数据集260例如可以是负样本数据集。基于正样本和负样本对模型240进行训练，可以显著提升模型性能。

在308，计算设备220可以基于第一样本数据集和第二样本数据集，训练用于进行音频语种识别的模型240。应理解，在训练模型240之前，为了适应卷积神经网络的输入要求，并且使得与音频片段相关联的数据更加符合人耳对不同频率声音的响应特性，计算设备220通常会对各音频片段进行预加重、分帧、短时傅立叶变换、梅尔滤波和取对数等操作，从而得到二维特征数据。例如，针对时间窗为3秒时长的音频片段(人声音频片段长于3秒的可以截取其中的至少3秒，人声音频片段短于3秒的可以将该片段补零拼接成3秒)，对每0.01秒的音频子片段执行如上处理，可以得到一个一维特征向量(其中可以包含例如80个特征值)。由于在3秒的时长中每0.01秒执行一次如上处理，故该音频片段可以被处理为300个一维特征向量，也就是一个大小为80×300的二维特征。具有标签的二维特征可以被输入至模型240进行训练。

此外，对于一些较难被模型240正确分辨的样本，本公开引入了改进的模型训练方式。图4示出了根据本公开的实施例的训练音频语种识别模型的详细过程400的流程图。

在402，计算设备220可以使用经训练的用于音频语种识别的模型240对不同于上述人声音频文件的另一人声音频文件中的音频片段进行检测。应理解，该另一人声音频文件是预先确定的包含非目标语种语音的音频文件。因此，已知该另一人声音频文件已经预先被确定为包含非目标语种语音，如果该另一音频文件中的音频片段被模型240检测为包含目标语种语音，则说明模型240还无法准确分辨该音频片段，故在404，计算设备220可以将该另一音频文件中的音频片段加入第一样本数据集正，即正样本数据集，从而可以进一步训练用于音频语种识别的模型240。

备选地或附加地，计算设备220还可以使用经训练的用于音频语种识别的模型240对不同于上述人声音频文件的另一人声音频文件中的音频片段进行检测。应理解，该另一人声音频文件是预先确定的包含目标语种语音的音频文件。因此，已知该另一人声音频文件已经预先被确定为包含目标语种语音，如果该另一音频文件中的音频片段被模型240检测为包含非目标语种语音，则说明模型240还无法准确分辨该音频片段，故计算设备220可以将该另一音频文件中的音频片段加入第二样本数据集正，即负样本数据集，从而可以进一步训练用于音频语种识别的模型240。通过上述两种优化训练方式，可以充分采集当前模型无法准确分辨的样本并将其加入后续训练，从而可以显著降低模型的误检率。

通过上述实施例，可以更有效率的训练出音频语种识别的模型，节省了人力和时间成本。

应理解，当模型240的训练过程执行完毕之后，模型240可以被用于对音频文件或者包含音频文件的视频文件进行检测，来确定该文件是否是降低用户体验的外语无字幕视频。图5示出了根据本公开的实施例的视频检测的过程500的流程图。在某些实施例中，过程500可以在图1的计算设备120以及图2的计算设备220中实现。现参照图5并结合图1描述根据本公开实施例的视频检测的过程500。为了便于理解，在下文描述中提及的具体实例均是示例性的，并不用于限定本公开的保护范围。

如图5所示，在502，计算设备120可以从待检测的视频文件中获取音频文件和多个图像。应理解，如图1所示，针对视频文件的音频语种识别过程，计算设备120可以先获取待检测的视频文件110，之后从视频文件110中解析出待检测的音频文件122。以此方式，可以仅检测视频的音频部分，从而减少了被检测对象的数据量，加快了检测速度。

在504，计算设备120可以从音频文件122中获取多个人声音频片段126。作为示例，为了适应卷积神经网络的输入要求，并且使得与音频片段相关联的数据更加符合人耳对不同频率声音的响应特性，计算设备120可以对各音频片段126进行预加重、分帧、短时傅立叶变换、梅尔滤波和取对数等操作，从而得到二维特征数据。例如，针对时间窗为3秒时长的音频片段，对每0.01秒的音频子片段执行如上处理，可以得到一个一维特征向量(其中可以包含例如80个特征值)。由此可知，音频片段126中的每个音频片段可以被处理为300个一维特征向量，也就是一个大小为80×300的二维特征。这些二维特征可以旨在后续过程中被输入至语种识别模型140进行检测，从而得到每个音频片段包含非目标语种语音的概率。此外，为了不遗漏地检测到待检测的音频文件122的每个部分，多个待检测的音频片段126中的每个音频片段均可以被截取为具有重叠部分。

在某些实施例中，由于音频文件122中可能进部分时长包含人声，故可以对音频文件122进行人声检测。作为示例，计算设备120可以基于人声检测算法确定音频文件122中的具有人声的音频片段的起始时间，并且至少将音频时长超过阈值时长的具有人声的音频片段确定为多个人声音频片段126。以此方式，可以使后续的语种识别操作仅专注于具有人声的音频片段，从而提高了识别效率。

在506，计算设备120可以对多个人声音频片段126进行语种识别。作为示例，可以使用经过上述方式训练的模型240来对多个人声音频片段126进行检测。通过利用模型240，可以更为准确、快速地完成语种识别的操作。

与对音频文件122的语种识别操作并行地，在508，计算设备120还可以对多个图像124进行字幕语种检测。在某些实施例中，计算设备120可以对多个图像124中的至少一个图像的预定位置(例如，该图像下方0.4倍图片高度处)进行目标语种字符检测，如果该预定位置不包含目标语种字符或者如果该预定位置包含目标语种字符且目标语种字符的数目小于阈值数目，则可以确定上述多个图像124不包含目标语种字幕。此外，如果该预定位置包含目标语种字符且目标语种字符的数据大于或等于阈值数目，则可以确定包含目标语种字幕。以此方式，可以准确确定视频文件中是否包含大多数用户能够理解的字幕信息。

在508，如果多个人声音频片段126中的至少一个片段被确定为包含非目标语种语音并且多个图像124中的至少一个图像被确定为不包含目标语种字幕，则计算设备120可以确定待检测的视频文件110的检测结果130，即该视频文件110是外语无字幕视频。这类视频将会被系统执行降级、屏蔽、删除等处理。

通过上述实施例，本公开能有效检测出海量视频中的外语无字幕视频，准召率高，鲁棒性佳，并且可以替代人工审核，节省人力资源，避免发生漏检、误检的情况。

图6示出了根据本公开的实施例的训练音频语种识别模型的装置600的框图。如图6所示，装置600可以包括：音频片段获取模块602，被配置为从人声音频文件中获取多个音频片段；第一样本数据集确定模块604，被配置为基于所述多个音频片段中包含非目标语种语音的音频片段，确定用于训练所述音频语种识别模型的第一样本数据集；第二样本数据集确定模块606，被配置为基于所述多个音频片段中包含目标语种语音的音频片段，确定用于训练所述音频语种识别模型的第二样本数据集；以及音频检测模型训练模块608，被配置为基于所述第一样本数据集和所述第二样本数据集，训练所述音频语种识别模型。

在某些实施例中，装置600还可以包括：第一训练后检测模块，被配置为使用经训练的所述音频语种识别模型对不同于所述人声音频文件的另一人声音频文件中的音频片段进行检测，所述另一人声音频文件是预先确定的包含非目标语种语音的音频文件；以及第一样本扩充模块，被配置为响应于所述另一人声音频文件中的音频片段被检测为包含目标语种语音，将所述另一音频文件中的音频片段加入所述第一样本数据集，用于进一步训练所述音频语种识别模型。

在某些实施例中，装置600还可以包括：第二训练后检测模块，被配置为使用经训练的所述音频语种识别模型对不同于所述人声音频文件的另一人声音频文件中的音频片段进行检测，所述另一人声音频文件是预先确定的包含目标语种语音的音频文件；以及第二样本扩充模块，被配置为响应于所述另一人声音频文件中的音频片段被检测为包含非目标语种语音，将所述另一音频文件中的音频片段加入所述第二样本数据集，用于进一步训练所述音频语种识别模型。

在某些实施例中，多个音频片段具有预定时长。

在某些实施例中，所述第一样本数据集是正样本数据集，并且所述第二样本数据集是负样本数据集。

在某些实施例中，所述人声音频文件是从视频文件和语种音频公开数据集中的至少一个中获取的。

在某些实施例中，所述目标语种语音是中文语音，并且所述非目标语种语音是非中文语音。

图7示出了根据本公开的实施例的视频检测装置700的框图。如图7所示，装置700可以包括：解析模块702，被配置为从待检测的视频文件中获取音频文件和多个图像；人声音频片段获取模块704，被配置为从所述音频文件中获取多个人声音频片段；人声语种识别模块706，被配置为对所述多个人声音频片段进行语种识别；字幕语种检测模块708，被配置为对所述多个图像进行字幕语种检测；以及后处理模块710，被配置为如果所述多个人声音频片段被确定为包含非目标语种语音并且所述多个图像被确定为不包含目标语种字幕，确定所述待检测的视频文件的检测结果。

在某些实施例中，所述人声音频片段获取模块704进一步被配置为：使用上述装置训练的所述音频语种识别模型对所述多个人声音频片段进行检测。

在某些实施例中，所述人声音频片段获取模块704包括：起始时间确定模块，被配置为基于人声检测算法确定所述音频文件中的具有人声的音频片段的起始时间；以及音频片段截取模块，被配置为至少将音频时长超过阈值时长的具有人声的音频片段确定为所述多个人声音频片段。

在某些实施例中，所述字幕语种检测模块708包括：目标语种字符检测模块，被配置为对所述多个图像中的至少一个图像的预定位置进行目标语种字符检测；以及判定模块，被配置为如果所述预定位置不包含目标语种字符或者如果所述预定位置包含目标语种字符且所述目标语种字符的数目小于阈值数目，确定所述多个图像不包含目标语种字幕。

在某些实施例中，使用所述音频语种识别模型对所述多个人声音频片段进行检测包括：被配置为分别预测所述多个人声音频片段中包含非目标语种语音的概率。

在某些实施例中，所述多个人声音频片段均被调整为具有预定时长。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了能够实施本公开的多个实施例的计算设备800的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如过程300、400、500。例如，在一些实施例中，过程300、400、500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的过程300、400、500的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程300、400、500。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频检测方法，包括：

从待检测的视频文件中获取音频文件和多个图像；

从所述音频文件中获取多个人声音频片段；

对所述多个人声音频片段进行语种识别；

对所述多个图像进行字幕语种检测；以及

如果所述多个人声音频片段被确定为包含非目标语种语音并且所述多个图像被确定为不包含目标语种字幕，确定所述待检测的视频文件的检测结果，

其中对所述多个人声音频片段进行语种识别包括：使用根据以下操作训练的音频语种识别模型，对所述多个人声音频片段进行检测：

从人声音频文件中获取多个音频片段；

基于所述多个音频片段中包含非目标语种语音的音频片段，确定用于训练所述音频语种识别模型的第一样本数据集；

基于所述多个音频片段中包含目标语种语音的音频片段，确定用于训练所述音频语种识别模型的第二样本数据集；

基于所述第一样本数据集和所述第二样本数据集，训练所述音频语种识别模型；

使用经训练的所述音频语种识别模型对不同于所述人声音频文件的另一人声音频文件中的音频片段进行检测，所述另一人声音频文件是预先确定的包含非目标语种语音的音频文件；

响应于所述另一人声音频文件中的音频片段被检测为包含目标语种语音，将所述另一音频文件中的音频片段加入所述第一样本数据集，用于进一步训练所述音频语种识别模型；以及

响应于所述另一人声音频文件中的音频片段被检测为包含非目标语种语音，将所述另一音频文件中的音频片段加入所述第二样本数据集，用于进一步训练所述音频语种识别模型，并且

其中从所述音频文件中获取所述多个人声音频片段包括：

基于人声检测算法确定所述音频文件中的具有人声的音频片段的起始时间；以及

至少将音频时长超过阈值时长的具有人声的音频片段确定为所述多个人声音频片段，以及

其中对所述多个图像进行字幕语种检测包括：

对所述多个图像中的至少一个图像的预定位置进行目标语种字符检测；以及

如果所述预定位置不包含目标语种字符或者如果所述预定位置包含目标语种字符且所述目标语种字符的数目小于阈值数目，确定所述多个图像不包含目标语种字幕。

2.根据权利要求1所述的方法，其中使用所述音频语种识别模型对所述多个人声音频片段进行检测包括：

分别预测所述多个人声音频片段中包含非目标语种语音的概率。

3.根据权利要求1所述的方法，其中所述多个人声音频片段均被调整为具有预定时长。

4.根据权利要求1所述的方法，其中所述目标语种语音是中文语音，并且所述非目标语种语音是非中文语音。

5.一种视频检测装置，包括：

解析模块，被配置为从待检测的视频文件中获取音频文件和多个图像；

人声音频片段获取模块，被配置为从所述音频文件中获取多个人声音频片段；

人声语种识别模块，被配置为对所述多个人声音频片段进行语种识别；

字幕语种检测模块，被配置为对所述多个图像进行字幕语种检测；以及

后处理模块，被配置为如果所述多个人声音频片段被确定为包含非目标语种语音并且所述多个图像被确定为不包含目标语种字幕，确定所述待检测的视频文件的检测结果，

其中所述人声音频片段获取模块进一步被配置为使用根据以下操作训练的音频语种识别模型对所述多个人声音频片段进行检测：

从人声音频文件中获取多个音频片段；

其中所述人声音频片段获取模块包括：

起始时间确定模块，被配置为基于人声检测算法确定所述音频文件中的具有人声的音频片段的起始时间；以及

音频片段截取模块，被配置为至少将音频时长超过阈值时长的具有人声的音频片段确定为所述多个人声音频片段，

其中所述字幕语种检测模块包括：

目标语种字符检测模块，被配置为对所述多个图像中的至少一个图像的预定位置进行目标语种字符检测；以及

判定模块，被配置为如果所述预定位置不包含目标语种字符或者如果所述预定位置包含目标语种字符且所述目标语种字符的数目小于阈值数目，确定所述多个图像不包含目标语种字幕。

6.根据权利要求5所述的装置，其中使用所述音频语种识别模型对所述多个人声音频片段进行检测包括：

被配置为分别预测所述多个人声音频片段中包含非目标语种语音的概率。

7.根据权利要求5所述的装置，其中所述多个人声音频片段均被调整为具有预定时长。

8.根据权利要求5所述的装置，其中所述目标语种语音是中文语音，并且所述非目标语种语音是非中文语音。

9. 一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-4中任一项所述的方法。