CN108806668A

CN108806668A - 一种音视频多维度标注与模型优化方法

Info

Publication number: CN108806668A
Application number: CN201810590276.8A
Authority: CN
Inventors: 杜翠兰; 王晶; 谢程利; 段运强; 吕萍; 柳林; 倪江帆; 廖子民
Original assignee: Xun Feizhi Metamessage Science And Technology Ltd; National Computer Network and Information Security Management Center
Current assignee: Xun Feizhi Metamessage Science And Technology Ltd; National Computer Network and Information Security Management Center
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2018-11-13

Abstract

本发明公开一种音视频多维度标注与模型优化方法，具体包括如下步骤：首先进行样本管理与分拣，针对输入系统的样本数据进行去重，编号，建立样本标注任务库；音频数据预处理阶段，将任务库的视频数据进行音频抽取，同时完成对音频数据的预处理操作；音频内容分析与特征提取阶段，在完成音频预处理后，并依据后台已配置的标注规范体系进行深度分析输出标签数据；步骤304：视频内容分析与特征提取阶段，通过对视频内容进行图像分析，并依据后台已配置的标注规范体系进行深度分析输出标签数据；步骤305：特征融合与标签生成，将识别特征与标签信息融合，输出该样本的标签结果；人工复核与模型优化，系统产生的标签结果数据会经由人工进行复核确认。

Description

一种音视频多维度标注与模型优化方法

技术领域

本发明涉及一种音视频多维度标注与模型优化方法，属于信息标注技术领域。

背景技术

当前互联网音视频呈现井喷发展，如何实现对海量音视频数据的分类，将无序混乱的数据进行有效分离，实现科学管理是各类互联网厂商、政府部分亟需解决的现实问题。

传统的音视频分类分析标注通常是基于单一分析引擎进行识别，再由人工进行复核。通常来讲这种分析标注方式具有较低的效率，同时给人员带来巨大的工作量。面对当下互联网音视频井喷式爆发，原有的标注方法已不能满足当前需求。同时各类分析引擎也在不断的升级优化中，标注系统如何快速集成并升级各类引擎也成为较大难题。

发明内容

本发明主要利用音视频中的语音数据以及视频内容等信息展开相关的分类分析研究。通过智能语音分析技术以及突破性的意图理解技术等，深度挖掘音频数据中蕴含的信息，通过事先标注、训练，能够支持定制个性化的特定信息分析模式，实现有目标主题的分拣与标注。同时系统利用图像分析技术，从视频特征的角度开展目标检测以及行为分析的相关研究，并结合文本语义理解技术完成对视频样本库进行视频特征标注。

本发明的架构内部集成了针对音视频内容分析的各类引擎，海量的音视频数据首先经过系统自动化分析，依据后台标签体系规范输出初始标注结果。再经由人工在此系统内部直接完成分析结果审核与标注补充。系统将依据人工审核、修改记录完成对分析引擎的结果评测，进而针对性的完成具体分析引擎的优化。同时人工复核的数据将会作为引擎升级的训练数据集。最终系统实现了从音视频自动分类分析、标注数据审核、引擎优化的闭环体系。

本发明提出的构建方法将具有更强的兼容性、自学习性能。实现了标注全业务的闭环操作，能够实现快速、低成本的细化标注、分析模型优化的用户需求。

本发明采用如下技术方案：一种音视频多维度标注与模型优化方法，其特征在于，具体包括如下步骤：

步骤301：首先进行样本管理与分拣，针对输入系统的样本数据进行去重，编号，建立样本标注任务库；

步骤302：音频数据预处理阶段，将任务库的视频数据进行音频抽取，形成视频、音频两种格式数据，同时完成对音频数据的预处理操作；

步骤303：音频内容分析与特征提取阶段，在完成音频预处理后，对音频内容进行深度分析，并依据后台已配置的标注规范体系进行深度分析输出标签数据；

步骤304：视频内容分析与特征提取阶段，通过对视频内容进行图像分析，从画面特征的角度开展目标检测以及行为分析的研判，输出画面特征多维度信息，并依据后台已配置的标注规范体系进行深度分析输出标签数据；

步骤305：特征融合与标签生成，样本数据经过音频、视频多维度的分析将会产生各类标签数据；依据已后台配置的标签系统，将识别特征与标签信息融合，输出该样本的标签结果；

步骤306：人工复核与模型优化，系统产生的标签结果数据会经由人工进行复核确认；人工对标签数据的修改、保存等操作日志都将会成为对模型分析结果的研判数据，从而实现对模型识别准确率等各项指标的研判；通过对效果的审核，将待优化的分析模型识别出，利用已标注维护的样本数据对其进行优化升级。

作为一种较佳的实施例，所述步骤302还包括：对音频数据进行VAD检测、特征提取、说话人分离、语种识别操作，形成基础的属性标签，同时完成对音频数据的标注化处理，为后续的音频内容分析与特征提取阶段提供标数据基础。

作为一种较佳的实施例，所述步骤303还包括：对音频进行连续语音识别，实现非结构化的音频数据向半结构化的文本数据转换，再此基础上完成关键词检索、文本语义理解、主题识别等分类操作与特征提取；同时还将对音频数据进行特定人声纹识别，将目标人物的音频数据识别并标注；对音频进行语种识别，输出具体语种属性标签。

作为一种较佳的实施例，所述步骤304还包括：在视频内容的台标识别过程中，采用多种特征提高台标识别的正确率，选择的特征有梯度特征、边缘特征、颜色特征和ORB特征。

作为一种较佳的实施例，所述识别过程可划分为三个部分：第一，台标图像特征提取与特征入库的准备；第二，索引的建立、相似性检索和结果排序的索引检索；第三，识别结果展示和用户反馈确认的用户交互。

作为一种较佳的实施例，所述步骤305还包括：后台实现可配置的标签体系管理模块，用户可自由设置标签体系模板，具体的标签值将会与模型识别出的标签属性值建立一一对应关系；在识别模型完成相应内容分析后，输出标签体系规范的标注结果；通过前端页面进行展示，并支持用户进行编辑与修改。

作为一种较佳的实施例，所述步骤306还包括：人工复核阶段，将系统分析的结果以树状形式展示，用户可直接查看在整个标签规范体系下已标注的内容，同时可直接通过树状结构的分支内容操作，丰富细化标签结果。

本发明所达到的有益效果：第一，本发明中的音频预处理阶段采用基于多特征和DNN相结合的语音端点检测算法，提高了语音端点检测正确率；首先分别提取语音信号的短时能量特征、时域方差特征和频域方差特征，然后将这些特征量作为DNN输入进行训练和建模，最后判断出该信号的类别，本发明相对于单一特征语音端点检测算法，本发明中提出的多特征融合和神经网络检测算法能更好的提高语音端点检测正确率，具有更好的适应性和鲁棒性，对不同信噪比的信号都有较好的检测能力；第二，本发明中的语音分离模块具体包括说话人变换点检测、说话人聚类、说话人模型训练及重新分割等处理过程，而说话人模型训练和重新分割一般需要重复多次，以保证最终语音分离的效果；第三，本发明中进行连续语音识别，对输入的语音进行FilterBank特征提取，声学模型使用基于人工神经网络(前馈型序列记忆网络FSMN)与隐马尔科夫过程相结合的框架进行建模，使用加权有限状态转换器(WFST)进行静态解码空间的构建，WFST的优势是其可以将声学模型与语言模型统一的嵌入到解码网络中，为搜索最优解码路径提供了极大便利性；第四，本发明进行声纹识别，采用多系统融合机制，声纹主要使用PLP特征、PNCC特征，两者使用不同的滤波器；其中，在带噪的语音中，PNCC特征得到的模型效果相对好一些。多系统融合策略为：对不同特征得到的模型进行融合，融合系数各取0.5。例如，PLP-TV系统模型和PNCC-TV系统模型进行融合，得到融合系统PLP-TV_PNCC-TV。一般而言，融合系统的效果比单个系统的效果要好。在SWK集合上，TV系统融合后要比单个TV系统效果提升12个百分点；dnn分类系统融合后要比单个dnn分类系统效果提升6个百分点；第五，本发明中进行文本语义理解，采用LSTM模型，是一种RNN特殊的类型，可以学习长期依赖信息；LSTM通过刻意的设计来避免长期依赖问题。

附图说明

图1是本发明的音视频多维度标注与模型优化方法的系统架构原理图。

图2是本发明中的文本语义理解结构图。

图3是本发明中的一种音视频多维度标注与模型优化方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示的是本发明的音视频多维度标注与模型优化方法的系统架构原理图，图3是本发明中的一种音视频多维度标注与模型优化方法的流程图。面对当前互联网音视频井喷发展，本发明针对如何实现对海量音视频数据的分类，将无序混乱的数据进行有效分离，实现科学管理是各类互联网厂商、政府部分亟需解决的技术问题。本发明提供了从音视频自动分类分析、标注数据审核、引擎优化的整个闭环体系。

本发明提出的系统架构内部集成了针对音视频内容分析的各类引擎，海量的音视频数据首先经过系统自动化分析，依据后台标签体系规范输出初始标注结果。再经由人工在此系统内部直接完成分析结果审核与标注补充。系统将依据人工审核、修改记录完成对分析引擎的结果评测，进而针对性的完成具体分析引擎的优化。

本发明提出一种音视频多维度标注与模型优化方法，包括以下主要步骤：

步骤301，首先进行样本管理与分拣，针对输入系统的样本数据进行去重，编号，建立样本标注任务库。

在本发明实例中，采用文件MD5值判断去重，保证进入任务库数据唯一性。系统对进入任务库的数据进行唯一编号，便于后期查询与管理，同时任务库数据是依据用户创建并且与操作用户绑定，保障数据操作与后续人工审核流程的一致性。

步骤302，音频数据预处理阶段，将任务库的视频数据进行音频抽取，形成视频、音频两种格式数据，同时完成对音频数据的预处理操作。

具体地，系统会对音频数据进行VAD检测、特征提取、说话人分离、语种识别等操作，形成基础的属性标签，同时完成对音频数据的标注化处理，为后续的音频内容分析与特征提取阶段提供标数据基础。

音频数据预处理中采用基于多特征和DNN相结合的语音端点检测算法，提高了语音端点检测正确率。首先分别提取语音信号的短时能量特征、时域方差特征和频域方差特征，然后将这些特征量作为DNN输入进行训练和建模，最后判断出该信号的类别。相对于单一特征语音端点检测算法，本系统中提出的多特征融合和神经网络检测算法能更好的提高语音端点检测正确率，具有更好的适应性和鲁棒性，对不同信噪比的信号都有较好的检测能力。

步骤303，音频内容分析与特征提取阶段，在完成音频预处理后，系统会对音频内容进行深度分析，并依据后台已配置的标注规范体系进行深度分析输出标签数据。

具体地，系统将对音频进行连续语音识别，实现非结构化的音频数据向半结构化的文本数据转换，再此基础上完成关键词检索、文本语义理解、主题识别等分类操作与特征提取；同时系统还将对音频数据进行特定人声纹识别，将目标人物的音频数据识别并标注；对音频进行语种识别，输出具体语种属性标签；

其中在连续语音识别过程中，对输入的语音进行FilterBank特征提取，声学模型使用基于人工神经网络(前馈型序列记忆网络FSMN)与隐马尔科夫过程相结合的框架进行建模，使用加权有限状态转换器(WFST)进行静态解码空间的构建，WFST的优势是其可以将声学模型与语言模型统一的嵌入到解码网络中，为搜索最优解码路径提供了极大便利性。在文本语义理解过程中，采用LSTM模型，是一种RNN特殊的类型，可以学习长期依赖信息。LSTM通过刻意的设计来避免长期依赖问题，提高了文本主题分类的准确率。

步骤304，视频内容分析与特征提取阶段，系统对视频内容进行图像分析，从画面特征的角度开展目标检测以及行为分析的研判，输出画面特征多维度信息，并依据后台已配置的标注规范体系进行深度分析输出标签数据。

具体地，在视频内容的台标识别过程中，采用多种特征提高台标识别的正确率，选择的特征有梯度特征、边缘特征、颜色特征和ORB特征。实现流程可划分为三个部分：第一，台标图像特征提取与特征入库的准备；第二，索引的建立、相似性检索和结果排序的索引检索；第三，识别结果展示和用户反馈确认的用户交互。

在视频内容的人脸识别过程中，使用的人脸检测专属深度网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类。同时，通过“逐层初始化”来有效克服深度神经网络在训练上的难度，逐层初始化可通过无监督学习实现。首先通过人脸上普遍存在的68个特定点(称为Landmarks)--下巴的顶部，每只眼睛的外部轮廓，每条眉毛的内部轮廓等。接下来，利用它们训练一个机器学习算法，能够在任何脸部找到这68个特定点。在拥有这68个特征点之后，将图像进行旋转，缩放等变换，使得眼睛和嘴巴尽可能靠近中心。无论脸部怎样扭曲变形，我们都能将眼睛和嘴巴向中间挪动到大致相同的位置，这将使下一步更加准确。再通过深度学习网络实现人脸的特征提取，基于DenseNet结构，将人脸不同区域通过深度卷积神经网络分别进行特征提取，并且结合基于softmax分类器的交叉熵准则以及基于不同样本对的tripletLoss准则对网络进行训练，从而最终获得该人脸的表征。

步骤305，特征融合与标签生成，样本数据经过音频、视频多维度的分析将会产生各类标签数据。系统依据已后台配置的标签系统，将识别特征与标签信息融合，输出该样本的标签结果。

具体地，系统后台实现了可配置的标签体系管理模块，用户可自由设置标签体系模板，具体的标签值将会与模型识别出的标签属性值建立一一对应关系。在识别模型完成相应内容分析后，输出标签体系规范的标注结果。通过前端页面进行展示，并支持用户进行编辑与修改。

步骤306，人工复核与模型优化，系统产生的标签结果数据会经由人工进行复核确认。人工对标签数据的修改、保存等操作日志都将会成为对模型分析结果的研判数据。从而实现对模型识别准确率等各项指标的研判。通过对效果的审核，系统可将待优化的分析模型识别出，利用已标注维护的样本数据对其进行优化升级。迭代更新后的模型将会重新集成到本系统中，提升整体系统研判准确率。

具体地，人工复核阶段，系统提供“引导式的标签修改”功能。即将系统分析的结果以树状形式展示，用户可直接查看在整个标签规范体系下已标注的内容，同时可直接通过树状结构的分支内容操作，丰富细化标签结果，极大的提高了人工审核与标注效率。

模型优化阶段中，系统将会记录用户审核修改的日志数据，反馈到模型效果评测中，计算出每个分析模型的准确率、召回率等各项性能指标。对于未满足指标的模型，会针对性的产生优化方案。标注审核的样本数据此时可作为模型优化的训练集数据输入到模型优化工作中，极大的提高了优化效率，节省训练成本。由于系统采用低耦合的架构设计，优化后的模型可直接在系统内部重新集成更新，并使用于新样本的标准工作中，最终实现整个标注系统的持续优化能力。

需要说明的是，如图2是本发明中的文本语义理解结构图。本发明进行声纹识别，采用多系统融合机制，声纹主要使用PLP特征、PNCC特征，两者使用不同的滤波器；其中，在带噪的语音中，PNCC特征得到的模型效果相对好一些。多系统融合策略为：对不同特征得到的模型进行融合，融合系数各取0.5。例如，PLP-TV系统模型和PNCC-TV系统模型进行融合，得到融合系统PLP-TV_PNCC-TV。一般而言，融合系统的效果比单个系统的效果要好。在SWK集合上，TV系统融合后要比单个TV系统效果提升12个百分点；dnn分类系统融合后要比单个dnn分类系统效果提升6个百分点；本发明中进行文本语义理解，采用LSTM模型，是一种RNN特殊的类型，可以学习长期依赖信息。LSTM通过刻意的设计来避免长期依赖问题。在标准的RNN中，这个重复的模块只有一个非常简单的结构，例如一个tanh层。LSTM同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，LSTM设置了遗忘门、输入门、输出门以及cell，用以选择性的保留隐层神经元的信息。LSTM的时序信息保存在cell中，遗忘门决定cell保留多少前面时刻的信息，输入门决定当前时刻有多少信息被更新到cell中，输出门决定当前时刻的输出。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种音视频多维度标注与模型优化方法，其特征在于，具体包括如下步骤：

步骤306：人工复核与模型优化，产生的标签结果数据会经由人工进行复核确认；人工对标签数据的修改、保存操作日志都将会成为对模型分析结果的研判数据，从而实现对模型识别准确率等各项指标的研判；通过对效果的审核，将待优化的分析模型识别出，利用已标注维护的样本数据对其进行优化升级。

2.根据权利要求1所述的一种音视频多维度标注与模型优化方法，其特征在于，所述步骤302还包括：对音频数据进行VAD检测、特征提取、说话人分离、语种识别操作，形成基础的属性标签，同时完成对音频数据的标注化处理，为后续的音频内容分析与特征提取阶段提供标数据基础。

3.根据权利要求1所述的一种音视频多维度标注与模型优化方法，其特征在于，所述步骤303还包括：对音频进行连续语音识别，实现非结构化的音频数据向半结构化的文本数据转换，再此基础上完成关键词检索、文本语义理解、主题识别分类操作与特征提取；同时还将对音频数据进行特定人声纹识别，将目标人物的音频数据识别并标注；对音频进行语种识别，输出具体语种属性标签。

4.根据权利要求1所述的一种音视频多维度标注与模型优化方法，其特征在于，所述步骤304还包括：在视频内容的台标识别过程中，采用多种特征提高台标识别的正确率，选择的特征有梯度特征、边缘特征、颜色特征和ORB特征。

5.根据权利要求4所述的一种音视频多维度标注与模型优化方法，其特征在于，所述识别过程可划分为三个部分：第一，台标图像特征提取与特征入库的准备；第二，索引的建立、相似性检索和结果排序的索引检索；第三，识别结果展示和用户反馈确认的用户交互。

6.根据权利要求1所述的一种音视频多维度标注与模型优化方法，其特征在于，所述步骤305还包括：后台实现可配置的标签体系管理模块，用户可自由设置标签体系模板，具体的标签值将会与模型识别出的标签属性值建立一一对应关系；在识别模型完成相应内容分析后，输出标签体系规范的标注结果；通过前端页面进行展示，并支持用户进行编辑与修改。

7.根据权利要求1所述的一种音视频多维度标注与模型优化方法，其特征在于，所述步骤306还包括：人工复核阶段，将系统分析的结果以树状形式展示，用户可直接查看在整个标签规范体系下已标注的内容，同时可直接通过树状结构的分支内容操作，丰富细化标签结果。