CN108806668A - 一种音视频多维度标注与模型优化方法 - Google Patents

一种音视频多维度标注与模型优化方法 Download PDF

Info

Publication number
CN108806668A
CN108806668A CN201810590276.8A CN201810590276A CN108806668A CN 108806668 A CN108806668 A CN 108806668A CN 201810590276 A CN201810590276 A CN 201810590276A CN 108806668 A CN108806668 A CN 108806668A
Authority
CN
China
Prior art keywords
audio
data
label
analysis
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810590276.8A
Other languages
English (en)
Inventor
杜翠兰
王晶
谢程利
段运强
吕萍
柳林
倪江帆
廖子民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xun Feizhi Metamessage Science And Technology Ltd
National Computer Network and Information Security Management Center
Original Assignee
Xun Feizhi Metamessage Science And Technology Ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xun Feizhi Metamessage Science And Technology Ltd, National Computer Network and Information Security Management Center filed Critical Xun Feizhi Metamessage Science And Technology Ltd
Priority to CN201810590276.8A priority Critical patent/CN108806668A/zh
Publication of CN108806668A publication Critical patent/CN108806668A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

本发明公开一种音视频多维度标注与模型优化方法,具体包括如下步骤:首先进行样本管理与分拣,针对输入系统的样本数据进行去重,编号,建立样本标注任务库;音频数据预处理阶段,将任务库的视频数据进行音频抽取,同时完成对音频数据的预处理操作;音频内容分析与特征提取阶段,在完成音频预处理后,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤304:视频内容分析与特征提取阶段,通过对视频内容进行图像分析,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤305:特征融合与标签生成,将识别特征与标签信息融合,输出该样本的标签结果;人工复核与模型优化,系统产生的标签结果数据会经由人工进行复核确认。

Description

一种音视频多维度标注与模型优化方法
技术领域
本发明涉及一种音视频多维度标注与模型优化方法,属于信息标注技术领域。
背景技术
当前互联网音视频呈现井喷发展,如何实现对海量音视频数据的分类,将无序混乱的数据进行有效分离,实现科学管理是各类互联网厂商、政府部分亟需解决的现实问题。
传统的音视频分类分析标注通常是基于单一分析引擎进行识别,再由人工进行复核。通常来讲这种分析标注方式具有较低的效率,同时给人员带来巨大的工作量。面对当下互联网音视频井喷式爆发,原有的标注方法已不能满足当前需求。同时各类分析引擎也在不断的升级优化中,标注系统如何快速集成并升级各类引擎也成为较大难题。
发明内容
本发明主要利用音视频中的语音数据以及视频内容等信息展开相关的分类分析研究。通过智能语音分析技术以及突破性的意图理解技术等,深度挖掘音频数据中蕴含的信息,通过事先标注、训练,能够支持定制个性化的特定信息分析模式,实现有目标主题的分拣与标注。同时系统利用图像分析技术,从视频特征的角度开展目标检测以及行为分析的相关研究,并结合文本语义理解技术完成对视频样本库进行视频特征标注。
本发明的架构内部集成了针对音视频内容分析的各类引擎,海量的音视频数据首先经过系统自动化分析,依据后台标签体系规范输出初始标注结果。再经由人工在此系统内部直接完成分析结果审核与标注补充。系统将依据人工审核、修改记录完成对分析引擎的结果评测,进而针对性的完成具体分析引擎的优化。同时人工复核的数据将会作为引擎升级的训练数据集。最终系统实现了从音视频自动分类分析、标注数据审核、引擎优化的闭环体系。
本发明提出的构建方法将具有更强的兼容性、自学习性能。实现了标注全业务的闭环操作,能够实现快速、低成本的细化标注、分析模型优化的用户需求。
本发明采用如下技术方案:一种音视频多维度标注与模型优化方法,其特征在于,具体包括如下步骤:
步骤301:首先进行样本管理与分拣,针对输入系统的样本数据进行去重,编号,建立样本标注任务库;
步骤302:音频数据预处理阶段,将任务库的视频数据进行音频抽取,形成视频、音频两种格式数据,同时完成对音频数据的预处理操作;
步骤303:音频内容分析与特征提取阶段,在完成音频预处理后,对音频内容进行深度分析,并依据后台已配置的标注规范体系进行深度分析输出标签数据;
步骤304:视频内容分析与特征提取阶段,通过对视频内容进行图像分析,从画面特征的角度开展目标检测以及行为分析的研判,输出画面特征多维度信息,并依据后台已配置的标注规范体系进行深度分析输出标签数据;
步骤305:特征融合与标签生成,样本数据经过音频、视频多维度的分析将会产生各类标签数据;依据已后台配置的标签系统,将识别特征与标签信息融合,输出该样本的标签结果;
步骤306:人工复核与模型优化,系统产生的标签结果数据会经由人工进行复核确认;人工对标签数据的修改、保存等操作日志都将会成为对模型分析结果的研判数据,从而实现对模型识别准确率等各项指标的研判;通过对效果的审核,将待优化的分析模型识别出,利用已标注维护的样本数据对其进行优化升级。
作为一种较佳的实施例,所述步骤302还包括:对音频数据进行VAD检测、特征提取、说话人分离、语种识别操作,形成基础的属性标签,同时完成对音频数据的标注化处理,为后续的音频内容分析与特征提取阶段提供标数据基础。
作为一种较佳的实施例,所述步骤303还包括:对音频进行连续语音识别,实现非结构化的音频数据向半结构化的文本数据转换,再此基础上完成关键词检索、文本语义理解、主题识别等分类操作与特征提取;同时还将对音频数据进行特定人声纹识别,将目标人物的音频数据识别并标注;对音频进行语种识别,输出具体语种属性标签。
作为一种较佳的实施例,所述步骤304还包括:在视频内容的台标识别过程中,采用多种特征提高台标识别的正确率,选择的特征有梯度特征、边缘特征、颜色特征和ORB特征。
作为一种较佳的实施例,所述识别过程可划分为三个部分:第一,台标图像特征提取与特征入库的准备;第二,索引的建立、相似性检索和结果排序的索引检索;第三,识别结果展示和用户反馈确认的用户交互。
作为一种较佳的实施例,所述步骤305还包括:后台实现可配置的标签体系管理模块,用户可自由设置标签体系模板,具体的标签值将会与模型识别出的标签属性值建立一一对应关系;在识别模型完成相应内容分析后,输出标签体系规范的标注结果;通过前端页面进行展示,并支持用户进行编辑与修改。
作为一种较佳的实施例,所述步骤306还包括:人工复核阶段,将系统分析的结果以树状形式展示,用户可直接查看在整个标签规范体系下已标注的内容,同时可直接通过树状结构的分支内容操作,丰富细化标签结果。
本发明所达到的有益效果:第一,本发明中的音频预处理阶段采用基于多特征和DNN相结合的语音端点检测算法,提高了语音端点检测正确率;首先分别提取语音信号的短时能量特征、时域方差特征和频域方差特征,然后将这些特征量作为DNN输入进行训练和建模,最后判断出该信号的类别,本发明相对于单一特征语音端点检测算法,本发明中提出的多特征融合和神经网络检测算法能更好的提高语音端点检测正确率,具有更好的适应性和鲁棒性,对不同信噪比的信号都有较好的检测能力;第二,本发明中的语音分离模块具体包括说话人变换点检测、说话人聚类、说话人模型训练及重新分割等处理过程,而说话人模型训练和重新分割一般需要重复多次,以保证最终语音分离的效果;第三,本发明中进行连续语音识别,对输入的语音进行FilterBank特征提取,声学模型使用基于人工神经网络(前馈型序列记忆网络FSMN)与隐马尔科夫过程相结合的框架进行建模,使用加权有限状态转换器(WFST)进行静态解码空间的构建,WFST的优势是其可以将声学模型与语言模型统一的嵌入到解码网络中,为搜索最优解码路径提供了极大便利性;第四,本发明进行声纹识别,采用多系统融合机制,声纹主要使用PLP特征、PNCC特征,两者使用不同的滤波器;其中,在带噪的语音中,PNCC特征得到的模型效果相对好一些。多系统融合策略为:对不同特征得到的模型进行融合,融合系数各取0.5。例如,PLP-TV系统模型和PNCC-TV系统模型进行融合,得到融合系统PLP-TV_PNCC-TV。一般而言,融合系统的效果比单个系统的效果要好。在SWK集合上,TV系统融合后要比单个TV系统效果提升12个百分点;dnn分类系统融合后要比单个dnn分类系统效果提升6个百分点;第五,本发明中进行文本语义理解,采用LSTM模型,是一种RNN特殊的类型,可以学习长期依赖信息;LSTM通过刻意的设计来避免长期依赖问题。
附图说明
图1是本发明的音视频多维度标注与模型优化方法的系统架构原理图。
图2是本发明中的文本语义理解结构图。
图3是本发明中的一种音视频多维度标注与模型优化方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示的是本发明的音视频多维度标注与模型优化方法的系统架构原理图,图3是本发明中的一种音视频多维度标注与模型优化方法的流程图。面对当前互联网音视频井喷发展,本发明针对如何实现对海量音视频数据的分类,将无序混乱的数据进行有效分离,实现科学管理是各类互联网厂商、政府部分亟需解决的技术问题。本发明提供了从音视频自动分类分析、标注数据审核、引擎优化的整个闭环体系。
本发明提出的系统架构内部集成了针对音视频内容分析的各类引擎,海量的音视频数据首先经过系统自动化分析,依据后台标签体系规范输出初始标注结果。再经由人工在此系统内部直接完成分析结果审核与标注补充。系统将依据人工审核、修改记录完成对分析引擎的结果评测,进而针对性的完成具体分析引擎的优化。
本发明提出一种音视频多维度标注与模型优化方法,包括以下主要步骤:
步骤301,首先进行样本管理与分拣,针对输入系统的样本数据进行去重,编号,建立样本标注任务库。
在本发明实例中,采用文件MD5值判断去重,保证进入任务库数据唯一性。系统对进入任务库的数据进行唯一编号,便于后期查询与管理,同时任务库数据是依据用户创建并且与操作用户绑定,保障数据操作与后续人工审核流程的一致性。
步骤302,音频数据预处理阶段,将任务库的视频数据进行音频抽取,形成视频、音频两种格式数据,同时完成对音频数据的预处理操作。
具体地,系统会对音频数据进行VAD检测、特征提取、说话人分离、语种识别等操作,形成基础的属性标签,同时完成对音频数据的标注化处理,为后续的音频内容分析与特征提取阶段提供标数据基础。
音频数据预处理中采用基于多特征和DNN相结合的语音端点检测算法,提高了语音端点检测正确率。首先分别提取语音信号的短时能量特征、时域方差特征和频域方差特征,然后将这些特征量作为DNN输入进行训练和建模,最后判断出该信号的类别。相对于单一特征语音端点检测算法,本系统中提出的多特征融合和神经网络检测算法能更好的提高语音端点检测正确率,具有更好的适应性和鲁棒性,对不同信噪比的信号都有较好的检测能力。
步骤303,音频内容分析与特征提取阶段,在完成音频预处理后,系统会对音频内容进行深度分析,并依据后台已配置的标注规范体系进行深度分析输出标签数据。
具体地,系统将对音频进行连续语音识别,实现非结构化的音频数据向半结构化的文本数据转换,再此基础上完成关键词检索、文本语义理解、主题识别等分类操作与特征提取;同时系统还将对音频数据进行特定人声纹识别,将目标人物的音频数据识别并标注;对音频进行语种识别,输出具体语种属性标签;
其中在连续语音识别过程中,对输入的语音进行FilterBank特征提取,声学模型使用基于人工神经网络(前馈型序列记忆网络FSMN)与隐马尔科夫过程相结合的框架进行建模,使用加权有限状态转换器(WFST)进行静态解码空间的构建,WFST的优势是其可以将声学模型与语言模型统一的嵌入到解码网络中,为搜索最优解码路径提供了极大便利性。在文本语义理解过程中,采用LSTM模型,是一种RNN特殊的类型,可以学习长期依赖信息。LSTM通过刻意的设计来避免长期依赖问题,提高了文本主题分类的准确率。
步骤304,视频内容分析与特征提取阶段,系统对视频内容进行图像分析,从画面特征的角度开展目标检测以及行为分析的研判,输出画面特征多维度信息,并依据后台已配置的标注规范体系进行深度分析输出标签数据。
具体地,在视频内容的台标识别过程中,采用多种特征提高台标识别的正确率,选择的特征有梯度特征、边缘特征、颜色特征和ORB特征。实现流程可划分为三个部分:第一,台标图像特征提取与特征入库的准备;第二,索引的建立、相似性检索和结果排序的索引检索;第三,识别结果展示和用户反馈确认的用户交互。
在视频内容的人脸识别过程中,使用的人脸检测专属深度网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类。同时,通过“逐层初始化”来有效克服深度神经网络在训练上的难度,逐层初始化可通过无监督学习实现。首先通过人脸上普遍存在的68个特定点(称为Landmarks)--下巴的顶部,每只眼睛的外部轮廓,每条眉毛的内部轮廓等。接下来,利用它们训练一个机器学习算法,能够在任何脸部找到这68个特定点。在拥有这68个特征点之后,将图像进行旋转,缩放等变换,使得眼睛和嘴巴尽可能靠近中心。无论脸部怎样扭曲变形,我们都能将眼睛和嘴巴向中间挪动到大致相同的位置,这将使下一步更加准确。再通过深度学习网络实现人脸的特征提取,基于DenseNet结构,将人脸不同区域通过深度卷积神经网络分别进行特征提取,并且结合基于softmax分类器的交叉熵准则以及基于不同样本对的tripletLoss准则对网络进行训练,从而最终获得该人脸的表征。
步骤305,特征融合与标签生成,样本数据经过音频、视频多维度的分析将会产生各类标签数据。系统依据已后台配置的标签系统,将识别特征与标签信息融合,输出该样本的标签结果。
具体地,系统后台实现了可配置的标签体系管理模块,用户可自由设置标签体系模板,具体的标签值将会与模型识别出的标签属性值建立一一对应关系。在识别模型完成相应内容分析后,输出标签体系规范的标注结果。通过前端页面进行展示,并支持用户进行编辑与修改。
步骤306,人工复核与模型优化,系统产生的标签结果数据会经由人工进行复核确认。人工对标签数据的修改、保存等操作日志都将会成为对模型分析结果的研判数据。从而实现对模型识别准确率等各项指标的研判。通过对效果的审核,系统可将待优化的分析模型识别出,利用已标注维护的样本数据对其进行优化升级。迭代更新后的模型将会重新集成到本系统中,提升整体系统研判准确率。
具体地,人工复核阶段,系统提供“引导式的标签修改”功能。即将系统分析的结果以树状形式展示,用户可直接查看在整个标签规范体系下已标注的内容,同时可直接通过树状结构的分支内容操作,丰富细化标签结果,极大的提高了人工审核与标注效率。
模型优化阶段中,系统将会记录用户审核修改的日志数据,反馈到模型效果评测中,计算出每个分析模型的准确率、召回率等各项性能指标。对于未满足指标的模型,会针对性的产生优化方案。标注审核的样本数据此时可作为模型优化的训练集数据输入到模型优化工作中,极大的提高了优化效率,节省训练成本。由于系统采用低耦合的架构设计,优化后的模型可直接在系统内部重新集成更新,并使用于新样本的标准工作中,最终实现整个标注系统的持续优化能力。
需要说明的是,如图2是本发明中的文本语义理解结构图。本发明进行声纹识别,采用多系统融合机制,声纹主要使用PLP特征、PNCC特征,两者使用不同的滤波器;其中,在带噪的语音中,PNCC特征得到的模型效果相对好一些。多系统融合策略为:对不同特征得到的模型进行融合,融合系数各取0.5。例如,PLP-TV系统模型和PNCC-TV系统模型进行融合,得到融合系统PLP-TV_PNCC-TV。一般而言,融合系统的效果比单个系统的效果要好。在SWK集合上,TV系统融合后要比单个TV系统效果提升12个百分点;dnn分类系统融合后要比单个dnn分类系统效果提升6个百分点;本发明中进行文本语义理解,采用LSTM模型,是一种RNN特殊的类型,可以学习长期依赖信息。LSTM通过刻意的设计来避免长期依赖问题。在标准的RNN中,这个重复的模块只有一个非常简单的结构,例如一个tanh层。LSTM同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,LSTM设置了遗忘门、输入门、输出门以及cell,用以选择性的保留隐层神经元的信息。LSTM的时序信息保存在cell中,遗忘门决定cell保留多少前面时刻的信息,输入门决定当前时刻有多少信息被更新到cell中,输出门决定当前时刻的输出。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种音视频多维度标注与模型优化方法,其特征在于,具体包括如下步骤:
步骤301:首先进行样本管理与分拣,针对输入系统的样本数据进行去重,编号,建立样本标注任务库;
步骤302:音频数据预处理阶段,将任务库的视频数据进行音频抽取,形成视频、音频两种格式数据,同时完成对音频数据的预处理操作;
步骤303:音频内容分析与特征提取阶段,在完成音频预处理后,对音频内容进行深度分析,并依据后台已配置的标注规范体系进行深度分析输出标签数据;
步骤304:视频内容分析与特征提取阶段,通过对视频内容进行图像分析,从画面特征的角度开展目标检测以及行为分析的研判,输出画面特征多维度信息,并依据后台已配置的标注规范体系进行深度分析输出标签数据;
步骤305:特征融合与标签生成,样本数据经过音频、视频多维度的分析将会产生各类标签数据;依据已后台配置的标签系统,将识别特征与标签信息融合,输出该样本的标签结果;
步骤306:人工复核与模型优化,产生的标签结果数据会经由人工进行复核确认;人工对标签数据的修改、保存操作日志都将会成为对模型分析结果的研判数据,从而实现对模型识别准确率等各项指标的研判;通过对效果的审核,将待优化的分析模型识别出,利用已标注维护的样本数据对其进行优化升级。
2.根据权利要求1所述的一种音视频多维度标注与模型优化方法,其特征在于,所述步骤302还包括:对音频数据进行VAD检测、特征提取、说话人分离、语种识别操作,形成基础的属性标签,同时完成对音频数据的标注化处理,为后续的音频内容分析与特征提取阶段提供标数据基础。
3.根据权利要求1所述的一种音视频多维度标注与模型优化方法,其特征在于,所述步骤303还包括:对音频进行连续语音识别,实现非结构化的音频数据向半结构化的文本数据转换,再此基础上完成关键词检索、文本语义理解、主题识别分类操作与特征提取;同时还将对音频数据进行特定人声纹识别,将目标人物的音频数据识别并标注;对音频进行语种识别,输出具体语种属性标签。
4.根据权利要求1所述的一种音视频多维度标注与模型优化方法,其特征在于,所述步骤304还包括:在视频内容的台标识别过程中,采用多种特征提高台标识别的正确率,选择的特征有梯度特征、边缘特征、颜色特征和ORB特征。
5.根据权利要求4所述的一种音视频多维度标注与模型优化方法,其特征在于,所述识别过程可划分为三个部分:第一,台标图像特征提取与特征入库的准备;第二,索引的建立、相似性检索和结果排序的索引检索;第三,识别结果展示和用户反馈确认的用户交互。
6.根据权利要求1所述的一种音视频多维度标注与模型优化方法,其特征在于,所述步骤305还包括:后台实现可配置的标签体系管理模块,用户可自由设置标签体系模板,具体的标签值将会与模型识别出的标签属性值建立一一对应关系;在识别模型完成相应内容分析后,输出标签体系规范的标注结果;通过前端页面进行展示,并支持用户进行编辑与修改。
7.根据权利要求1所述的一种音视频多维度标注与模型优化方法,其特征在于,所述步骤306还包括:人工复核阶段,将系统分析的结果以树状形式展示,用户可直接查看在整个标签规范体系下已标注的内容,同时可直接通过树状结构的分支内容操作,丰富细化标签结果。
CN201810590276.8A 2018-06-08 2018-06-08 一种音视频多维度标注与模型优化方法 Pending CN108806668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810590276.8A CN108806668A (zh) 2018-06-08 2018-06-08 一种音视频多维度标注与模型优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810590276.8A CN108806668A (zh) 2018-06-08 2018-06-08 一种音视频多维度标注与模型优化方法

Publications (1)

Publication Number Publication Date
CN108806668A true CN108806668A (zh) 2018-11-13

Family

ID=64088937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810590276.8A Pending CN108806668A (zh) 2018-06-08 2018-06-08 一种音视频多维度标注与模型优化方法

Country Status (1)

Country Link
CN (1) CN108806668A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376145A (zh) * 2018-11-19 2019-02-22 深圳Tcl新技术有限公司 影视对白数据库的建立方法、建立装置及存储介质
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN109640112A (zh) * 2019-01-15 2019-04-16 广州虎牙信息科技有限公司 视频处理方法、装置、设备及存储介质
CN109831677A (zh) * 2018-12-14 2019-05-31 平安科技(深圳)有限公司 视频脱敏方法、装置、计算机设备和存储介质
CN110222791A (zh) * 2019-06-20 2019-09-10 杭州睿琪软件有限公司 样本标注信息的审核方法及装置
CN110287799A (zh) * 2019-05-28 2019-09-27 东南大学 基于深度学习的视频ucl语义标引方法与装置
CN110335591A (zh) * 2019-07-04 2019-10-15 广州云从信息科技有限公司 一种参数管理方法、装置、机器可读介质及设备
CN110390952A (zh) * 2019-06-21 2019-10-29 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法
CN110493092A (zh) * 2019-08-28 2019-11-22 深圳市云之尚网络科技有限公司 基于远场语音和iot的万能遥控以及家电遥控方法
CN110544467A (zh) * 2019-09-04 2019-12-06 中国联合网络通信集团有限公司 语音数据的审核方法、装置、设备及存储介质
CN110555117A (zh) * 2019-09-10 2019-12-10 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110619035A (zh) * 2019-08-01 2019-12-27 平安科技(深圳)有限公司 识别面试视频中关键词的方法、装置、设备及存储介质
CN110704682A (zh) * 2019-09-26 2020-01-17 新华智云科技有限公司 一种基于视频多维特征智能推荐背景音乐的方法及系统
CN111079566A (zh) * 2019-11-28 2020-04-28 深圳市信义科技有限公司 一种大规模人脸识别模型优化系统
CN111291618A (zh) * 2020-01-13 2020-06-16 腾讯科技(深圳)有限公司 标注方法、装置、服务器和存储介质
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN111460209A (zh) * 2020-04-15 2020-07-28 厦门快商通科技股份有限公司 一种音频指纹的检索方法和装置以及设备
CN111695422A (zh) * 2020-05-06 2020-09-22 Oppo(重庆)智能科技有限公司 视频标签获取方法、装置、存储介质及服务器
CN112016613A (zh) * 2020-08-26 2020-12-01 广州市百果园信息技术有限公司 视频内容分类模型的训练方法、装置、计算机设备及介质
TWI715236B (zh) * 2019-10-04 2021-01-01 中華電信股份有限公司 語音主題分類之系統與方法
WO2021082499A1 (zh) * 2019-10-31 2021-05-06 百果园技术(新加坡)有限公司 一种资源的标注管理系统
WO2021174926A1 (zh) * 2020-03-05 2021-09-10 安徽声讯信息技术有限公司 一种网站不良信息监测系统及其监测方法
CN114141244A (zh) * 2020-09-04 2022-03-04 四川大学 基于音频媒体分析的语音识别技术
WO2022110730A1 (zh) * 2020-11-27 2022-06-02 平安科技(深圳)有限公司 基于标签的优化模型训练方法、装置、设备及存储介质
CN114998785A (zh) * 2022-05-24 2022-09-02 内蒙古自治区公安厅 一种蒙语视频智能分析方法
CN116229943A (zh) * 2023-05-08 2023-06-06 北京爱数智慧科技有限公司 一种对话式数据集的生成方法和装置

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376145A (zh) * 2018-11-19 2019-02-22 深圳Tcl新技术有限公司 影视对白数据库的建立方法、建立装置及存储介质
CN109376145B (zh) * 2018-11-19 2022-05-06 深圳Tcl新技术有限公司 影视对白数据库的建立方法、建立装置及存储介质
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN109635171B (zh) * 2018-12-13 2022-11-29 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN109831677A (zh) * 2018-12-14 2019-05-31 平安科技(深圳)有限公司 视频脱敏方法、装置、计算机设备和存储介质
CN109831677B (zh) * 2018-12-14 2022-04-01 平安科技(深圳)有限公司 视频脱敏方法、装置、计算机设备和存储介质
CN109640112A (zh) * 2019-01-15 2019-04-16 广州虎牙信息科技有限公司 视频处理方法、装置、设备及存储介质
CN110287799B (zh) * 2019-05-28 2021-03-19 东南大学 基于深度学习的视频ucl语义标引方法与装置
CN110287799A (zh) * 2019-05-28 2019-09-27 东南大学 基于深度学习的视频ucl语义标引方法与装置
CN110222791A (zh) * 2019-06-20 2019-09-10 杭州睿琪软件有限公司 样本标注信息的审核方法及装置
CN110222791B (zh) * 2019-06-20 2020-12-04 杭州睿琪软件有限公司 样本标注信息的审核方法及装置
CN110390952A (zh) * 2019-06-21 2019-10-29 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法
CN110390952B (zh) * 2019-06-21 2021-10-22 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法
CN110335591A (zh) * 2019-07-04 2019-10-15 广州云从信息科技有限公司 一种参数管理方法、装置、机器可读介质及设备
CN110619035B (zh) * 2019-08-01 2023-07-25 平安科技(深圳)有限公司 识别面试视频中关键词的方法、装置、设备及存储介质
CN110619035A (zh) * 2019-08-01 2019-12-27 平安科技(深圳)有限公司 识别面试视频中关键词的方法、装置、设备及存储介质
CN110493092A (zh) * 2019-08-28 2019-11-22 深圳市云之尚网络科技有限公司 基于远场语音和iot的万能遥控以及家电遥控方法
CN110544467A (zh) * 2019-09-04 2019-12-06 中国联合网络通信集团有限公司 语音数据的审核方法、装置、设备及存储介质
CN110555117B (zh) * 2019-09-10 2022-05-31 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110555117A (zh) * 2019-09-10 2019-12-10 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110704682A (zh) * 2019-09-26 2020-01-17 新华智云科技有限公司 一种基于视频多维特征智能推荐背景音乐的方法及系统
TWI715236B (zh) * 2019-10-04 2021-01-01 中華電信股份有限公司 語音主題分類之系統與方法
WO2021082499A1 (zh) * 2019-10-31 2021-05-06 百果园技术(新加坡)有限公司 一种资源的标注管理系统
CN111079566B (zh) * 2019-11-28 2023-05-02 深圳市信义科技有限公司 一种大规模人脸识别模型优化系统
CN111079566A (zh) * 2019-11-28 2020-04-28 深圳市信义科技有限公司 一种大规模人脸识别模型优化系统
CN111291618B (zh) * 2020-01-13 2024-01-09 腾讯科技(深圳)有限公司 标注方法、装置、服务器和存储介质
CN111291618A (zh) * 2020-01-13 2020-06-16 腾讯科技(深圳)有限公司 标注方法、装置、服务器和存储介质
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
WO2021174926A1 (zh) * 2020-03-05 2021-09-10 安徽声讯信息技术有限公司 一种网站不良信息监测系统及其监测方法
CN111460209A (zh) * 2020-04-15 2020-07-28 厦门快商通科技股份有限公司 一种音频指纹的检索方法和装置以及设备
CN111695422B (zh) * 2020-05-06 2023-08-18 Oppo(重庆)智能科技有限公司 视频标签获取方法、装置、存储介质及服务器
CN111695422A (zh) * 2020-05-06 2020-09-22 Oppo(重庆)智能科技有限公司 视频标签获取方法、装置、存储介质及服务器
CN112016613A (zh) * 2020-08-26 2020-12-01 广州市百果园信息技术有限公司 视频内容分类模型的训练方法、装置、计算机设备及介质
CN114141244A (zh) * 2020-09-04 2022-03-04 四川大学 基于音频媒体分析的语音识别技术
WO2022110730A1 (zh) * 2020-11-27 2022-06-02 平安科技(深圳)有限公司 基于标签的优化模型训练方法、装置、设备及存储介质
CN114998785A (zh) * 2022-05-24 2022-09-02 内蒙古自治区公安厅 一种蒙语视频智能分析方法
CN116229943A (zh) * 2023-05-08 2023-06-06 北京爱数智慧科技有限公司 一种对话式数据集的生成方法和装置
CN116229943B (zh) * 2023-05-08 2023-08-15 北京爱数智慧科技有限公司 一种对话式数据集的生成方法和装置

Similar Documents

Publication Publication Date Title
CN108806668A (zh) 一种音视频多维度标注与模型优化方法
CN108717856A (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN102982572B (zh) 一种智能化图像编辑方法和装置
CN110147726A (zh) 业务质检方法和装置、存储介质及电子装置
CN110335609A (zh) 一种基于语音识别的地空通话数据分析方法及系统
CN103810998B (zh) 基于移动终端设备的离线语音识别方法以及实现方法
CN110211565A (zh) 方言识别方法、装置及计算机可读存储介质
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN107577662A (zh) 面向中文文本的语义理解系统及方法
CN110750974B (zh) 一种裁判文书结构化处理方法及系统
CN112101044B (zh) 一种意图识别方法、装置及电子设备
Shahriar et al. Classifying maqams of Qur’anic recitations using deep learning
CN111259976A (zh) 基于多模态对齐与多向量表征的人格检测方法
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN109871449A (zh) 一种基于语义描述的端到端的零样本学习方法
CN110473571A (zh) 基于短视频语音的情感识别方法和装置
CN115910066A (zh) 用于区域配电网的智能调度指挥与运营系统
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
CN116778967B (zh) 基于预训练模型的多模态情感识别方法及装置
CN116959417A (zh) 对话回合的检测方法、装置、设备、介质、程序产品
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
CN115033695A (zh) 一种基于常识知识图谱的长对话情感检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181113