CN112233667A - 基于深度学习的同期声识别方法 - Google Patents

基于深度学习的同期声识别方法 Download PDF

Info

Publication number
CN112233667A
CN112233667A CN202011492040.4A CN202011492040A CN112233667A CN 112233667 A CN112233667 A CN 112233667A CN 202011492040 A CN202011492040 A CN 202011492040A CN 112233667 A CN112233667 A CN 112233667A
Authority
CN
China
Prior art keywords
sound
deep learning
audio
video
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011492040.4A
Other languages
English (en)
Other versions
CN112233667B (zh
Inventor
陈锋
温序铭
罗明利
杨瀚
谢超平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202011492040.4A priority Critical patent/CN112233667B/zh
Publication of CN112233667A publication Critical patent/CN112233667A/zh
Application granted granted Critical
Publication of CN112233667B publication Critical patent/CN112233667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了基于深度学习的同期声识别方法,包括步骤:S1,获取新闻节目视频,利用视频转场将获取的新闻节目视频分割为多个片段,抽取音频,然后对音频打上同期声或非同期声的标记;S2,提取音频特征;S3,利用步骤S2中处理后的数据基于深度学习网络模型进行训练,并与预训练模型结合进行迁移学习训练,获得分类预测模型,作为同期声识别模型;S4,对同期声识别模型的结果进行融合输出等;本发明减小了同期声识别中的计算资源消耗,提高了可靠性和稳定性,提高了同期声识别质量和工作效率,增强了节目内容的感染力和节目制作效率等。

Description

基于深度学习的同期声识别方法
技术领域
本发明涉及广播电视新闻同期声识别领域,更为具体的,涉及基于深度学习的同期声识别方法。
背景技术
新闻节目中包含的声音可以概括为两大类,一种是采访声音或者环境声音称为同期声,另一种则是由主持人或者其他人为画面配的音、或者后期加入的声音特效,可以称之为非同期声。
近年来,随着广播电视新闻行业的快速发展,同期声的运用也越来越广泛。同期声在新闻节目中有着重要的地位,准确地区分同期声,利用同期声,可以加强新闻的现场感、真实感,让观众有身临其境的感觉。观众对电视节目的要求越来越高了,解说加画面的传统方式已经不再满足观众的需求了。事实证明,被采访者亲口说出来的事实远远比记者、主持人描述出来的更能打动人心,更能够诱发观众情感上的共鸣、佐证新闻内容的真实性。同期声片段在新闻节目制作中往往能够复用,准确智能地识别出同期声也能够帮助节目制作人员轻松地复用同期声片段,极大地提高工作效率。
目前,现有的同期声识别技术存在如下问题:计算资源消耗严重、可靠性和稳定性较差等。
发明内容
本发明的目的在于克服现有技术的不足,提供基于深度学习的同期声识别方法,减小了同期声识别中的计算资源消耗,提高了可靠性和稳定性,提高识别质量和工作效率,增强了节目内容的感染力和节目制作效率等。
本发明的目的是通过以下方案实现的:
基于深度学习的同期声识别方法,包括步骤:
S1,获取新闻节目视频,利用视频转场将获取的新闻节目视频分割为多个片段,抽取音频,然后对音频打上同期声或非同期声的标记;
S2,提取音频特征;
S3,利用步骤S2中处理后的数据基于深度学习网络模型进行训练,并与预训练模型结合进行迁移学习训练,获得分类预测模型,作为同期声识别模型;
S4,对同期声识别模型的结果进行融合输出。
进一步地,步骤S1中,找到视频镜头切换的地方,按照视频转场的入出点分割视频文件。
进一步地,步骤S1包括子步骤:
S11,对收集的新闻节目视频进行解码;
S12,对解码后的视频进行转场处理,找到视频镜头切换的地方,利用视觉画面的转场来进行分割;
S13,按照视频转场的入出点分割视频文件;
S14,抽取分割后的每个视频片段文件的音频信息形成音频wav文件;
S15,标注音频文件,在步骤S15中标注音频文件的方式包括:同期声标记为1,非同期声标记为0。
进一步地,步骤S2中,提取音频特征前首先将音频信号进行重采样到统一的采样率。
进一步地,步骤S2中,对重采样后的信号做加窗处理。
进一步地,步骤S2提取音频特征过程中,通过傅里叶变换将时域信号变换到频域信号处理,对变换后的频域信息利用Mel滤波处理,然后对输出能量进行对数操作。
进一步地,对数操作后进行组帧,组帧后数据作为深度学习网络模型的输入。
进一步地,步骤S2中,提取音频特征包括提取音频的log-mel spectrogram特征。
进一步地,步骤S3中利用VGGish作为预训练模型,然后在VGGish网络的后面接全连接层进行迁移学习训练,并与所述深度学习网络模型结合训练,获得二分类预测模型。
进一步地,利用所述二分类预测模型预测的结果融合处理,然后为输入的音频片段打上同期声或者非同期声的标签。
本发明的有益效果是:
本发明减小了同期声识别中的计算资源消耗,提高了可靠性和稳定性,提高识别质量和工作效率。具体的,利用深度学习强大的特征抽取能力,从现有大量的媒体资料库中获得大量的同期声和非同期声数据样本,并借助预训练模型,用较小的资源消耗训练出最优的模型,从而减小了计算资源消耗;对解码后的视频进行转场处理,直接找到视频镜头切换的地方,由于同期声的转换伴随着画面的转变,所以直接利用视觉画面的转场来进行分割,切割效率高,有益于减小计算资源消耗;将音频信号重采样到统一的采样率,使模型面对不同的输入能够适应,避免繁杂的计算,简化了计算过程,有益于减小计算资源消耗;对频谱信号加窗处理,减少这种信号频谱的泄露,数据更加完整可靠;通过利用傅里叶变换将时域信号变换到频域信号进行处理,同时利用Mel滤波,能够得到稳定的Mel声谱信息,使得信号更加符合人声听觉系统的感知,有益于提高识别质量和工作效率,增强了节目内容的感染力和节目制作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为从广播电视新闻节目视频到同期声识别的全流程图;
图2为训练数据准备流程图;
图3为模型训练流程图;
图4为 log-mel spectrogram特征提取过程;
图5为VGG网络结构示意图;
图5中,convolution+ReLU代表卷积层+修正线性激活层,max pooling代表最大池化层,fully connected+ReLU代表全连接层+修正线性激活层,softmax代表输出激励函数采用softmax。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
根据背景技术,同期声识别的问题本质上可以定性为一个声音的二分类问题。深度学习方法在视觉分类问题中已经得到了广泛应用并取得了巨大的成功。在视觉分类中,将不同类别的图像数据集输入神经网络中,由网络提取特征、在损失函数的约束下,不断地更新网络参数,学习到最优的分类模型。因此利用声音信号的特征,利用深度学习的方法获得一种同期声识别的方法,这对新闻节目制作,不论是节目内容的感染力还是节目制作的高效性都是十分有意义的。
如图1~5所示,基于深度学习的同期声识别方法,包括步骤:
S1,获取新闻节目视频,利用视频转场将获取的新闻节目视频分割为多个片段,抽取音频,然后对音频打上同期声或非同期声的标记;
S2,提取音频特征;
S3,利用步骤S2中处理后的数据基于深度学习网络模型进行训练,并与预训练模型结合进行迁移学习训练,获得分类预测模型,作为同期声识别模型;
S4,对同期声识别模型的结果进行融合输出。
进一步地,步骤S1中,找到视频镜头切换的地方,按照视频转场的入出点分割视频文件。
进一步地,步骤S1包括子步骤:
S11,对收集的新闻节目视频进行解码;
S12,对解码后的视频进行转场处理,找到视频镜头切换的地方,利用视觉画面的转场来进行分割;
S13,按照视频转场的入出点分割视频文件;
S14,抽取分割后的每个视频片段文件的音频信息形成音频wav文件;
S15,标注音频文件,在步骤S15中标注音频文件的方式包括:同期声标记为1,非同期声标记为0。
进一步地,步骤S2中,提取音频特征前首先将音频信号进行重采样到统一的采样率。
进一步地,步骤S2中,对重采样后的信号做加窗处理。
进一步地,步骤S2提取音频特征过程中,通过傅里叶变换将时域信号变换到频域信号处理,对变换后的频域信息利用Mel滤波处理,然后对输出能量进行对数操作。
进一步地,对数操作后进行组帧,组帧后数据作为深度学习网络模型的输入。
进一步地,步骤S2中,提取音频特征包括提取音频的log-mel spectrogram特征。
进一步地,步骤S3中利用VGGish作为预训练模型,然后在VGGish网络的后面接全连接层进行迁移学习训练,并与所述深度学习网络模型结合训练,获得二分类预测模型。
进一步地,利用所述二分类预测模型预测的结果融合处理,然后为输入的音频片段打上同期声或者非同期声的标签。
在本发明的其他实施例中,提供了一种基于深度学习的同期声识别方法,图1表示从广播电视新闻节目到同期声识别的整个流程,该实施例方案包括以下步骤:新闻节目视频数据标注;同期声识别模型训练(包含音频特征提取);模型预测结果融合输出。
上述实施例的方案中,新闻节目视频数据标注属于模型训练的前期准备工作,在由数据驱动的深度学习中,训练数据的准备尤为重要。数据准备的流程如图2所示,其中输入新闻节目素材是指从现实中收集的视音频一体的文件,为了保证数据的多样性,收集了来自中央台、体育台、地方新闻台的各种类型的新闻节目视频。具体步骤如下:
步骤1.1:首先对收集的节目视频进行解码。
步骤1.2:对视频进行转场处理,找到视频镜头切换的地方,因为同期声的转换伴随着画面的转变(如采访画面),所以利用视觉画面的转场来进行分割。
步骤1.3:按照视频转场的入出点分割视频文件。
步骤1.4:抽取每个视频片段文件的音频信息形成音频wav文件。
步骤1.5:人工标注音频文件,同期声标记为1,非同期声标记为0。
上述实施例方案中,用深度学习方法训练同期声识别模型,包括特征工程、网络设计与参数调优三大过程。如图3所示,详细介绍如下:
步骤2.1:log-mel spectrogram特征提取。特征的提取过程如图4,为了满足不同的输 入适应不同的情况,首先将音频信号重采样到统一的采样率下,本发明实施例中统一处理 为16kHZ的单声道音频信号,对输入信号
Figure 992670DEST_PATH_IMAGE001
进行重采样处理:
Figure 58715DEST_PATH_IMAGE002
=
Figure 641006DEST_PATH_IMAGE003
其中,
Figure 894133DEST_PATH_IMAGE004
代表重采样前的原始音频信号,
Figure 587282DEST_PATH_IMAGE005
代表重采 样后的音频信号,
Figure 242254DEST_PATH_IMAGE006
代表重采样函数;
Figure 995447DEST_PATH_IMAGE007
代表音频采样点的值;
本发明实施例中,如果原音频为双声道音频信号
Figure 502914DEST_PATH_IMAGE008
,则进行均值处 理:
Figure 858809DEST_PATH_IMAGE009
]=
Figure 243654DEST_PATH_IMAGE010
其中,
Figure 26802DEST_PATH_IMAGE011
Figure 395466DEST_PATH_IMAGE012
分别代表双声道音频的通道1和通道2的信号,
Figure 555052DEST_PATH_IMAGE013
代表将双声道音频 信号做均值处理,
Figure 325562DEST_PATH_IMAGE014
]代表均值处理后的单声道音频信号。
截取完的信号往往是非周期性的,容易造成信号频谱“泄露”,为了减少这种信号频谱的“泄露”,本发明实施例中,做加窗处理,本发明实施例中,可以选取25毫秒的Hann窗,定义如下:
Figure 512568DEST_PATH_IMAGE015
其中,N代表Hann窗的宽度(时间长度),0≤s≤N,
Figure 493162DEST_PATH_IMAGE016
代表加窗后的值,s代表窗函数 的横轴点。
频域信号和时域信号相比,频域信号更能用有限的参数对信号进行准确的描述,因此本发明实施例中通过采用傅里叶变换将时域信号变换到频域信号进行处理,为了使信号更符合人声听觉系统的感知,本发明实施例中将频谱信息经过Mel滤波处理,Mel标度与频率的关系为:
Figure DEST_PATH_IMAGE017
其中,f代表原始音频信号,log代表对数操作,Mel(f)代表Mel滤波后的音频信号。
本发明实施例中选取了一组64阶的Mel滤波器对频谱进行处理,然后对输出能量进行对数操作从而得到稳定的Mel声谱信息。然后是组帧操作,以固定时长0.96s作为一帧,作为深度学习网络模型的输入。
步骤2.2:深度学习往往需要大量的数据作为支持,然而实际生活中,由于数据来 源的限制以及数据标注的繁琐和枯燥,导致本发明实施例中能够得到的带标签数据集是十 分有限的,难以满足深度学习对数据量巨大的需求,因此本发明实施例中需要借助在大规 模数据集上的预训练模型,通过模型微调来完成解决背景技术中提出的问题。本发明实施 例中利用VGGish作为预训练模型,利用实施例中提取出的log-mel spectrogram特征经过 VGGish(embedding),得到形如
Figure 925280DEST_PATH_IMAGE018
的特征表示,其中:
Figure DEST_PATH_IMAGE019
其中,
Figure 878193DEST_PATH_IMAGE020
代表音频长度,
Figure DEST_PATH_IMAGE021
代表处理后的音频帧长。
步骤2.3:特征表示工程结束后就是网络的设计,考虑到要借助预训练模型的强大助力,本发明实施例的网络模型可以基于VGG网络,如图5所示,本发明实施例中在VGG网络的后面接设计全连接层,形式如下:
logits = slim.fully_connected(
fc, _NUM_CLASSES, activation_fn=None, scope='logits')
tf.sigmoid(logits, name='prediction')
本发明实施例采用交叉熵损失函数作为loss:
xent = tf.nn.sigmoid_cross_entropy_with_logits(
logits=logits, labels=labels, name='xent')
本发明实施例中,优化器使用Adam:
optimizer = tf.train.AdamOptimizer(
learning_rate=vggish_params.LEARNING_RATE,
epsilon=vggish_params.ADAM_EPSILON)
本发明实施例中,训练中进行了参数手动调优,最后各训练参数见表1。
表1 训练调优的参数值列表
Figure 239029DEST_PATH_IMAGE022
模型预测结果融合输出是将模型预测的结果融合处理,然后为输入的音频片段打上同期声或者非同期声的标签。由于本发明实施例中输入的音频经过特征表征之后会以固定时长0.96s作为一帧输入模型,因此预测的时候同样会进行组帧操作,从而预测的结果是每一帧的结果,本发明实施例需要为音频片段打标签,因此需要对预测的结果做融合处理。
输入一段音频,模型的输出结果为:
假设结果中label为1的个数为rcot_1,置信度总和rcof_1,label为0的个数rcot_0,置信度总和为rcof_0。则融合后的结果表示为:
Figure 316707DEST_PATH_IMAGE023
其中,
Figure 83674DEST_PATH_IMAGE024
代表标签为0的片段个数,
Figure 297618DEST_PATH_IMAGE025
代表标签为0的片段的置信度总和,
Figure 859049DEST_PATH_IMAGE026
代表标签为1的片段个数,
Figure 424023DEST_PATH_IMAGE027
代表标签为1的片段的置信度总和, 代表融合后片段的标签值。
本发明实施例利用深度学习强大的特征抽取能力,从现有大量的媒体资料库中获得大量的同期声和非同期声数据样本,借助预训练模型,用较小的资源消耗训练出最优的模型,应用到同期声识别中,减小了计算资源消耗。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。

Claims (10)

1.基于深度学习的同期声识别方法,其特征在于,包括步骤:
S1,获取新闻节目视频,利用视频转场将获取的新闻节目视频分割为多个片段,抽取音频,然后对音频打上同期声或非同期声的标记;
S2,提取音频特征;
S3,利用步骤S2中处理后的数据基于深度学习网络模型进行训练,并与预训练模型结合进行迁移学习训练,获得分类预测模型,作为同期声识别模型;
S4,对同期声识别模型的结果进行融合输出。
2.根据权利要求1所述的基于深度学习的同期声识别方法,其特征在于,步骤S1中,找到视频镜头切换的地方,按照视频转场的入出点分割视频文件。
3.根据权利要求1或2所述的基于深度学习的同期声识别方法,其特征在于,步骤S1包括子步骤:
S11,对收集的新闻节目视频进行解码;
S12,对解码后的视频进行转场处理,找到视频镜头切换的地方,利用视觉画面的转场来进行分割;
S13,按照视频转场的入出点分割视频文件;
S14,抽取分割后的每个视频片段文件的音频信息形成音频wav文件;
S15,标注音频文件,在步骤S15中标注音频文件的方式包括:同期声标记为1,非同期声标记为0。
4.根据权利要求1所述的基于深度学习的同期声识别方法,其特征在于,步骤S2中,提取音频特征前首先将音频信号进行重采样到统一的采样率。
5.根据权利要求4所述的基于深度学习的同期声识别方法,其特征在于,步骤S2中,对重采样后的信号做加窗处理。
6.根据权利要求1、4或5任一所述的基于深度学习的同期声识别方法,其特征在于,步骤S2提取音频特征过程中,通过傅里叶变换将时域信号变换到频域信号处理,对变换后的频域信息利用Mel滤波处理,然后对输出能量进行对数操作。
7.根据权利要求6所述的基于深度学习的同期声识别方法,其特征在于,对数操作后进行组帧,组帧后数据作为深度学习网络模型的输入。
8. 根据权利要求1所述的基于深度学习的同期声识别方法,其特征在于,步骤S2中,提取音频特征包括提取音频的log-mel spectrogram特征。
9.根据权利要求1或8所述的基于深度学习的同期声识别方法,其特征在于,步骤S3中利用VGGish作为预训练模型,然后在VGGish网络的后面接全连接层进行迁移学习训练,并与所述深度学习网络模型结合训练,获得二分类预测模型。
10.根据权利要求9所述的基于深度学习的同期声识别方法,其特征在于,利用所述二分类预测模型预测的结果融合处理,然后为输入的音频片段打上同期声或非同期声的标签。
CN202011492040.4A 2020-12-17 2020-12-17 基于深度学习的同期声识别方法 Active CN112233667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011492040.4A CN112233667B (zh) 2020-12-17 2020-12-17 基于深度学习的同期声识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011492040.4A CN112233667B (zh) 2020-12-17 2020-12-17 基于深度学习的同期声识别方法

Publications (2)

Publication Number Publication Date
CN112233667A true CN112233667A (zh) 2021-01-15
CN112233667B CN112233667B (zh) 2021-03-23

Family

ID=74124125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011492040.4A Active CN112233667B (zh) 2020-12-17 2020-12-17 基于深度学习的同期声识别方法

Country Status (1)

Country Link
CN (1) CN112233667B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1825936A (zh) * 2006-02-24 2006-08-30 北大方正集团有限公司 一种基于语音分类识别的新闻视频检索方法
US20080059170A1 (en) * 2006-08-31 2008-03-06 Sony Ericsson Mobile Communications Ab System and method for searching based on audio search criteria
JP2010074560A (ja) * 2008-09-18 2010-04-02 Casio Hitachi Mobile Communications Co Ltd 映像再生装置及びプログラム
CN101754056A (zh) * 2008-12-17 2010-06-23 中国科学院自动化研究所 支持海量数据自动处理的数字内容编目管理系统及方法
CN102436483A (zh) * 2011-10-31 2012-05-02 北京交通大学 一种基于显式共享子空间的视频广告检测方法
CN105516618A (zh) * 2014-09-27 2016-04-20 北京金山安全软件有限公司 一种制作视频的方法、装置及通信终端
CN108270946A (zh) * 2016-12-30 2018-07-10 央视国际网络无锡有限公司 一种基于特征向量库的计算机辅助视频剪辑装置
CN108268432A (zh) * 2017-12-14 2018-07-10 中央电视台 一种节目工程文件的转换方法及装置
CN108551584A (zh) * 2018-05-17 2018-09-18 北京奇艺世纪科技有限公司 一种新闻分割的方法及装置
CN109218749A (zh) * 2018-09-13 2019-01-15 湖北鑫恒福科技发展有限公司 数字视频存储的方法
CN110493637A (zh) * 2018-05-14 2019-11-22 优酷网络技术(北京)有限公司 视频拆分方法及装置
EP2594073B1 (en) * 2010-07-13 2020-04-22 Qualcomm Incorporated Video switching for streaming video data
CN111147955A (zh) * 2019-12-31 2020-05-12 咪咕视讯科技有限公司 视频播放方法、服务器和计算机可读存储介质
US20200204684A1 (en) * 2018-12-21 2020-06-25 Comcast Cable Communications, Llc Device Control Based on Signature

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1825936A (zh) * 2006-02-24 2006-08-30 北大方正集团有限公司 一种基于语音分类识别的新闻视频检索方法
US20080059170A1 (en) * 2006-08-31 2008-03-06 Sony Ericsson Mobile Communications Ab System and method for searching based on audio search criteria
JP2010074560A (ja) * 2008-09-18 2010-04-02 Casio Hitachi Mobile Communications Co Ltd 映像再生装置及びプログラム
CN101754056A (zh) * 2008-12-17 2010-06-23 中国科学院自动化研究所 支持海量数据自动处理的数字内容编目管理系统及方法
EP2594073B1 (en) * 2010-07-13 2020-04-22 Qualcomm Incorporated Video switching for streaming video data
CN102436483A (zh) * 2011-10-31 2012-05-02 北京交通大学 一种基于显式共享子空间的视频广告检测方法
CN105516618A (zh) * 2014-09-27 2016-04-20 北京金山安全软件有限公司 一种制作视频的方法、装置及通信终端
CN108270946A (zh) * 2016-12-30 2018-07-10 央视国际网络无锡有限公司 一种基于特征向量库的计算机辅助视频剪辑装置
CN108268432A (zh) * 2017-12-14 2018-07-10 中央电视台 一种节目工程文件的转换方法及装置
CN110493637A (zh) * 2018-05-14 2019-11-22 优酷网络技术(北京)有限公司 视频拆分方法及装置
CN108551584A (zh) * 2018-05-17 2018-09-18 北京奇艺世纪科技有限公司 一种新闻分割的方法及装置
CN109218749A (zh) * 2018-09-13 2019-01-15 湖北鑫恒福科技发展有限公司 数字视频存储的方法
US20200204684A1 (en) * 2018-12-21 2020-06-25 Comcast Cable Communications, Llc Device Control Based on Signature
CN111147955A (zh) * 2019-12-31 2020-05-12 咪咕视讯科技有限公司 视频播放方法、服务器和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李明: ""基于深度学习的声场景分类方法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN112233667B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN109272992B (zh) 一种口语测评方法、装置及一种生成口语测评模型的装置
CN105245917B (zh) 一种多媒体语音字幕生成的系统和方法
CN106878632B (zh) 一种视频数据的处理方法和装置
CN112668559B (zh) 一种多模态信息融合的短视频情感判定装置及方法
CN111050201B (zh) 数据处理方法、装置、电子设备及存储介质
CN106340291A (zh) 一种双语字幕制作方法及系统
CN108307250B (zh) 一种生成视频摘要的方法及装置
Stappen et al. Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild
CN109714608A (zh) 视频数据处理方法、装置、计算机设备和存储介质
WO2022228235A1 (zh) 生成视频语料的方法、装置及相关设备
CN111488487A (zh) 一种面向全媒体数据的广告检测方法及检测系统
Yang et al. An automated analysis and indexing framework for lecture video portal
CN114598933B (zh) 一种视频内容处理方法、系统、终端及存储介质
CN113593601A (zh) 基于深度学习的视听多模态语音分离方法
CN117596433B (zh) 一种基于时间轴微调的国际中文教学视听课件编辑系统
CN114420097A (zh) 语音定位方法、装置、计算机可读介质及电子设备
CN112233667B (zh) 基于深度学习的同期声识别方法
CN112800263A (zh) 一种基于人工智能的视频合成系统、方法及介质
CN117176998A (zh) 基于通道注意力的双流网络跨模态嘴型同步方法和系统
WO2023142590A1 (zh) 手语视频的生成方法、装置、计算机设备及存储介质
US20220375223A1 (en) Information generation method and apparatus
Stappen et al. MuSe 2020--The First International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop
CN113160796B (zh) 一种广播音频的语种识别方法、装置、设备及存储介质
CN115460462A (zh) 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法
CN113301268A (zh) 基于风格迁移与语音识别的视频自动生成连环画的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant