CN112466298B - 语音检测方法、装置、电子设备和存储介质 - Google Patents
语音检测方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112466298B CN112466298B CN202011327815.2A CN202011327815A CN112466298B CN 112466298 B CN112466298 B CN 112466298B CN 202011327815 A CN202011327815 A CN 202011327815A CN 112466298 B CN112466298 B CN 112466298B
- Authority
- CN
- China
- Prior art keywords
- audio
- training
- data
- information
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 137
- 238000013145 classification model Methods 0.000 claims abstract description 124
- 238000013528 artificial neural network Methods 0.000 claims abstract description 55
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000007246 mechanism Effects 0.000 claims abstract description 44
- 230000004927 fusion Effects 0.000 claims abstract description 41
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 72
- 239000013598 vector Substances 0.000 claims description 70
- 239000012634 fragment Substances 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 13
- 238000007499 fusion processing Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims 2
- 238000001914 filtration Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000012550 audit Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种语音检测方法、装置、电子设备和存储介质,涉及人工智能技术领域,该方法包括:将待检测的音频信息输入语音分类模型以获得第一结果,该第一结果用以确定音频信息与目标对象之间的对应关系;其中,语音分类模型由音频训练信息训练获得,语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。这样,基于训练好的语音分类模型对音频信息进行检测,以确定音频信息与目标对象的对应关系,不需要人工审核,降低了人力成本和时间成本,提高了音频审核效率,可以实现大规模语音数据的审核过滤。
Description
技术领域
本申请涉及人工智能技术领域,更具体地说,涉及一种语音检测方法、装置、电子设备和存储介质。
背景技术
在多媒体爆炸的信息时代,语音的数量和时长呈指数型增长。语音在被上传至网络中时,通常需要对语音进行审核,以避免垃圾语音在网络中传播。在一些场景下,特定人群的语音为垃圾语音。
目前,为了识别上述垃圾语音,通常采用人工审核的方式,即通过人工听语音的方式判断一段语音是否包含特定人群的语音。这需要审核人员听完整段语音,理论上来讲,一个审核人员一天只能审核不超过24小时的语音,效率低下,需要很高的人力成本和时间成本。并且,人工审核的方式无法完成大规模语音数据的审核过滤。
发明内容
本申请实施例提供一种语音检测方法、装置、电子设备和存储介质,用以对语音进行自动检测,降低耗费的人力成本和时间成本,提高了语音审核效率,可以实现大规模语音数据的审核过滤。
一方面,本申请实施例提供一种语音检测方法,包括:
将待检测的音频信息输入语音分类模型以获得第一结果,所述第一结果用以确定所述音频信息与目标对象之间的对应关系;其中,
所述语音分类模型由音频训练信息训练获得,所述语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
在一种可选的实施方式中,所述语音分类模型由所述目标对象的音频训练信息训练获得,包括:
对所述音频训练信息进行特征提取以获得相应的音频特征数据;
对所述音频特征数据进行数据增强处理,并通过增强后的音频特征数据对所述语音分类模型进行训练。
在一种可选的实施方式中,对所述音频训练信息进行特征提取以获得相应的音频特征数据的步骤包括:
将所述音频训练信息切分为等长的音频片段,对每个所述音频片段分别进行特征提取以获得对应的音频特征数据,所述音频特征数据包括对应于每个音频片段的原始特征数据以及FBank特征数据。
在一种可选的实施方式中,对所述音频特征数据进行数据增强处理的步骤至少包括以下之一:
在FBank特征数据中随机的选取部分频带上对应的特征值,将相应的特征值替换为随机值;
在FBank特征数据中随机的交换至少两个时间片段上对应的特征值。
在一种可选的实施方式中,对所述音频特征数据进行数据增强处理的步骤至少包括以下之一:
在所述原始特征数据中添加随机的噪声特征数据;
将多段所述的原始特征数据相拼接;
改变原始特征数据中的发音速度特征和/或音调特征。
在一种可选的实施方式中,所述方法还包括:
根据所述第一结果确定所述音频信息与目标对象是相对应的,则将所述音频信息输入声纹识别模型以获得第二结果;其中,所述第二结果用于对所述第一结果进行验证,所述声纹识别模型由音频训练信息训练获得。
在一种可选的实施方式中,所述音频训练信息包括由第一标签所标注的正训练样本集和由第二标签所标注的负训练样本集,所述第一标签表征所述正训练样本集内的音频样本与所述目标对象相对应,所述第二标签表征所述负训练样本集内的音频样本与所述目标对象不对应;
所述语音分类模型由所述目标对象的音频训练信息训练获得,还包括:
基于所述音频训练信息以及对应于它们的、所述语音分类模型的输出结果,确定所述语音分类模型的对比损失函数和交叉熵损失函数;
融合所述对比损失函数和所述交叉熵损失函数,以获得所述语音分类模型的目标损失函数;
基于梯度下降规则调整所述语音分类模型的模型参数,直至所述目标损失函数的损失值收敛至不再减小,以结束对所述语音分类模型的训练。
在一种可选的实施方式中,所述语音分类模型包括多个卷积层相级联而成的卷积神经网络,所述循环神经网络为GRU神经网络。
在一种可选的实施方式中,所述语音分类模型还包括:所述融合层之后依次设置的全连接层、Softmax层和输出层。
在一种可选的实施方式中,所述声纹识别模型还包括分数值线性判别分析模块,所述将所述音频信息输入声纹识别模型以获得第二结果的步骤包括:
通过所述声纹识别模型获取所述音频信息的FBank特征数据对应的ivector特征数据,并基于所述ivector特征数据,通过所述分数值线性判别分析模块评估所述音频信息与所述目标对象之间的匹配度,以获得相应的第二结果。
在一种可选的实施方式中,所述将待检测的音频信息输入语音分类模型以获得第一结果的步骤包括:
提取待检测的音频信息的FBank特征数据,将所述FBank特征数据输入所述卷积神经网络以获取对应于该音频信息的局部特征向量;
将所述局部特征向量输入所述循环神经网络,以相应循环神经网络的输出结果作为所述注意力机制模型的输入,以计算获得对应于该音频信息的全局特征向量;
通过所述融合层收集所述局部特征向量和所述全局特征向量,并对所述局部特征向量和所述全局特征向量进行融合处理以获得相应的融合特征向量;其中,所述融合特征向量用于确定所述第一结果。
一方面,本申请实施例提供一种语音检测装置,包括:
检测模块,用于将待检测的音频信息输入语音分类模型以获得第一结果,所述第一结果用以确定所述音频信息与目标对象之间的对应关系;其中,
所述语音分类模型由音频训练信息训练获得,所述语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
在一种可选的实施方式中,所述装置还包括:
特征提取模块,用于对所述音频训练信息进行特征提取以获得相应的音频特征数据;
数据增强模块,用于对所述音频特征数据进行数据增强处理,并通过增强后的音频特征数据对所述语音分类模型进行训练。
在一种可选的实施方式中,所述特征提取模块还用于:
将所述音频训练信息切分为等长的音频片段,对每个所述音频片段分别进行特征提取以获得对应的音频特征数据,所述音频特征数据包括对应于每个音频片段的原始特征数据以及FBank特征数据。
在一种可选的实施方式中,所述数据增强模块至少包括以下之一:
替换子模块,用于在FBank特征数据中随机的选取部分频带上对应的特征值,将相应的特征值替换为随机值;
交换子模块,用于在FBank特征数据中随机的交换至少两个时间片段上对应的特征值。
在一种可选的实施方式中,所述数据增强模块还至少包括以下之一:
添加子模块,用于在所述原始特征数据中添加随机的噪声特征数据;
拼接子模块,用于将多段所述的原始特征数据相拼接;
改变子模块,用于改变原始特征数据中的发音速度特征和/或音调特征。
在一种可选的实施方式中,所述装置还包括:
验证模块,用于根据所述第一结果确定所述音频信息与目标对象是相对应的,则将所述音频信息输入声纹识别模型以获得第二结果;其中,所述第二结果用于对所述第一结果进行验证,所述声纹识别模型由音频训练信息训练获得。
在一种可选的实施方式中,所述音频训练信息包括由第一标签所标注的正训练样本集和由第二标签所标注的负训练样本集,所述第一标签表征所述正训练样本集内的音频样本与所述目标对象相对应,所述第二标签表征所述负训练样本集内的音频样本与所述目标对象不对应;
所述装置还包括模型训练模块,用于:
基于所述音频训练信息以及对应于它们的、所述语音分类模型的输出结果,确定所述语音分类模型的对比损失函数和交叉熵损失函数;
融合所述对比损失函数和所述交叉熵损失函数,以获得所述语音分类模型的目标损失函数;
基于梯度下降规则调整所述语音分类模型的模型参数,直至所述目标损失函数的损失值收敛至不再减小,以结束对所述语音分类模型的训练。
在一种可选的实施方式中,所述语音分类模型包括多个卷积层相级联而成的卷积神经网络,所述循环神经网络为GRU神经网络。
在一种可选的实施方式中,所述语音分类模型还包括:所述融合层之后依次设置的全连接层、Softmax层和输出层。
在一种可选的实施方式中,所述声纹识别模型还包括分数值线性判别分析模块,所述验证模块还用于:
通过所述声纹识别模型获取所述音频信息的FBank特征数据对应的ivector特征数据,并基于所述ivector特征数据,通过所述分数值线性判别分析模块评估所述音频信息与所述目标对象之间的匹配度,以获得相应的第二结果。
在一种可选的实施方式中,所述检测模块还用于:
提取待检测的音频信息的FBank特征数据,将所述FBank特征数据输入所述卷积神经网络以获取对应于该音频信息的局部特征向量;
将所述局部特征向量输入所述循环神经网络,以相应循环神经网络的输出结果作为所述注意力机制模型的输入,以计算获得对应于该音频信息的全局特征向量;
通过所述融合层收集所述局部特征向量和所述全局特征向量,并对所述局部特征向量和所述全局特征向量进行融合处理以获得相应的融合特征向量;其中,所述融合特征向量用于确定所述第一结果。
一方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一种语音检测方法的步骤。
一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一种语音检测方法的步骤。
本申请实施例提供的一种语音检测方法、装置、电子设备和存储介质中,通过语音分类模型对待检测的音频信息进行检测,以获得第一结果,该第一结果用以确定音频信息与目标对象之间的对应关系;其中,语音分类模型由音频训练信息训练获得,语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。这样,基于卷积神经网络、循环神经网络、注意力机制模型以及融合层所搭建的语音分类模型,并采用训练好的语音分类模型对音频信息进行检测,以确定音频信息与目标对象的对应关系,不需要人工审核,降低了人力成本和时间成本,提高了音频审核效率,可以实现大规模语音数据的审核过滤。并且,本申请不需要获取音频信息的语义内容即可实现音频审核,以完成语音反垃圾任务。
另外,语音分类模型中的卷积神经网络可以提取语义丰富的局部特征,循环神经网络可以提取语义丰富的全局特征,注意力机制模型针对循环神经网络输出的全局特征可以更好的捕获上下文信息,以更好的关注对分类有帮助的特征,融合层融合了卷积神经网络输出的局部特征和注意力机制输出的全局特征,通得到融合后的特征,这样,可以大幅度提升语音分类模型的检测准确率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例方式中一种语音检测方法的应用场景的示意图;
图2为本申请实施例方式中一种语音检测方法的实施流程图;
图3为本申请实施例方式中一种语音分类模型的结构图;
图4为本申请实施例方式中一种语音分类模型的训练方法的实施流程图;
图5为本申请实施例方式中另一种语音检测方法的实施流程图;
图6为本申请实施例方式中又一种语音检测方法的实施流程图;
图7为本申请实施例方式中一种语音检测装置的结构示意图;
图8为本申请实施例方式中一种电子设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本申请可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
为了方便理解,下面对本申请实施例中涉及的部分概念进行解释:
目标对象:指特定的人或人群,例如可以是指定的一个或多个领导人、明星或演员等,本申请对此不作限定。
深度学习:深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,通过模仿人脑的机制来解释数据,例如图像,声音和文本等。常用的深度学习模型包括:卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、是长短期记忆网络(Long Short-Term Memory,LSTM)、深度神经网络(Deep Neural Network,DNN)、深度置信网(Deep Belief Nets,DBNs)等神经网络。数据在神经网络中的传播有两种方式,一种是沿着输入到输出的路径,被称为前向传播(Forward propagation),另一种是从输出返回到输入,被成为反向传播(Back propagation)。在正向传播过程中,输入信息通过神经网络逐层处理并传向输出层,通过损失函数描述输出值与期望之间的误差,转入反向传播,逐层求出损失函数对各神经元的权重的偏导数,构成损失函数对权值向量的权重梯度数据,作为更新权重参数的依据,在不断更新权重参数的过程中完成神经网络的训练。
卷积神经网络:在机器学习中,是一种前馈神经网络,人工神经元可以响应周围单元。卷积神经网络包括卷积层和池化层。本申请实施例中可以指包含若干层卷积层的神经网络。
循环神经网络:是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。
GRU神经网络:是循环神经网络的一种,引入门控机制,通过门控机制控制输入、记忆等信息在当前时间步做出预测,不会随时间而清除以前的信息,它会保留相关的信息并传递到下一个单元,因此它利用全部信息而避免了梯度消失问题。
损失函数(loss function):是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。例如,在机器学习中,损失函数被用于模型的参数估计(parameteric estimation),基于损失函数得到的损失值可用来描述模型的预测值与实际值的差异程度。常见的损失函数有均方误差损失函数、SVM(Support Vector Machine,支持向量机)合页损失函数、交叉熵损失函数等。
注意力机制(Attention Mechanism):源于对人类视觉的研究,在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。简单来说,注意力机制就是指模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对其从而增加部分区域的观察精细度的机制。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
本申请人发现,在语音反垃圾领域,目前主要是通过人工审核的方式识别待审核的语音,以识别垃圾语音。例如垃圾语音为特定人群的语音时,通过人工听语音的方式判断一段语音是否包含特定人群的语音。但是这种方式效率低下,需要很高的人力成本和时间成本。并且,人工审核的方式无法完成大规模语音数据的审核过滤。
为了改善上述情况,本申请实施例提供一种语音检测方法、装置、存储介质和电子设备。通过语音分类模型对待检测的音频信息进行检测,以获得第一结果,该第一结果用以确定音频信息与目标对象之间的对应关系;其中,语音分类模型由音频训练信息训练获得,语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。这样,基于卷积神经网络、循环神经网络、注意力机制模型以及融合层搭建语音分类模型,并采用训练好的语音分类模型对音频信息进行检测,以确定音频信息与目标对象的对应关系,不需要人工审核,降低了人力成本和时间成本,提高了音频审核效率,可以实现大规模语音数据的审核过滤。并且,本申请不需要获取音频信息的语义内容即可实现音频审核,以完成语音反垃圾任务。
下面结合附图及具体实施例对本申请作进一步详细的说明。
参考图1,其为本申请实施例所提供的语音检测方法的应用场景示意图。该应用场景包括终端设备101(包括终端设备101-1、终端设备101-2、……终端设备101-n)、应用服务器102和审核服务器103。其中,终端设备101和应用服务器102之间可通过有线或无线的通信网络连接,应用服务器102和审核服务器103之间可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personal digital assistant,PDA)等电子设备。应用服务器102和审核服务器103均可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。当然,图1所示的应用服务器102和审核服务器103也可以布设在同一个服务器或服务器集群中。
用户可通过终端设备101向内容平台对应的应用服务器102上传多媒体内容,多媒体内容包括但不限于视频、音频等,以在内容平台上发布多媒体内容,用户也可以通过终端设备101观看内容平台上发布的多媒体内容。在应用服务器102接收到终端设备101上传的多媒体内容后,由审核服务器103对多媒体内容进行审核,确定审核通过后再允许应用服务器102在内容平台上发布该多媒体内容。在上述内容平台上,目标对象的音频为敏感信息,可以认为是垃圾语音,针对音频类的多媒体内容,审核服务器103可以通过语音分类模型对音频信息进行检测,确定音频信息与目标对象之间的对应关系,当根据该对应关系确定检测的音频信息为目标对象的音频信息时,审核不通过,即不允许应用服务器102在内容平台上发布该音频信息。针对音视频类的多媒体内容,审核服务器103可从音视频信息中分离出音频信息和视频信息,通过语音分类模型对音频信息进行检测,确定音频信息与目标对象之间的对应关系。因此,通过审核服务器103对音频信息进行检测,不需要人工审核,降低了人力成本和时间成本,提高了音频审核效率,可以实现大规模语音数据的审核过滤。并且,不需要获取音频信息的语义内容即可实现音频审核,以完成语音反垃圾任务。
下面结合图1的应用场景,来描述根据本申请示例性实施方式的语音检测方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
参考图2,本申请实施例提供了的一种语音检测方法,可应用于服务器,例如图1所示的审核服务器,下述待检测的音频信息可以为单独语音的音频信息,也可以为视频中包含的音频信息,在此不作限制。具体可包括以下步骤:
步骤S201,将待检测的音频信息输入语音分类模型以获得第一结果,第一结果用以确定音频信息与目标对象之间的对应关系。其中,语音分类模型由音频训练信息训练获得,语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
本申请实施例中,目标对象可以是特定的人或人群,例如可以是指定的一个或多个领导人、明星或演员等。对于待检测的一段语音音频,在对其进行检测之前,可以将该语音音频切分成时间等长的音频片段,例如一段1分钟的语音音频,以10秒等长切分后得到6个10秒的音频片段。每个音频片段可以作为待检测的音频信息,在将每个音频片段输入语音分类模型时,可以首先对每个音频片段进行特征提取,以获得对应于每个音频片段的音频特征数据,例如该音频特征数据可以包括FBank特征数据,然后通过语音分类模型对每个音频片段的FBank特征数据进行检测。通过将一段语音音频进行等长切分,不仅可以提高语音分类模型的检测速度,以保证语音检测的实时性,还便于语音分类模型批量处理语音音频。
为了提取音频片段的FBank特征数据,可以首先提取音频片段的时域特征,其中,时域是描述数学函数或物理信号对时间的关系,例如,一个信号的时域波形可以表达信号随着时间的变化。然后,可以通过傅里叶变换将音频片段的时域特征转换为频域特征,进而从频域特征中提取FBank特征数据。其中,频域就是频率域,是描述信号对频率的关系。通过上述方式提取到的FBank特征数据,不仅可以作为语音分类模型的输入,还可以同时作为下面提到的声纹识别模型的输入,也就是说,对于待检测的音频片段,只需要提取一次FBank特征数据即可,减少了特征提取的工作量。
在获得每个音频片段的FBank特征数据后,可以分别将每个音频片段的FBank特征数据输入已经训练好的语音分类模型,以获得第一结果,因此,根据第一结果可以确定音频片段与目标对象之间的对应关系。例如,该对应关系可以是音频片段与目标对象相对应,或者音频片段与目标对象不对应。例如,上述第一结果可以是音频片段与目标对象相对应的分数值,当分数值大于第一设定分数阈值时,可以认为音频片段与目标对象相对应,即音频片段为目标对象的音频,否则认为音频片段与目标对象不对应,其中的第一设定分数阈值可以根据需要进行设置,本申请对此不作限定。另外,将FBank特征数据输入声纹识别模型进行检测的过程将在下文中进行介绍。
需要说明的是,目标对象可以包括多个,不同的目标对象可以通过不同的标识进行区分,第一结果可以包括音频片段与多个目标对象的对应关系,例如,音频片段与目标对象1相对应的分数值m1,音频片段与目标对象2相对应的分数值m2,音频片段与目标对象3相对应的分数值m3等等,从中选择分数值最高的目标对象,将该目标对象对应的分数值与第一设定分数阈值进行比较,以确定音频片段是否与该目标对象相对应。
本申请实施例基于卷积神经网络、循环神经网络、注意力机制模型以及融合层获得训练好的语音分类模型,并采用训练好的语音分类模型对音频信息进行检测,以确定音频信息与目标对象的对应关系,不需要人工审核,降低了人力成本和时间成本,提高了音频审核效率,可以实现大规模语音数据的审核过滤。
本申请实施例中,在对音频信息进行检测之前,可以预先对用于检测音频信息的语音分类模型进行训练,而在训练之前需要确定语音分类模型的结构,由上述可知,语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
其中,卷积神经网络可以提取语义丰富的局部特征,循环神经网络可以提取语义丰富的全局特征,注意力机制模型基于注意力机制,针对循环神经网络输出的全局特征可以更好的捕获上下文信息,以更好的关注对分类有帮助的特征,融合层融合了卷积神经网络输出的局部特征和注意力机制输出的全局特征,通得到融合后的特征,这样,可以大幅度提升语音分类模型的检测准确率。
具体地,如图3所示,语音分类模型中的卷积神经网络可以由多个卷积层相级联而成,循环神经网络可以采用GRU神经网络。可选地,语音分类模型还可以包括:融合层之后依次设置的全连接层、Softmax层和输出层。全连接层和Softmax层可以理解为分类网络,对融合层的输出结果进行处理,并通过输出层输出处理结果。
其中,卷积神经网络的多个卷积层中,不同层级的卷积层的感受野不一样,提取到的局部特征也不同,例如对于一个10s的音频片段,第一层卷积层可以提取1-2s的局部特征,第二层卷积层可以提取3-5s的局部特征,以此类推,从而可以提取语义丰富的局部特征。GRU神经网络引入了门控机制,通过门控机制控制输入、记忆等信息在当前时间步做出预测,不会随时间而清除以前的信息,它会保留相关的信息并传递到下一个单元,因此,在可以提取语义丰富的全局特征的同时,还可以有效避免梯度爆炸和梯度消失的问题,提高模型训练的效率,以及加速模型的收敛。
在确定语音分类模型的结构之后,下面对语音分类模型的训练过程进行介绍。
在一种可选的实施方式中,如图4所示,语音分类模型的训练过程可以包括如下步骤:
步骤S401,获取音频训练信息,音频训练信息包括由第一标签所标注的正训练样本集和由第二标签所标注的负训练样本集,第一标签表征正训练样本集内的音频样本与目标对象相对应,第二标签表征负训练样本集内的音频样本与目标对象不对应。
具体地,获取目标对象对应的大量音频,每个音频作为一个正音频样本,为每个正音频样本标注第一标签,例如第一标签可以是目标对象,得到正训练样本集;获取非目标对象对应的大量音频,每个音频信息作为一个负音频样本,为每个负音频样本标注第二标签,例如第二标签可以是非目标对象,得到负训练样本集。这样,就可以获取模型训练的音频训练信息。
需要说明的是,由于目标对象可以包括多个,每个目标对象具有一个唯一的目标对象标识,因此,正训练样本集中可以包括多个目标对象对应的正音频样本,每个正音频样本的第一标签可以是目标对象的标识,例如目标对象1、目标对象2、目标对象3等等,此时,第二标签可以是非目标对象的标识,不同的非目标对象采用同一个标识。
由于在对语音分类模型进行训练时,需要输入指定音频时长的音频信息,因此,本申请实施例中,在获得音频训练信息后,可以将音频训练信息中的每个音频样本切分为等长的音频样本片段,各音频样本片段是按照指定音频时长对音频样本划分后获得的,实际应用中,指定音频时长可以根据实际应用场景进行设置,在此不作限制。
在一种可选的实施方式中,在基于音频训练信息对语音分类模型进行训练之前,还可以通过如下步骤对音频训练信息进行处理:
步骤a、对音频训练信息进行特征提取以获得相应的音频特征数据。
具体地,可以将音频训练信息切分为等长的音频片段,对每个音频片段分别进行特征提取以获得对应的音频特征数据,音频特征数据包括对应于每个音频片段的原始特征数据以及FBank特征数据。其中的原始特征数据可以理解为上述的音频片段的时域特征。
步骤b、对音频特征数据进行数据增强处理,并通过增强后的音频特征数据对语音分类模型进行训练。
该步骤中,可以分别对原始特征数据和FBank特征数据进行数据增强处理。具体地,对于原始特征数据,可以先对原始特征数据进行时域增强处理,获得时域增强特征数据,然后提取时域增强特征数据的FBank特征数据。对于FBank特征数据,可以对FBank特征数据进行频域增强处理,获得数据增强处理后的FBank特征数据。
可选地,对FBank特征数据进行数据增强处理可以通过如下两种方式中的一种或两种:
第一种方式,在FBank特征数据中随机的选取部分频带上对应的特征值,将相应的特征值替换为随机值。
具体地,FBank特征数据可以包括多个频带上对应的特征值,频带可以指音频带宽,即频率范围。随机选取一些频带,将这些频带上对应的特征值替换为随机值。例如选取的某个频带的特征值为100,将100替换为除100以外的任意值。
这是由于改变一些频带上对应的特征值,对于音频的改动是非常小的,相当于增加了很小的噪音或者删除了一小部分音频信息,这并不影响音频与目标对象的对应关系。通过这种方式得到增强之后的FBank特征数据,可以使得训练好的模型更加鲁棒,效果更优。
第二种方式,在FBank特征数据中随机的交换至少两个时间片段上对应的特征值。
一个音频片段可以包括多个时间片段,针对音频片段的FBank特征数据,可以将两个时间片段或者两个以上时间片段对应的特征值进行交换。例如,时间片段1对应的特征值为a,时间片段2对应的特征值为b,将这两个时间片段的特征值进行交换后,时间片段1对应的特征值为b,时间片段2对应的特征值为a。对于两个以上时间片段,可以将其中任意两个时间片段对应的特征值进行交换。例如针对时间片段1、时间片段2和时间片段3,将时间片段1和时间片段2进行交换后,再将时间片段1和时间片段3进行交换,具体的交换顺序不作限定。
这是由于将一个音频片段的各个时间片段的顺序打乱,并不影响这个音频片段与目标对象的对应关系,因此,通过这种方式得到增强之后的FBank特征数据,可以使训练得到的模型更加鲁棒。
可选地,对原始特征数据进行数据增强处理可以通过如下三种方式中的一种或多种:
方式一、在原始特征数据中添加随机的噪声特征数据。
通过这种方式得到增强之后的原始特征数据对模型进行训练,可以提高模型的抗噪声等能力,进而提高噪声环境下的语音音频的识别准确度。
方式二、将多段的原始特征数据相拼接。
具体地,对于音频片段较短的情况,例如2秒的音频片段,可以将该音频片段进行循环拼接,即将多段相同的音频片段进行拼接,通过这种方式得到增强之后的原始特征数据对模型进行训练,可以提高模型对于短音频的识别准确度。
方式三、改变原始特征数据中的发音速度特征和/或音调特征。
该方式中,通过改变原始特征数据中决定发音速度的特征来改变音频的发音速度,通过改变原始特征数据中决定音调的特征来改变音频的音调。具体地,可以改变音频的发音速度或音调,也可以同时改变音频的发音速度和音调。通过这种方式得到增强之后的原始特征数据对模型进行训练,可以提高模型对恶搞语音音频的识别准确度。
本申请实施例通过对音频训练信息进行数据增强处理,得到处理后的音频训练信息,可以将处理前的音频训练信息和处理后的音频训练信息作为模型的训练数据。
这是由于在进行模型训练时,通常需要大量的样本数据,但是,内容平台上的目标对象(如领导人)的音频数据偏少、音频片段时长偏短,能够获取的音频样本数据通常是不够的,如果不对获取的音频样本数据进行数据增强处理,将无法达到足够的训练数据量而获得效果理想的模型。因此,本申请实施例采用时域增强和/或频域增强的方式对获取的音频训练信息进行数据增强,以增加训练的数据量,从而能够解决音频数据偏少、音频片段时长偏短的问题,进而可以提高后续训练的模型的泛化能力。而且由于相应的增强方式并不影响音频与目标对象的对应关系,因而数据增强并不会对模型的输出结果造成不利影响。并且,本申请实施例中,分别在音频片段的原始特征数据的时间维度以及FBank特征数据的频率维度上做随机增强,提升了后续训练的模型的稳定性和鲁棒性。
步骤S402,基于音频训练信息以及对应于它们的、语音分类模型的输出结果,确定语音分类模型的对比损失函数和交叉熵损失函数。
该步骤中的音频训练信息可以包括数据增强处理后的音频训练信息。将音频训练信息作为训练样本集,将训练样本集中的各个音频样本分别输入语音分类模型,得到对应于各个音频样本的输出结果,根据各个音频样本的输出结果及其对应的标签,确定对比损失函数和交叉熵损失函数。
其中,对比损失函数L_contrastive的计算公式如式(1)所示:
其中,d=||an-bn||2,表示两个样本(可以理解为本申请实施例中的音频样本)的欧式距离,N表示样本的数量,y表示两个样本是否匹配的标签,例如,y=1表示两个样本相似或者匹配,y=0则表示两个样本不匹配,margin为设定的阈值,例如可以取0.5,本申请对此不作限定。交叉熵损失函数的计算公式如以下式(2)所示:
其中,p=[p0,…,pC-1]是一个分数值分布,每个元素pi表示样本属于第i类别的分数值;y=[y0,…,yC-1]是样本标签的独热编码onehot表示,当样本属于第i类别时,yi=1,否则,yi=0;C是样本标签的类别数。在本申请实施例中,样本标签的类别可以包括目标对象、非目标对象,其中的目标对象又可以分为不同的目标对象类别。
步骤S403,融合对比损失函数和交叉熵损失函数,以获得语音分类模型的目标损失函数。
具体地,基于对比损失函数L_contrastive和交叉熵损失函数L_c,可以通过以下式(3)确定语音分类模型的目标损失函数L_total:
L_total=L_contrastive+w*L_ce (3)
其中,L_total表示目标损失函数,L_contrastive表示对比损失函数,L_ce表示交叉熵损失函数,w为权重系数。
由于对比损失函数可以使得语音分类模型输出的特征,类内距尽可能小,类间距尽可能大。因此,采用对比损失函数和交叉熵损失函数融合后的目标损失函数,可以提高语音分类模型的分类准确度。
步骤S404,基于梯度下降规则调整语音分类模型的模型参数,直至目标损失函数的损失值收敛至不再减小,以结束对语音分类模型的训练。
其中,梯度下降规则是迭代法的一种,在求解目标损失函数的最小值时,可以通过该梯度下降规则对语音分类模型的模型参数一步步的迭代求解,得到最小化的目标损失函数,以确定语音分类模型的参数值,得到训练好的语音分类模型。
在获取到上述训练好的语音分类模型后,可以使用该语音分类模型对待检测的音频信息进行检测,即执行上述步骤S201的过程。
在一种可选的实施方式中,如图5所示,步骤S201中将待检测的音频信息输入语音分类模型以获得第一结果,具体可以包括如下步骤:
步骤S501,提取待检测的音频信息的FBank特征数据,将FBank特征数据输入卷积神经网络以获取对应于该音频信息的局部特征向量。
步骤S502,将局部特征向量输入循环神经网络,以相应循环神经网络的输出结果作为注意力机制模型的输入,以计算获得对应于该音频信息的全局特征向量。
步骤S503,通过融合层收集局部特征向量和全局特征向量,并对局部特征向量和全局特征向量进行融合处理以获得相应的融合特征向量;其中,融合特征向量用于确定第一结果,具体可以通过步骤S504确定。
示例性的,融合层的融合过程为:卷积神经网络输出的局部特征向量(B,C1,H,W)和注意力机制模型输出的全局特征向量(B,C2,H,W)进行融合,得到融合特征向量(B,C1,C2,H,W)。
步骤S504,将融合特征向量依次输入全连接层、Softmax层和输出层,得到第一结果。
进一步地,为了提高语音检测的准确度,本申请实施例在通过语音分类模型获得待检测音频信息的第一结果后,还可以对第一结果进行验证,以保证第一结果的准确性。
在一种可选的实施方式中,可以通过如下方法对语音分类模型的第一结果进行验证:
若根据第一结果确定音频信息与目标对象是相对应的,则将音频信息输入声纹识别模型以获得第二结果;其中,第二结果用于对第一结果进行验证,声纹识别模型可以由音频训练信息训练获得。
具体地,声纹识别模型的训练过程与现有的声纹识别模型的训练过程类似,在此不再赘述。将音频信息输入声纹识别模型时,可以直接利用上述实施例中提取的音频信息的FBank特征数据,将FBank特征数据输入声纹识别模型,通过FBank特征数据可以获取对应的ivector特征数据,具体可以通过声纹识别模型中的特征提取模块从FBank特征数据中提取对应的ivector特征数据。这里的ivector特征数据为声学特征,声纹识别模型对ivector特征数据进行识别,获得第二结果。例如,第二结果可以是音频信息与目标对象相对应的分数值,当分数值大于第二设定分数阈值时,可以认为音频信息与目标对象相对应,否则认为音频信息与目标对象不对应,其中的第二设定分数阈值可以与上述第一设定分数阈值相同,也可以不相同,具体可以根据需要进行设置,本申请对此不作限定。
需要说明的是,当目标对象包括多个时,根据第一结果确定音频信息与某个目标对象(具体根据目标对象的标识确定)相对应时,可以将音频信息以及该目标对象的标识一起输入声纹识别模型,声纹识别模型输出的第二结果可以是音频信息与该标识对应的目标对象的对应关系。
具体地,声纹识别模型可以包括分数值线性判别分析模块,上述将音频信息输入声纹识别模型以获得第二结果的步骤可以包括:
声纹识别模型获取FBank特征数据对应的ivector特征数据,并基于ivector特征数据,通过分数值线性判别分析模块评估音频信息与目标对象之间的匹配度,以获得相应的第二结果。其中的匹配度可以通过上述分数值评估。
本申请实施例可以采用语音分类模型对待检测的音频信息进行检测后,采用声纹识别模型进行二次检测,这是由于语音分类模型的召回率较高,其检测速度远远大于声纹识别模型的检测速度,假设处理同一段音频,语音分类模型可能需要T秒,而声纹识别模型可能需要10T秒。而声纹识别模型的检测准确率比语音分类模型要高,考虑到线上的待检测的音频大部分与目标对象不对应,因此,首先采用语音分类模型进行检测,在检测到与目标对象对应的音频时,再采用声纹识别模型对该音频进行验证。这样,不仅可以提高语音检测的速度,以保证线上服务的实时性,还可以保证语音检测的准确度。
例如,线上待检测的音频中只有5%的音频为目标对象的音频,如果一段音频直接采用声纹识别模型进行检测,需要10T秒,但是如果首先采用语音分类模型进行检测,在检测到与目标对象对应的音频时,再采用声纹识别模型对该音频进行验证,则需要T+0.05*10T=1.5T秒,可见,本申请的上述方案可以大大提高语音检测速度,保证线上服务的实时性。
另外,语音分类模型为了能减少目标对象的漏检测,可以尽可能多的将类似目标对象语音的音频判定为目标对象音频,被语音分类模型判定为目标对象音频的音频片段可以继续通过声纹识别模型进行二次判断,可以纠正语音分类模型的误判。
对于目标对象为多个的情况,语音分类模型在检测到与目标对象相对应的音频时,可以将该目标对象的标识输入声纹识别模型,这样给了声纹识别模型较高的先验信息,使得声纹识别模型只需要判断输入的音频是否对应于该标识对应的目标对象即可,而不需要判断输入的音频与哪个标识对应的目标对象相对应,这样可以提高声纹识别模型的检测准确率。
下面结合图6对本申请实施例的一种语音检测方法的具体流程进行介绍。
参照图6,语音检测方法的具体流程包括如下步骤:
步骤S601,将待检测的音频信息进行切分,分成时间等长的多个音频片段;
步骤S602,对于每个音频片段,提取该音频片段的FBank特征数据;
步骤S603,将FBank特征数据输入训练好的语音分类模型,输出音频片段与目标对象相对应的第一分数值;
具体地,语音分类模型可以输出音频片段与多个目标对象相对应的分数值,此时,可以从中选择分数值最高的目标对象。
步骤S604,判断第一分数值是否大于第一设定分数阈值,若是,则执行步骤S605,否则执行步骤S608;
步骤S605,将上述音频片段的FBank特征数据以及目标对象的标识输入声纹识别模型,输出音频片段与该标识对应的目标对象相对应的第二分数值;
步骤S606,判断第二分数值是否大于第二设定分数阈值,若是,则执行步骤S607,否则执行步骤S606;
步骤S607,输出与音频片段相对应的目标对象的标识;
步骤S608,输出非目标对象。
具体地,根据语音分类模型输出的第一分数值,判断输入的音频片段是否与目标对象相对应,如果判断与目标对象不对应,则直接输出非领导人,如果判断与目标对象相对应,则将音频片段的FBank特征数据以及目标对象的标识输入声纹识别模型,根据语音分类模型输出的第二分数值,进一步判断输入的音频片段是否与标识对应的目标对象相对应,如果判断与标识对应的目标对象不对应,则直接输出非领导人,如果判断与标识对应的目标对象相对应,则输出目标对象的标识。
基于同一发明构思,本申请实施例中还提供了一种语音检测装置,图7示出了本申请实施例提供的一种语音检测装置的结构示意图。参阅图7,语音检测装置可以包括:
检测模块71,用于将待检测的音频信息输入语音分类模型以获得第一结果,第一结果用以确定音频信息与目标对象之间的对应关系;其中,
语音分类模型由音频训练信息训练获得,语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
在一种可选的实施方式中,装置还可以包括:
特征提取模块72,用于对音频训练信息进行特征提取以获得相应的音频特征数据;
数据增强模块73,用于对音频特征数据进行数据增强处理,并通过增强后的音频特征数据对语音分类模型进行训练。
在一种可选的实施方式中,特征提取模块72具体还可以用于:
将音频训练信息切分为等长的音频片段,对每个音频片段分别进行特征提取以获得对应的音频特征数据,音频特征数据包括对应于每个音频片段的原始特征数据以及FBank特征数据。
在一种可选的实施方式中,数据增强模块73可以至少包括以下之一:
替换子模块,用于在FBank特征数据中随机的选取部分频带上对应的特征值,将相应的特征值替换为随机值;
交换子模块,用于在FBank特征数据中随机的交换至少两个时间片段上对应的特征值。
在一种可选的实施方式中,数据增强模块73还可以至少包括以下之一:
添加子模块,用于在原始特征数据中添加随机的噪声特征数据;
拼接子模块,用于将多段的原始特征数据相拼接;
改变子模块,用于改变原始特征数据中的发音速度特征和/或音调特征。
在一种可选的实施方式中,装置还可以包括:
验证模块74,用于根据第一结果确定音频信息与目标对象是相对应的,则将音频信息输入声纹识别模型以获得第二结果;其中,第二结果用于对第一结果进行验证,声纹识别模型由音频训练信息训练获得。
在一种可选的实施方式中,音频训练信息包括由第一标签所标注的正训练样本集和由第二标签所标注的负训练样本集,第一标签表征正训练样本集内的音频样本与目标对象相对应,第二标签表征负训练样本集内的音频样本与目标对象不对应;
装置还可以包括模型训练模块70,用于:
基于音频训练信息以及对应于它们的、语音分类模型的输出结果,确定语音分类模型的对比损失函数和交叉熵损失函数;
融合对比损失函数和交叉熵损失函数,以获得语音分类模型的目标损失函数;
基于梯度下降规则调整语音分类模型的模型参数,直至目标损失函数的损失值收敛至不再减小,以结束对语音分类模型的训练。
在一种可选的实施方式中,语音分类模型可以包括多个卷积层相级联而成的卷积神经网络,循环神经网络为GRU神经网络。
在一种可选的实施方式中,语音分类模型还可以包括:融合层之后依次设置的全连接层、Softmax层和输出层。
在一种可选的实施方式中,声纹识别模型可以包括分数值线性判别分析模块,验证模块74具体还可以用于:
通过声纹识别模型获取所述音频信息的FBank特征数据对应的ivector特征数据,并基于ivector特征数据,通过分数值线性判别分析模块评估音频信息与所述目标对象之间的匹配度,以获得相应的第二结果。
在一种可选的实施方式中,检测模块71具体还可以用于:
提取待检测的音频信息的FBank特征数据,将FBank特征数据输入卷积神经网络以获取对应于该音频信息的局部特征向量;
将局部特征向量输入循环神经网络,以相应循环神经网络的输出结果作为注意力机制模型的输入,以计算获得对应于该音频信息的全局特征向量;
通过融合层收集局部特征向量和全局特征向量,并对局部特征向量和全局特征向量进行融合处理以获得相应的融合特征向量;其中,融合特征向量用于确定第一结果。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
基于上述实施例,本申请实施例还提供一种电子设备,图8示出了本申请实施例提供的一种电子设备的结构示意图。
参阅图8所示,电子设备可以包括处理器8010(Center Processing Unit,CPU)、存储器8020,还可以包括输入设备8030和输出设备8040等,输入设备8030可以包括键盘、鼠标、触摸屏等,输出设备8040可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器8020可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器8010提供存储器8020中存储的程序指令和数据。在本申请实施例中,存储器8020可以用于存储本申请实施例中语音检测的程序。
处理器8010通过调用存储器8020存储的程序指令,处理器8010用于执行上述任意方法实施例中的语音检测方法,例如图2所示的实施例提供的一种语音检测方法。
本申请实施例还提供了一种计算机存储介质,该计算机可读存储介质内存储有计算机程序,计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述任意方法实施例中的语音检测方法。
在一些可能的实施方式中,本申请提供的语音检测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的语音检测方法的步骤,例如,所述计算机设备可以执行如图2所示的步骤S201中的语音检测的流程。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (20)
1.一种语音检测方法,其特征在于,包括:
将待检测的音频信息输入语音分类模型以获得第一结果,所述第一结果用以确定所述音频信息与目标对象之间的对应关系;其中,
所述语音分类模型由音频训练信息训练获得,所述语音分类模型包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层,以及所述融合层之后依次设置的全连接层、Softmax层和输出层;
所述将待检测的音频信息输入语音分类模型以获得第一结果的步骤包括:
提取待检测的音频信息的FBank特征数据,将所述FBank特征数据输入所述卷积神经网络以获取对应于该音频信息的局部特征向量;
将所述局部特征向量输入所述循环神经网络,以相应循环神经网络的输出结果作为所述注意力机制模型的输入,以计算获得对应于该音频信息的全局特征向量;
通过所述融合层收集所述局部特征向量和所述全局特征向量,并对所述局部特征向量和所述全局特征向量进行融合处理以获得相应的融合特征向量;
将所述融合特征向量依次输入所述全连接层、所述Softmax层和所述输出层,得到所述第一结果。
2.根据权利要求1所述的方法,其特征在于,所述语音分类模型由所述目标对象的音频训练信息训练获得,包括:
对所述音频训练信息进行特征提取以获得相应的音频特征数据;
对所述音频特征数据进行数据增强处理,并通过增强后的音频特征数据对所述语音分类模型进行训练。
3.根据权利要求2所述的方法,其特征在于,对所述音频训练信息进行特征提取以获得相应的音频特征数据的步骤包括:
将所述音频训练信息切分为等长的音频片段,对每个所述音频片段分别进行特征提取以获得对应的音频特征数据,所述音频特征数据包括对应于每个音频片段的原始特征数据以及FBank特征数据。
4.根据权利要求3所述的方法,其特征在于,对所述音频特征数据进行数据增强处理的步骤至少包括以下之一:
在FBank特征数据中随机的选取部分频带上对应的特征值,将相应的特征值替换为随机值;
在FBank特征数据中随机的交换至少两个时间片段上对应的特征值。
5.根据权利要求3所述的方法,其特征在于,对所述音频特征数据进行数据增强处理的步骤至少包括以下之一:
在所述原始特征数据中添加随机的噪声特征数据;
将多段所述的原始特征数据相拼接;
改变所述原始特征数据中的发音速度特征和/或音调特征。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述第一结果确定所述音频信息与目标对象是相对应的,则将所述音频信息输入声纹识别模型以获得第二结果;其中,所述第二结果用于对所述第一结果进行验证,所述声纹识别模型由音频训练信息训练获得。
7.根据权利要求1所述的方法,其特征在于,所述音频训练信息包括由第一标签所标注的正训练样本集和由第二标签所标注的负训练样本集,所述第一标签表征所述正训练样本集内的音频样本与所述目标对象相对应,所述第二标签表征所述负训练样本集内的音频样本与所述目标对象不对应;
所述语音分类模型由所述目标对象的音频训练信息训练获得,还包括:
基于所述音频训练信息以及对应于它们的、所述语音分类模型的输出结果,确定所述语音分类模型的对比损失函数和交叉熵损失函数;
融合所述对比损失函数和所述交叉熵损失函数,以获得所述语音分类模型的目标损失函数;
基于梯度下降规则调整所述语音分类模型的模型参数,直至所述目标损失函数的损失值收敛至不再减小,以结束对所述语音分类模型的训练。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述语音分类模型包括多个卷积层相级联而成的卷积神经网络,所述循环神经网络为GRU神经网络。
9.根据权利要求6所述的方法,其特征在于,所述声纹识别模型还包括分数值线性判别分析模块,所述将所述音频信息输入声纹识别模型以获得第二结果的步骤包括:
通过所述声纹识别模型获取所述音频信息的FBank特征数据对应的ivector特征数据,并基于所述ivector特征数据,通过所述分数值线性判别分析模块评估所述音频信息与所述目标对象之间的匹配度,以获得相应的第二结果。
10.一种语音检测装置,其特征在于,包括:
检测模块,用于将待检测的音频信息输入语音分类模型以获得第一结果,所述第一结果用以确定所述音频信息与目标对象之间的对应关系;其中,
所述语音分类模型由音频训练信息训练获得,所述语音分类模型包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层,以及所述融合层之后依次设置的全连接层、Softmax层和输出层;
所述检测模块还用于:
提取待检测的音频信息的FBank特征数据,将所述FBank特征数据输入所述卷积神经网络以获取对应于该音频信息的局部特征向量;
将所述局部特征向量输入所述循环神经网络,以相应循环神经网络的输出结果作为所述注意力机制模型的输入,以计算获得对应于该音频信息的全局特征向量;
通过所述融合层收集所述局部特征向量和所述全局特征向量,并对所述局部特征向量和所述全局特征向量进行融合处理以获得相应的融合特征向量;
将所述融合特征向量依次输入所述全连接层、所述Softmax层和所述输出层,得到所述第一结果。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
特征提取模块,用于对所述音频训练信息进行特征提取以获得相应的音频特征数据;
数据增强模块,用于对所述音频特征数据进行数据增强处理,并通过增强后的音频特征数据对所述语音分类模型进行训练。
12.根据权利要求11所述的装置,其特征在于,所述特征提取模块还用于:
将所述音频训练信息切分为等长的音频片段,对每个所述音频片段分别进行特征提取以获得对应的音频特征数据,所述音频特征数据包括对应于每个音频片段的原始特征数据以及FBank特征数据。
13.根据权利要求12所述的装置,其特征在于,所述数据增强模块至少包括以下之一:
替换子模块,用于在FBank特征数据中随机的选取部分频带上对应的特征值,将相应的特征值替换为随机值;
交换子模块,用于在FBank特征数据中随机的交换至少两个时间片段上对应的特征值。
14.根据权利要求12所述的装置,其特征在于,所述数据增强模块还至少包括以下之一:
添加子模块,用于在所述原始特征数据中添加随机的噪声特征数据;
拼接子模块,用于将多段所述的原始特征数据相拼接;
改变子模块,用于改变原始特征数据中的发音速度特征和/或音调特征。
15.根据权利要求12所述的装置,其特征在于,所述装置还包括:
验证模块,用于根据所述第一结果确定所述音频信息与目标对象是相对应的,则将所述音频信息输入声纹识别模型以获得第二结果;其中,所述第二结果用于对所述第一结果进行验证,所述声纹识别模型由音频训练信息训练获得。
16.根据权利要求10所述的装置,其特征在于,所述音频训练信息包括由第一标签所标注的正训练样本集和由第二标签所标注的负训练样本集,所述第一标签表征所述正训练样本集内的音频样本与所述目标对象相对应,所述第二标签表征所述负训练样本集内的音频样本与所述目标对象不对应;
所述装置还包括模型训练模块,用于:
基于所述音频训练信息以及对应于它们的、所述语音分类模型的输出结果,确定所述语音分类模型的对比损失函数和交叉熵损失函数;
融合所述对比损失函数和所述交叉熵损失函数,以获得所述语音分类模型的目标损失函数;
基于梯度下降规则调整所述语音分类模型的模型参数,直至所述目标损失函数的损失值收敛至不再减小,以结束对所述语音分类模型的训练。
17.根据权利要求10-16中任一项所述的装置,其特征在于,所述语音分类模型包括多个卷积层相级联而成的卷积神经网络,所述循环神经网络为GRU神经网络。
18.根据权利要求15所述的装置,其特征在于,所述声纹识别模型还包括分数值线性判别分析模块,所述验证模块还用于:
通过所述声纹识别模型获取所述音频信息的FBank特征数据对应的ivector特征数据,并基于所述ivector特征数据,通过所述分数值线性判别分析模块评估所述音频信息与所述目标对象之间的匹配度,以获得相应的第二结果。
19.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1~9任一项所述的方法。
20.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327815.2A CN112466298B (zh) | 2020-11-24 | 2020-11-24 | 语音检测方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327815.2A CN112466298B (zh) | 2020-11-24 | 2020-11-24 | 语音检测方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112466298A CN112466298A (zh) | 2021-03-09 |
CN112466298B true CN112466298B (zh) | 2023-08-11 |
Family
ID=74799698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011327815.2A Active CN112466298B (zh) | 2020-11-24 | 2020-11-24 | 语音检测方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466298B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066507B (zh) * | 2021-03-15 | 2024-04-19 | 上海明略人工智能(集团)有限公司 | 端到端说话人分离方法、系统及设备 |
CN113011363B (zh) * | 2021-03-30 | 2024-04-30 | 闽江学院 | 隐私安全的音频标注处理方法 |
CN113506566B (zh) * | 2021-06-22 | 2022-04-15 | 荣耀终端有限公司 | 声音检测模型训练方法、数据处理方法以及相关装置 |
CN115512693B (zh) * | 2021-06-23 | 2024-08-09 | 中移(杭州)信息技术有限公司 | 音频识别方法、声学模型训练方法、装置和存储介质 |
CN113436609B (zh) * | 2021-07-06 | 2023-03-10 | 南京硅语智能科技有限公司 | 语音转换模型及其训练方法、语音转换方法及系统 |
CN113593603A (zh) * | 2021-07-27 | 2021-11-02 | 浙江大华技术股份有限公司 | 音频类别的确定方法、装置、存储介质及电子装置 |
CN114519803A (zh) * | 2022-01-24 | 2022-05-20 | 东莞理工学院 | 一种基于迁移学习的小样本目标识别方法 |
CN114429766A (zh) * | 2022-01-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 调整播放音量的方法、装置、设备以及存储介质 |
CN114637896B (zh) * | 2022-05-23 | 2022-09-09 | 杭州闪马智擎科技有限公司 | 数据的审核方法和装置、存储介质及电子装置 |
CN115273892B (zh) * | 2022-07-27 | 2024-07-26 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、设备、存储介质和计算机程序产品 |
CN116612783B (zh) * | 2023-07-17 | 2023-10-27 | 联想新视界(北京)科技有限公司 | 一种声音识别方法、装置、电子设备及存储介质 |
CN116935889B (zh) * | 2023-09-14 | 2023-11-24 | 北京远鉴信息技术有限公司 | 一种音频类别的确定方法、装置、电子设备及存储介质 |
CN117275519B (zh) * | 2023-11-22 | 2024-02-13 | 珠海高凌信息科技股份有限公司 | 一种声音类型识别修正方法、系统、装置及介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0997096A (ja) * | 1995-09-28 | 1997-04-08 | Victor Co Of Japan Ltd | 音声認識用音響モデル生成方法 |
CN107437417A (zh) * | 2017-08-02 | 2017-12-05 | 中国科学院自动化研究所 | 基于循环神经网络语音识别中语音数据增强方法及装置 |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN109473091A (zh) * | 2018-12-25 | 2019-03-15 | 四川虹微技术有限公司 | 一种语音样本生成方法及装置 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN110364165A (zh) * | 2019-07-18 | 2019-10-22 | 青岛民航凯亚系统集成有限公司 | 航班动态信息语音查询方法 |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
CN110728991A (zh) * | 2019-09-06 | 2020-01-24 | 南京工程学院 | 一种改进的录音设备识别算法 |
CN110827813A (zh) * | 2019-10-18 | 2020-02-21 | 清华大学深圳国际研究生院 | 一种基于多模态特征的重音检测方法及系统 |
CN110853618A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
CN111372123A (zh) * | 2020-03-03 | 2020-07-03 | 南京信息工程大学 | 基于从局部到全局的视频时序片段提取方法 |
CN111402920A (zh) * | 2020-03-10 | 2020-07-10 | 同盾控股有限公司 | 娇喘音频的识别方法及装置、终端、存储介质 |
CN111477216A (zh) * | 2020-04-09 | 2020-07-31 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
KR20200119410A (ko) * | 2019-03-28 | 2020-10-20 | 한국과학기술원 | 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
CN109584884B (zh) * | 2017-09-29 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
US10504539B2 (en) * | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
-
2020
- 2020-11-24 CN CN202011327815.2A patent/CN112466298B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0997096A (ja) * | 1995-09-28 | 1997-04-08 | Victor Co Of Japan Ltd | 音声認識用音響モデル生成方法 |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN107437417A (zh) * | 2017-08-02 | 2017-12-05 | 中国科学院自动化研究所 | 基于循环神经网络语音识别中语音数据增强方法及装置 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN109473091A (zh) * | 2018-12-25 | 2019-03-15 | 四川虹微技术有限公司 | 一种语音样本生成方法及装置 |
KR20200119410A (ko) * | 2019-03-28 | 2020-10-20 | 한국과학기술원 | 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법 |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
CN110364165A (zh) * | 2019-07-18 | 2019-10-22 | 青岛民航凯亚系统集成有限公司 | 航班动态信息语音查询方法 |
CN110728991A (zh) * | 2019-09-06 | 2020-01-24 | 南京工程学院 | 一种改进的录音设备识别算法 |
CN110827813A (zh) * | 2019-10-18 | 2020-02-21 | 清华大学深圳国际研究生院 | 一种基于多模态特征的重音检测方法及系统 |
CN110853618A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
CN111372123A (zh) * | 2020-03-03 | 2020-07-03 | 南京信息工程大学 | 基于从局部到全局的视频时序片段提取方法 |
CN111402920A (zh) * | 2020-03-10 | 2020-07-10 | 同盾控股有限公司 | 娇喘音频的识别方法及装置、终端、存储介质 |
CN111477216A (zh) * | 2020-04-09 | 2020-07-31 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112466298A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112466298B (zh) | 语音检测方法、装置、电子设备和存储介质 | |
US20220180882A1 (en) | Training method and device for audio separation network, audio separation method and device, and medium | |
CN111966914B (zh) | 基于人工智能的内容推荐方法、装置和计算机设备 | |
Demertzis et al. | Extreme deep learning in biosecurity: the case of machine hearing for marine species identification | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN111741330A (zh) | 一种视频内容评估方法、装置、存储介质及计算机设备 | |
CN111831826B (zh) | 跨领域的文本分类模型的训练方法、分类方法以及装置 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN109992781B (zh) | 文本特征的处理方法、装置和存储介质 | |
CN112131430A (zh) | 视频聚类方法、装置、存储介质和电子设备 | |
CN116935170B (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN110929806A (zh) | 基于人工智能的图片处理方法、装置及电子设备 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN116665083A (zh) | 一种视频分类方法、装置、电子设备及存储介质 | |
CN116091836A (zh) | 一种多模态视觉语言理解与定位方法、装置、终端及介质 | |
CN115734024A (zh) | 音频数据处理方法、装置、设备及存储介质 | |
CN113312445B (zh) | 数据处理方法、模型构建方法、分类方法及计算设备 | |
CN116956915A (zh) | 实体识别模型训练方法、装置、设备、存储介质及产品 | |
CN111477212A (zh) | 内容识别、模型训练、数据处理方法、系统及设备 | |
CN113033209B (zh) | 文本关系抽取方法、装置、存储介质及计算机设备 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN114912540A (zh) | 迁移学习方法、装置、设备及存储介质 | |
CN114861004A (zh) | 一种社交事件检测方法、装置及系统 | |
CN114357301A (zh) | 数据处理方法、设备及可读存储介质 | |
CN114610905B (zh) | 一种数据处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210922 Address after: 310052 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd. Address before: 310052 Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province, 4, 7 stories Applicant before: NETEASE (HANGZHOU) NETWORK Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |