CN112466298A - 语音检测方法、装置、电子设备和存储介质 - Google Patents

语音检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112466298A
CN112466298A CN202011327815.2A CN202011327815A CN112466298A CN 112466298 A CN112466298 A CN 112466298A CN 202011327815 A CN202011327815 A CN 202011327815A CN 112466298 A CN112466298 A CN 112466298A
Authority
CN
China
Prior art keywords
audio
training
information
classification model
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011327815.2A
Other languages
English (en)
Other versions
CN112466298B (zh
Inventor
周立峰
朱浩齐
李雨珂
杨卫强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202011327815.2A priority Critical patent/CN112466298B/zh
Publication of CN112466298A publication Critical patent/CN112466298A/zh
Application granted granted Critical
Publication of CN112466298B publication Critical patent/CN112466298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种语音检测方法、装置、电子设备和存储介质,涉及人工智能技术领域,该方法包括:将待检测的音频信息输入语音分类模型以获得第一结果,该第一结果用以确定音频信息与目标对象之间的对应关系;其中,语音分类模型由音频训练信息训练获得,语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。这样,基于训练好的语音分类模型对音频信息进行检测,以确定音频信息与目标对象的对应关系,不需要人工审核,降低了人力成本和时间成本,提高了音频审核效率,可以实现大规模语音数据的审核过滤。

Description

语音检测方法、装置、电子设备和存储介质
技术领域
本申请涉及人工智能技术领域,更具体地说,涉及一种语音检测方法、装 置、电子设备和存储介质。
背景技术
在多媒体爆炸的信息时代,语音的数量和时长呈指数型增长。语音在被上 传至网络中时,通常需要对语音进行审核,以避免垃圾语音在网络中传播。在 一些场景下,特定人群的语音为垃圾语音。
目前,为了识别上述垃圾语音,通常采用人工审核的方式,即通过人工听 语音的方式判断一段语音是否包含特定人群的语音。这需要审核人员听完整段 语音,理论上来讲,一个审核人员一天只能审核不超过24小时的语音,效率 低下,需要很高的人力成本和时间成本。并且,人工审核的方式无法完成大规 模语音数据的审核过滤。
发明内容
本申请实施例提供一种语音检测方法、装置、电子设备和存储介质,用以 对语音进行自动检测,降低耗费的人力成本和时间成本,提高了语音审核效率, 可以实现大规模语音数据的审核过滤。
一方面,本申请实施例提供一种语音检测方法,包括:
将待检测的音频信息输入语音分类模型以获得第一结果,所述第一结果用 以确定所述音频信息与目标对象之间的对应关系;其中,
所述语音分类模型由音频训练信息训练获得,所述语音分类模型至少包括 依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷 积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
在一种可选的实施方式中,所述语音分类模型由所述目标对象的音频训练 信息训练获得,包括:
对所述音频训练信息进行特征提取以获得相应的音频特征数据;
对所述音频特征数据进行数据增强处理,并通过增强后的音频特征数据对 所述语音分类模型进行训练。
在一种可选的实施方式中,对所述音频训练信息进行特征提取以获得相应 的音频特征数据的步骤包括:
将所述音频训练信息切分为等长的音频片段,对每个所述音频片段分别进 行特征提取以获得对应的音频特征数据,所述音频特征数据包括对应于每个音 频片段的原始特征数据以及FBank特征数据。
在一种可选的实施方式中,对所述音频特征数据进行数据增强处理的步骤 至少包括以下之一:
在FBank特征数据中随机的选取部分频带上对应的特征值,将相应的特征 值替换为随机值;
在FBank特征数据中随机的交换至少两个时间片段上对应的特征值。
在一种可选的实施方式中,对所述音频特征数据进行数据增强处理的步骤 至少包括以下之一:
在所述原始特征数据中添加随机的噪声特征数据;
将多段所述的原始特征数据相拼接;
改变原始特征数据中的发音速度特征和/或音调特征。
在一种可选的实施方式中,所述方法还包括:
根据所述第一结果确定所述音频信息与目标对象是相对应的,则将所述音 频信息输入声纹识别模型以获得第二结果;其中,所述第二结果用于对所述第 一结果进行验证,所述声纹识别模型由音频训练信息训练获得。
在一种可选的实施方式中,所述音频训练信息包括由第一标签所标注的正 训练样本集和由第二标签所标注的负训练样本集,所述第一标签表征所述正训 练样本集内的音频样本与所述目标对象相对应,所述第二标签表征所述负训练 样本集内的音频样本与所述目标对象不对应;
所述语音分类模型由所述目标对象的音频训练信息训练获得,还包括:
基于所述音频训练信息以及对应于它们的、所述语音分类模型的输出结果, 确定所述语音分类模型的对比损失函数和交叉熵损失函数;
融合所述对比损失函数和所述交叉熵损失函数,以获得所述语音分类模型 的目标损失函数;
基于梯度下降规则调整所述语音分类模型的模型参数,直至所述目标损失 函数的损失值收敛至不再减小,以结束对所述语音分类模型的训练。
在一种可选的实施方式中,所述语音分类模型包括多个卷积层相级联而成 的卷积神经网络,所述循环神经网络为GRU神经网络。
在一种可选的实施方式中,所述语音分类模型还包括:所述融合层之后依 次设置的全连接层、Softmax层和输出层。
在一种可选的实施方式中,所述声纹识别模型还包括分数值线性判别分析 模块,所述将所述音频信息输入声纹识别模型以获得第二结果的步骤包括:
通过所述声纹识别模型获取所述音频信息的FBank特征数据对应的 ivector特征数据,并基于所述ivector特征数据,通过所述分数值线性判别分析 模块评估所述音频信息与所述目标对象之间的匹配度,以获得相应的第二结果。
在一种可选的实施方式中,所述将待检测的音频信息输入语音分类模型以 获得第一结果的步骤包括:
提取待检测的音频信息的FBank特征数据,将所述FBank特征数据输入 所述卷积神经网络以获取对应于该音频信息的局部特征向量;
将所述局部特征向量输入所述循环神经网络,以相应循环神经网络的输出 结果作为所述注意力机制模型的输入,以计算获得对应于该音频信息的全局特 征向量;
通过所述融合层收集所述局部特征向量和所述全局特征向量,并对所述局 部特征向量和所述全局特征向量进行融合处理以获得相应的融合特征向量;其 中,所述融合特征向量用于确定所述第一结果。
一方面,本申请实施例提供一种语音检测装置,包括:
检测模块,用于将待检测的音频信息输入语音分类模型以获得第一结果, 所述第一结果用以确定所述音频信息与目标对象之间的对应关系;其中,
所述语音分类模型由音频训练信息训练获得,所述语音分类模型至少包括 依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷 积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
在一种可选的实施方式中,所述装置还包括:
特征提取模块,用于对所述音频训练信息进行特征提取以获得相应的音频 特征数据;
数据增强模块,用于对所述音频特征数据进行数据增强处理,并通过增强 后的音频特征数据对所述语音分类模型进行训练。
在一种可选的实施方式中,所述特征提取模块还用于:
将所述音频训练信息切分为等长的音频片段,对每个所述音频片段分别进 行特征提取以获得对应的音频特征数据,所述音频特征数据包括对应于每个音 频片段的原始特征数据以及FBank特征数据。
在一种可选的实施方式中,所述数据增强模块至少包括以下之一:
替换子模块,用于在FBank特征数据中随机的选取部分频带上对应的特征 值,将相应的特征值替换为随机值;
交换子模块,用于在FBank特征数据中随机的交换至少两个时间片段上对 应的特征值。
在一种可选的实施方式中,所述数据增强模块还至少包括以下之一:
添加子模块,用于在所述原始特征数据中添加随机的噪声特征数据;
拼接子模块,用于将多段所述的原始特征数据相拼接;
改变子模块,用于改变原始特征数据中的发音速度特征和/或音调特征。
在一种可选的实施方式中,所述装置还包括:
验证模块,用于根据所述第一结果确定所述音频信息与目标对象是相对应 的,则将所述音频信息输入声纹识别模型以获得第二结果;其中,所述第二结 果用于对所述第一结果进行验证,所述声纹识别模型由音频训练信息训练获得。
在一种可选的实施方式中,所述音频训练信息包括由第一标签所标注的正 训练样本集和由第二标签所标注的负训练样本集,所述第一标签表征所述正训 练样本集内的音频样本与所述目标对象相对应,所述第二标签表征所述负训练 样本集内的音频样本与所述目标对象不对应;
所述装置还包括模型训练模块,用于:
基于所述音频训练信息以及对应于它们的、所述语音分类模型的输出结果, 确定所述语音分类模型的对比损失函数和交叉熵损失函数;
融合所述对比损失函数和所述交叉熵损失函数,以获得所述语音分类模型 的目标损失函数;
基于梯度下降规则调整所述语音分类模型的模型参数,直至所述目标损失 函数的损失值收敛至不再减小,以结束对所述语音分类模型的训练。
在一种可选的实施方式中,所述语音分类模型包括多个卷积层相级联而成 的卷积神经网络,所述循环神经网络为GRU神经网络。
在一种可选的实施方式中,所述语音分类模型还包括:所述融合层之后依 次设置的全连接层、Softmax层和输出层。
在一种可选的实施方式中,所述声纹识别模型还包括分数值线性判别分析 模块,所述验证模块还用于:
通过所述声纹识别模型获取所述音频信息的FBank特征数据对应的 ivector特征数据,并基于所述ivector特征数据,通过所述分数值线性判别分析 模块评估所述音频信息与所述目标对象之间的匹配度,以获得相应的第二结果。
在一种可选的实施方式中,所述检测模块还用于:
提取待检测的音频信息的FBank特征数据,将所述FBank特征数据输入 所述卷积神经网络以获取对应于该音频信息的局部特征向量;
将所述局部特征向量输入所述循环神经网络,以相应循环神经网络的输出 结果作为所述注意力机制模型的输入,以计算获得对应于该音频信息的全局特 征向量;
通过所述融合层收集所述局部特征向量和所述全局特征向量,并对所述局 部特征向量和所述全局特征向量进行融合处理以获得相应的融合特征向量;其 中,所述融合特征向量用于确定所述第一结果。
一方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存 储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述 处理器执行时,使得所述处理器实现上述任一种语音检测方法的步骤。
一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存 储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一 种语音检测方法的步骤。
本申请实施例提供的一种语音检测方法、装置、电子设备和存储介质中, 通过语音分类模型对待检测的音频信息进行检测,以获得第一结果,该第一结 果用以确定音频信息与目标对象之间的对应关系;其中,语音分类模型由音频 训练信息训练获得,语音分类模型至少包括依次级联的卷积神经网络、循环神 经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自 的输出结果进行融合的融合层。这样,基于卷积神经网络、循环神经网络、注 意力机制模型以及融合层所搭建的语音分类模型,并采用训练好的语音分类模 型对音频信息进行检测,以确定音频信息与目标对象的对应关系,不需要人工 审核,降低了人力成本和时间成本,提高了音频审核效率,可以实现大规模语 音数据的审核过滤。并且,本申请不需要获取音频信息的语义内容即可实现音 频审核,以完成语音反垃圾任务。
另外,语音分类模型中的卷积神经网络可以提取语义丰富的局部特征,循 环神经网络可以提取语义丰富的全局特征,注意力机制模型针对循环神经网络 输出的全局特征可以更好的捕获上下文信息,以更好的关注对分类有帮助的特 征,融合层融合了卷积神经网络输出的局部特征和注意力机制输出的全局特征, 通得到融合后的特征,这样,可以大幅度提升语音分类模型的检测准确率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明 书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可 通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获 得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分, 本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限 定。在附图中:
图1为本申请实施例方式中一种语音检测方法的应用场景的示意图;
图2为本申请实施例方式中一种语音检测方法的实施流程图;
图3为本申请实施例方式中一种语音分类模型的结构图;
图4为本申请实施例方式中一种语音分类模型的训练方法的实施流程图;
图5为本申请实施例方式中另一种语音检测方法的实施流程图;
图6为本申请实施例方式中又一种语音检测方法的实施流程图;
图7为本申请实施例方式中一种语音检测装置的结构示意图;
图8为本申请实施例方式中一种电子设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理 解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而 实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施 方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传 达给本领域的技术人员。
本领域技术人员知道,本申请的实施方式可以实现为一种系统、装置、 设备、方法或计算机程序产品。因此,本申请可以具体实现为以下形式, 即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬 件和软件结合的形式。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限 制,以及任何命名都仅用于区分,而不具有任何限制含义。
为了方便理解,下面对本申请实施例中涉及的部分概念进行解释:
目标对象:指特定的人或人群,例如可以是指定的一个或多个领导人、明 星或演员等,本申请对此不作限定。
深度学习:深度学习的概念源于人工神经网络的研究,含多隐层的多层感 知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层 表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研 究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络, 通过模仿人脑的机制来解释数据,例如图像,声音和文本等。常用的深度学习 模型包括:卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经 网络(Recurrent Neural Network,RNN)、是长短期记忆网络(Long Short-Term Memory,LSTM)、深度神经网络(Deep Neural Network,DNN)、深度置信网 (Deep Belief Nets,DBNs)等神经网络。数据在神经网络中的传播有两种方 式,一种是沿着输入到输出的路径,被称为前向传播(Forward propagation), 另一种是从输出返回到输入,被成为反向传播(Back propagation)。在正向传播 过程中,输入信息通过神经网络逐层处理并传向输出层,通过损失函数描述输 出值与期望之间的误差,转入反向传播,逐层求出损失函数对各神经元的权重 的偏导数,构成损失函数对权值向量的权重梯度数据,作为更新权重参数的依 据,在不断更新权重参数的过程中完成神经网络的训练。
卷积神经网络:在机器学习中,是一种前馈神经网络,人工神经元可以响 应周围单元。卷积神经网络包括卷积层和池化层。本申请实施例中可以指包含 若干层卷积层的神经网络。
循环神经网络:是一类以序列数据为输入,在序列的演进方向进行递归且 所有节点按链式连接的递归神经网络。
GRU神经网络:是循环神经网络的一种,引入门控机制,通过门控机制 控制输入、记忆等信息在当前时间步做出预测,不会随时间而清除以前的信息, 它会保留相关的信息并传递到下一个单元,因此它利用全部信息而避免了梯度 消失问题。
损失函数(loss function):是将随机事件或其有关随机变量的取值映射为 非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函 数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模 型。例如,在机器学习中,损失函数被用于模型的参数估计(parameteric estimation),基于损失函数得到的损失值可用来描述模型的预测值与实际值的 差异程度。常见的损失函数有均方误差损失函数、SVM(Support Vector Machine, 支持向量机)合页损失函数、交叉熵损失函数等。
注意力机制(Attention Mechanism):源于对人类视觉的研究,在认知科学 中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略 其他可见的信息。简单来说,注意力机制就是指模仿了生物观察行为的内部过 程,即一种将内部经验和外部感觉对其从而增加部分区域的观察精细度的机制。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精 神。
本申请人发现,在语音反垃圾领域,目前主要是通过人工审核的方式识别 待审核的语音,以识别垃圾语音。例如垃圾语音为特定人群的语音时,通过人 工听语音的方式判断一段语音是否包含特定人群的语音。但是这种方式效率低 下,需要很高的人力成本和时间成本。并且,人工审核的方式无法完成大规模 语音数据的审核过滤。
为了改善上述情况,本申请实施例提供一种语音检测方法、装置、存储介 质和电子设备。通过语音分类模型对待检测的音频信息进行检测,以获得第一 结果,该第一结果用以确定音频信息与目标对象之间的对应关系;其中,语音 分类模型由音频训练信息训练获得,语音分类模型至少包括依次级联的卷积神 经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意 力机制模型各自的输出结果进行融合的融合层。这样,基于卷积神经网络、循 环神经网络、注意力机制模型以及融合层搭建语音分类模型,并采用训练好的 语音分类模型对音频信息进行检测,以确定音频信息与目标对象的对应关系, 不需要人工审核,降低了人力成本和时间成本,提高了音频审核效率,可以实 现大规模语音数据的审核过滤。并且,本申请不需要获取音频信息的语义内容 即可实现音频审核,以完成语音反垃圾任务。
下面结合附图及具体实施例对本申请作进一步详细的说明。
参考图1,其为本申请实施例所提供的语音检测方法的应用场景示意图。 该应用场景包括终端设备101(包括终端设备101-1、终端设备101-2、……终 端设备101-n)、应用服务器102和审核服务器103。其中,终端设备101和应 用服务器102之间可通过有线或无线的通信网络连接,应用服务器102和审核 服务器103之间可通过有线或无线的通信网络连接。终端设备101包括但不限 于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设 备、智能电视、车载设备、个人数字助理(personal digital assistant,PDA)等 电子设备。应用服务器102和审核服务器103均可以是独立的物理服务器,也 可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服 务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、 域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的 云服务器。当然,图1所示的应用服务器102和审核服务器103也可以布设在 同一个服务器或服务器集群中。
用户可通过终端设备101向内容平台对应的应用服务器102上传多媒体内 容,多媒体内容包括但不限于视频、音频等,以在内容平台上发布多媒体内容, 用户也可以通过终端设备101观看内容平台上发布的多媒体内容。在应用服务 器102接收到终端设备101上传的多媒体内容后,由审核服务器103对多媒体 内容进行审核,确定审核通过后再允许应用服务器102在内容平台上发布该多 媒体内容。在上述内容平台上,目标对象的音频为敏感信息,可以认为是垃圾 语音,针对音频类的多媒体内容,审核服务器103可以通过语音分类模型对音 频信息进行检测,确定音频信息与目标对象之间的对应关系,当根据该对应关系确定检测的音频信息为目标对象的音频信息时,审核不通过,即不允许应用 服务器102在内容平台上发布该音频信息。针对音视频类的多媒体内容,审核 服务器103可从音视频信息中分离出音频信息和视频信息,通过语音分类模型 对音频信息进行检测,确定音频信息与目标对象之间的对应关系。因此,通过 审核服务器103对音频信息进行检测,不需要人工审核,降低了人力成本和时 间成本,提高了音频审核效率,可以实现大规模语音数据的审核过滤。并且, 不需要获取音频信息的语义内容即可实现音频审核,以完成语音反垃圾任务。
下面结合图1的应用场景,来描述根据本申请示例性实施方式的语音 检测方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神 和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请 的实施方式可以应用于适用的任何场景。
参考图2,本申请实施例提供了的一种语音检测方法,可应用于服务器, 例如图1所示的审核服务器,下述待检测的音频信息可以为单独语音的音频 信息,也可以为视频中包含的音频信息,在此不作限制。具体可包括以下步骤:
步骤S201,将待检测的音频信息输入语音分类模型以获得第一结果,第一 结果用以确定音频信息与目标对象之间的对应关系。其中,语音分类模型由音 频训练信息训练获得,语音分类模型至少包括依次级联的卷积神经网络、循环 神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各 自的输出结果进行融合的融合层。
本申请实施例中,目标对象可以是特定的人或人群,例如可以是指定的一 个或多个领导人、明星或演员等。对于待检测的一段语音音频,在对其进行检 测之前,可以将该语音音频切分成时间等长的音频片段,例如一段1分钟的语 音音频,以10秒等长切分后得到6个10秒的音频片段。每个音频片段可以作 为待检测的音频信息,在将每个音频片段输入语音分类模型时,可以首先对每 个音频片段进行特征提取,以获得对应于每个音频片段的音频特征数据,例如 该音频特征数据可以包括FBank特征数据,然后通过语音分类模型对每个音频 片段的FBank特征数据进行检测。通过将一段语音音频进行等长切分,不仅可 以提高语音分类模型的检测速度,以保证语音检测的实时性,还便于语音分类 模型批量处理语音音频。
为了提取音频片段的FBank特征数据,可以首先提取音频片段的时域特征, 其中,时域是描述数学函数或物理信号对时间的关系,例如,一个信号的时域 波形可以表达信号随着时间的变化。然后,可以通过傅里叶变换将音频片段的 时域特征转换为频域特征,进而从频域特征中提取FBank特征数据。其中,频 域就是频率域,是描述信号对频率的关系。通过上述方式提取到的FBank特征 数据,不仅可以作为语音分类模型的输入,还可以同时作为下面提到的声纹识 别模型的输入,也就是说,对于待检测的音频片段,只需要提取一次FBank特 征数据即可,减少了特征提取的工作量。
在获得每个音频片段的FBank特征数据后,可以分别将每个音频片段的 FBank特征数据输入已经训练好的语音分类模型,以获得第一结果,因此,根 据第一结果可以确定音频片段与目标对象之间的对应关系。例如,该对应关系 可以是音频片段与目标对象相对应,或者音频片段与目标对象不对应。例如, 上述第一结果可以是音频片段与目标对象相对应的分数值,当分数值大于第一 设定分数阈值时,可以认为音频片段与目标对象相对应,即音频片段为目标对 象的音频,否则认为音频片段与目标对象不对应,其中的第一设定分数阈值可 以根据需要进行设置,本申请对此不作限定。另外,将FBank特征数据输入声纹识别模型进行检测的过程将在下文中进行介绍。
需要说明的是,目标对象可以包括多个,不同的目标对象可以通过不同的 标识进行区分,第一结果可以包括音频片段与多个目标对象的对应关系,例如, 音频片段与目标对象1相对应的分数值m1,音频片段与目标对象2相对应的 分数值m2,音频片段与目标对象3相对应的分数值m3等等,从中选择分数值 最高的目标对象,将该目标对象对应的分数值与第一设定分数阈值进行比较, 以确定音频片段是否与该目标对象相对应。
本申请实施例基于卷积神经网络、循环神经网络、注意力机制模型以及融 合层获得训练好的语音分类模型,并采用训练好的语音分类模型对音频信息进 行检测,以确定音频信息与目标对象的对应关系,不需要人工审核,降低了人 力成本和时间成本,提高了音频审核效率,可以实现大规模语音数据的审核过 滤。
本申请实施例中,在对音频信息进行检测之前,可以预先对用于检测音频 信息的语音分类模型进行训练,而在训练之前需要确定语音分类模型的结构, 由上述可知,语音分类模型至少包括依次级联的卷积神经网络、循环神经网络 以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出 结果进行融合的融合层。
其中,卷积神经网络可以提取语义丰富的局部特征,循环神经网络可以提 取语义丰富的全局特征,注意力机制模型基于注意力机制,针对循环神经网络 输出的全局特征可以更好的捕获上下文信息,以更好的关注对分类有帮助的特 征,融合层融合了卷积神经网络输出的局部特征和注意力机制输出的全局特征, 通得到融合后的特征,这样,可以大幅度提升语音分类模型的检测准确率。
具体地,如图3所示,语音分类模型中的卷积神经网络可以由多个卷积层 相级联而成,循环神经网络可以采用GRU神经网络。可选地,语音分类模型 还可以包括:融合层之后依次设置的全连接层、Softmax层和输出层。全连接 层和Softmax层可以理解为分类网络,对融合层的输出结果进行处理,并通过 输出层输出处理结果。
其中,卷积神经网络的多个卷积层中,不同层级的卷积层的感受野不一样, 提取到的局部特征也不同,例如对于一个10s的音频片段,第一层卷积层可以 提取1-2s的局部特征,第二层卷积层可以提取3-5s的局部特征,以此类推, 从而可以提取语义丰富的局部特征。GRU神经网络引入了门控机制,通过门 控机制控制输入、记忆等信息在当前时间步做出预测,不会随时间而清除以前 的信息,它会保留相关的信息并传递到下一个单元,因此,在可以提取语义丰 富的全局特征的同时,还可以有效避免梯度爆炸和梯度消失的问题,提高模型 训练的效率,以及加速模型的收敛。
在确定语音分类模型的结构之后,下面对语音分类模型的训练过程进行介 绍。
在一种可选的实施方式中,如图4所示,语音分类模型的训练过程可以包 括如下步骤:
步骤S401,获取音频训练信息,音频训练信息包括由第一标签所标注的正 训练样本集和由第二标签所标注的负训练样本集,第一标签表征正训练样本集 内的音频样本与目标对象相对应,第二标签表征负训练样本集内的音频样本与 目标对象不对应。
具体地,获取目标对象对应的大量音频,每个音频作为一个正音频样本, 为每个正音频样本标注第一标签,例如第一标签可以是目标对象,得到正训练 样本集;获取非目标对象对应的大量音频,每个音频信息作为一个负音频样本, 为每个负音频样本标注第二标签,例如第二标签可以是非目标对象,得到负训 练样本集。这样,就可以获取模型训练的音频训练信息。
需要说明的是,由于目标对象可以包括多个,每个目标对象具有一个唯一 的目标对象标识,因此,正训练样本集中可以包括多个目标对象对应的正音频 样本,每个正音频样本的第一标签可以是目标对象的标识,例如目标对象1、 目标对象2、目标对象3等等,此时,第二标签可以是非目标对象的标识,不 同的非目标对象采用同一个标识。
由于在对语音分类模型进行训练时,需要输入指定音频时长的音频信息, 因此,本申请实施例中,在获得音频训练信息后,可以将音频训练信息中的每 个音频样本切分为等长的音频样本片段,各音频样本片段是按照指定音频时长 对音频样本划分后获得的,实际应用中,指定音频时长可以根据实际应用场景 进行设置,在此不作限制。
在一种可选的实施方式中,在基于音频训练信息对语音分类模型进行训练 之前,还可以通过如下步骤对音频训练信息进行处理:
步骤a、对音频训练信息进行特征提取以获得相应的音频特征数据。
具体地,可以将音频训练信息切分为等长的音频片段,对每个音频片段分 别进行特征提取以获得对应的音频特征数据,音频特征数据包括对应于每个音 频片段的原始特征数据以及FBank特征数据。其中的原始特征数据可以理解为 上述的音频片段的时域特征。
步骤b、对音频特征数据进行数据增强处理,并通过增强后的音频特征数 据对语音分类模型进行训练。
该步骤中,可以分别对原始特征数据和FBank特征数据进行数据增强处理。 具体地,对于原始特征数据,可以先对原始特征数据进行时域增强处理,获得 时域增强特征数据,然后提取时域增强特征数据的FBank特征数据。对于FBank 特征数据,可以对FBank特征数据进行频域增强处理,获得数据增强处理后的 FBank特征数据。
可选地,对FBank特征数据进行数据增强处理可以通过如下两种方式中的 一种或两种:
第一种方式,在FBank特征数据中随机的选取部分频带上对应的特征值, 将相应的特征值替换为随机值。
具体地,FBank特征数据可以包括多个频带上对应的特征值,频带可以指 音频带宽,即频率范围。随机选取一些频带,将这些频带上对应的特征值替换 为随机值。例如选取的某个频带的特征值为100,将100替换为除100以外的 任意值。
这是由于改变一些频带上对应的特征值,对于音频的改动是非常小的,相 当于增加了很小的噪音或者删除了一小部分音频信息,这并不影响音频与目标 对象的对应关系。通过这种方式得到增强之后的FBank特征数据,可以使得训 练好的模型更加鲁棒,效果更优。
第二种方式,在FBank特征数据中随机的交换至少两个时间片段上对应的 特征值。
一个音频片段可以包括多个时间片段,针对音频片段的FBank特征数据, 可以将两个时间片段或者两个以上时间片段对应的特征值进行交换。例如,时 间片段1对应的特征值为a,时间片段2对应的特征值为b,将这两个时间片 段的特征值进行交换后,时间片段1对应的特征值为b,时间片段2对应的特 征值为a。对于两个以上时间片段,可以将其中任意两个时间片段对应的特征 值进行交换。例如针对时间片段1、时间片段2和时间片段3,将时间片段1 和时间片段2进行交换后,再将时间片段1和时间片段3进行交换,具体的交 换顺序不作限定。
这是由于将一个音频片段的各个时间片段的顺序打乱,并不影响这个音频 片段与目标对象的对应关系,因此,通过这种方式得到增强之后的FBank特征 数据,可以使训练得到的模型更加鲁棒。
可选地,对原始特征数据进行数据增强处理可以通过如下三种方式中的一 种或多种:
方式一、在原始特征数据中添加随机的噪声特征数据。
通过这种方式得到增强之后的原始特征数据对模型进行训练,可以提高模 型的抗噪声等能力,进而提高噪声环境下的语音音频的识别准确度。
方式二、将多段的原始特征数据相拼接。
具体地,对于音频片段较短的情况,例如2秒的音频片段,可以将该音频 片段进行循环拼接,即将多段相同的音频片段进行拼接,通过这种方式得到增 强之后的原始特征数据对模型进行训练,可以提高模型对于短音频的识别准确 度。
方式三、改变原始特征数据中的发音速度特征和/或音调特征。
该方式中,通过改变原始特征数据中决定发音速度的特征来改变音频的发 音速度,通过改变原始特征数据中决定音调的特征来改变音频的音调。具体地, 可以改变音频的发音速度或音调,也可以同时改变音频的发音速度和音调。通 过这种方式得到增强之后的原始特征数据对模型进行训练,可以提高模型对恶 搞语音音频的识别准确度。
本申请实施例通过对音频训练信息进行数据增强处理,得到处理后的音频 训练信息,可以将处理前的音频训练信息和处理后的音频训练信息作为模型的 训练数据。
这是由于在进行模型训练时,通常需要大量的样本数据,但是,内容平台 上的目标对象(如领导人)的音频数据偏少、音频片段时长偏短,能够获取的 音频样本数据通常是不够的,如果不对获取的音频样本数据进行数据增强处理, 将无法达到足够的训练数据量而获得效果理想的模型。因此,本申请实施例采 用时域增强和/或频域增强的方式对获取的音频训练信息进行数据增强,以增加 训练的数据量,从而能够解决音频数据偏少、音频片段时长偏短的问题,进而 可以提高后续训练的模型的泛化能力。而且由于相应的增强方式并不影响音频 与目标对象的对应关系,因而数据增强并不会对模型的输出结果造成不利影响。 并且,本申请实施例中,分别在音频片段的原始特征数据的时间维度以及FBank特征数据的频率维度上做随机增强,提升了后续训练的模型的稳定性和鲁棒性。
步骤S402,基于音频训练信息以及对应于它们的、语音分类模型的输出结 果,确定语音分类模型的对比损失函数和交叉熵损失函数。
该步骤中的音频训练信息可以包括数据增强处理后的音频训练信息。将音 频训练信息作为训练样本集,将训练样本集中的各个音频样本分别输入语音分 类模型,得到对应于各个音频样本的输出结果,根据各个音频样本的输出结果 及其对应的标签,确定对比损失函数和交叉熵损失函数。
其中,对比损失函数L_contrastive的计算公式如式(1)所示:
Figure BDA0002794799150000181
其中,d=||an-bn||2,表示两个样本(可以理解为本申请实施例中的音频样本) 的欧式距离,N表示样本的数量,y表示两个样本是否匹配的标签,例如,y=1 表示两个样本相似或者匹配,y=0则表示两个样本不匹配,margin为设定的阈 值,例如可以取0.5,本申请对此不作限定。交叉熵损失函数的计算公式如以 下式(2)所示:
Figure BDA0002794799150000182
其中,p=[p0,…,pC-1]是一个分数值分布,每个元素pi表示样本属于第i 类别的分数值;y=[y0,…,yC-1]是样本标签的独热编码onehot表示,当样本属 于第i类别时,yi=1,否则,yi=0;C是样本标签的类别数。在本申请实施例中, 样本标签的类别可以包括目标对象、非目标对象,其中的目标对象又可以分为 不同的目标对象类别。
步骤S403,融合对比损失函数和交叉熵损失函数,以获得语音分类模型的 目标损失函数。
具体地,基于对比损失函数L_contrastive和交叉熵损失函数L_c,可以通 过以下式(3)确定语音分类模型的目标损失函数L_total:
L_total=L_contrastive+w*L_ce (3)
其中,L_total表示目标损失函数,L_contrastive表示对比损失函数,L_ce 表示交叉熵损失函数,w为权重系数。
由于对比损失函数可以使得语音分类模型输出的特征,类内距尽可能小, 类间距尽可能大。因此,采用对比损失函数和交叉熵损失函数融合后的目标损 失函数,可以提高语音分类模型的分类准确度。
步骤S404,基于梯度下降规则调整语音分类模型的模型参数,直至目标损 失函数的损失值收敛至不再减小,以结束对语音分类模型的训练。
其中,梯度下降规则是迭代法的一种,在求解目标损失函数的最小值时, 可以通过该梯度下降规则对语音分类模型的模型参数一步步的迭代求解,得到 最小化的目标损失函数,以确定语音分类模型的参数值,得到训练好的语音分 类模型。
在获取到上述训练好的语音分类模型后,可以使用该语音分类模型对待检 测的音频信息进行检测,即执行上述步骤S201的过程。
在一种可选的实施方式中,如图5所示,步骤S201中将待检测的音频信 息输入语音分类模型以获得第一结果,具体可以包括如下步骤:
步骤S501,提取待检测的音频信息的FBank特征数据,将FBank特征数 据输入卷积神经网络以获取对应于该音频信息的局部特征向量。
步骤S502,将局部特征向量输入循环神经网络,以相应循环神经网络的输 出结果作为注意力机制模型的输入,以计算获得对应于该音频信息的全局特征 向量。
步骤S503,通过融合层收集局部特征向量和全局特征向量,并对局部特征 向量和全局特征向量进行融合处理以获得相应的融合特征向量;其中,融合特 征向量用于确定第一结果,具体可以通过步骤S504确定。
示例性的,融合层的融合过程为:卷积神经网络输出的局部特征向量(B, C1,H,W)和注意力机制模型输出的全局特征向量(B,C2,H,W)进行 融合,得到融合特征向量(B,C1,C2,H,W)。
步骤S504,将融合特征向量依次输入全连接层、Softmax层和输出层,得 到第一结果。
进一步地,为了提高语音检测的准确度,本申请实施例在通过语音分类模 型获得待检测音频信息的第一结果后,还可以对第一结果进行验证,以保证第 一结果的准确性。
在一种可选的实施方式中,可以通过如下方法对语音分类模型的第一结果 进行验证:
若根据第一结果确定音频信息与目标对象是相对应的,则将音频信息输入 声纹识别模型以获得第二结果;其中,第二结果用于对第一结果进行验证,声 纹识别模型可以由音频训练信息训练获得。
具体地,声纹识别模型的训练过程与现有的声纹识别模型的训练过程类似, 在此不再赘述。将音频信息输入声纹识别模型时,可以直接利用上述实施例中 提取的音频信息的FBank特征数据,将FBank特征数据输入声纹识别模型, 通过FBank特征数据可以获取对应的ivector特征数据,具体可以通过声纹识 别模型中的特征提取模块从FBank特征数据中提取对应的ivector特征数据。 这里的ivector特征数据为声学特征,声纹识别模型对ivector特征数据进行识 别,获得第二结果。例如,第二结果可以是音频信息与目标对象相对应的分数 值,当分数值大于第二设定分数阈值时,可以认为音频信息与目标对象相对应, 否则认为音频信息与目标对象不对应,其中的第二设定分数阈值可以与上述第 一设定分数阈值相同,也可以不相同,具体可以根据需要进行设置,本申请对 此不作限定。
需要说明的是,当目标对象包括多个时,根据第一结果确定音频信息与某 个目标对象(具体根据目标对象的标识确定)相对应时,可以将音频信息以及 该目标对象的标识一起输入声纹识别模型,声纹识别模型输出的第二结果可以 是音频信息与该标识对应的目标对象的对应关系。
具体地,声纹识别模型可以包括分数值线性判别分析模块,上述将音频信 息输入声纹识别模型以获得第二结果的步骤可以包括:
声纹识别模型获取FBank特征数据对应的ivector特征数据,并基于ivector 特征数据,通过分数值线性判别分析模块评估音频信息与目标对象之间的匹配 度,以获得相应的第二结果。其中的匹配度可以通过上述分数值评估。
本申请实施例可以采用语音分类模型对待检测的音频信息进行检测后,采 用声纹识别模型进行二次检测,这是由于语音分类模型的召回率较高,其检测 速度远远大于声纹识别模型的检测速度,假设处理同一段音频,语音分类模型 可能需要T秒,而声纹识别模型可能需要10T秒。而声纹识别模型的检测准确 率比语音分类模型要高,考虑到线上的待检测的音频大部分与目标对象不对应, 因此,首先采用语音分类模型进行检测,在检测到与目标对象对应的音频时, 再采用声纹识别模型对该音频进行验证。这样,不仅可以提高语音检测的速度, 以保证线上服务的实时性,还可以保证语音检测的准确度。
例如,线上待检测的音频中只有5%的音频为目标对象的音频,如果一段 音频直接采用声纹识别模型进行检测,需要10T秒,但是如果首先采用语音分 类模型进行检测,在检测到与目标对象对应的音频时,再采用声纹识别模型对 该音频进行验证,则需要T+0.05*10T=1.5T秒,可见,本申请的上述方案可以 大大提高语音检测速度,保证线上服务的实时性。
另外,语音分类模型为了能减少目标对象的漏检测,可以尽可能多的将类 似目标对象语音的音频判定为目标对象音频,被语音分类模型判定为目标对象 音频的音频片段可以继续通过声纹识别模型进行二次判断,可以纠正语音分类 模型的误判。
对于目标对象为多个的情况,语音分类模型在检测到与目标对象相对应的 音频时,可以将该目标对象的标识输入声纹识别模型,这样给了声纹识别模型 较高的先验信息,使得声纹识别模型只需要判断输入的音频是否对应于该标识 对应的目标对象即可,而不需要判断输入的音频与哪个标识对应的目标对象相 对应,这样可以提高声纹识别模型的检测准确率。
下面结合图6对本申请实施例的一种语音检测方法的具体流程进行介绍。
参照图6,语音检测方法的具体流程包括如下步骤:
步骤S601,将待检测的音频信息进行切分,分成时间等长的多个音频片段;
步骤S602,对于每个音频片段,提取该音频片段的FBank特征数据;
步骤S603,将FBank特征数据输入训练好的语音分类模型,输出音频片 段与目标对象相对应的第一分数值;
具体地,语音分类模型可以输出音频片段与多个目标对象相对应的分数值, 此时,可以从中选择分数值最高的目标对象。
步骤S604,判断第一分数值是否大于第一设定分数阈值,若是,则执行步 骤S605,否则执行步骤S608;
步骤S605,将上述音频片段的FBank特征数据以及目标对象的标识输入 声纹识别模型,输出音频片段与该标识对应的目标对象相对应的第二分数值;
步骤S606,判断第二分数值是否大于第二设定分数阈值,若是,则执行步 骤S607,否则执行步骤S606;
步骤S607,输出与音频片段相对应的目标对象的标识;
步骤S608,输出非目标对象。
具体地,根据语音分类模型输出的第一分数值,判断输入的音频片段是否 与目标对象相对应,如果判断与目标对象不对应,则直接输出非领导人,如果 判断与目标对象相对应,则将音频片段的FBank特征数据以及目标对象的标识 输入声纹识别模型,根据语音分类模型输出的第二分数值,进一步判断输入的 音频片段是否与标识对应的目标对象相对应,如果判断与标识对应的目标对象 不对应,则直接输出非领导人,如果判断与标识对应的目标对象相对应,则输 出目标对象的标识。
基于同一发明构思,本申请实施例中还提供了一种语音检测装置,图7示 出了本申请实施例提供的一种语音检测装置的结构示意图。参阅图7,语音检 测装置可以包括:
检测模块71,用于将待检测的音频信息输入语音分类模型以获得第一结果, 第一结果用以确定音频信息与目标对象之间的对应关系;其中,
语音分类模型由音频训练信息训练获得,语音分类模型至少包括依次级联 的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网 络和注意力机制模型各自的输出结果进行融合的融合层。
在一种可选的实施方式中,装置还可以包括:
特征提取模块72,用于对音频训练信息进行特征提取以获得相应的音频特 征数据;
数据增强模块73,用于对音频特征数据进行数据增强处理,并通过增强后 的音频特征数据对语音分类模型进行训练。
在一种可选的实施方式中,特征提取模块72具体还可以用于:
将音频训练信息切分为等长的音频片段,对每个音频片段分别进行特征提 取以获得对应的音频特征数据,音频特征数据包括对应于每个音频片段的原始 特征数据以及FBank特征数据。
在一种可选的实施方式中,数据增强模块73可以至少包括以下之一:
替换子模块,用于在FBank特征数据中随机的选取部分频带上对应的特征 值,将相应的特征值替换为随机值;
交换子模块,用于在FBank特征数据中随机的交换至少两个时间片段上对 应的特征值。
在一种可选的实施方式中,数据增强模块73还可以至少包括以下之一:
添加子模块,用于在原始特征数据中添加随机的噪声特征数据;
拼接子模块,用于将多段的原始特征数据相拼接;
改变子模块,用于改变原始特征数据中的发音速度特征和/或音调特征。
在一种可选的实施方式中,装置还可以包括:
验证模块74,用于根据第一结果确定音频信息与目标对象是相对应的,则 将音频信息输入声纹识别模型以获得第二结果;其中,第二结果用于对第一结 果进行验证,声纹识别模型由音频训练信息训练获得。
在一种可选的实施方式中,音频训练信息包括由第一标签所标注的正训练 样本集和由第二标签所标注的负训练样本集,第一标签表征正训练样本集内的 音频样本与目标对象相对应,第二标签表征负训练样本集内的音频样本与目标 对象不对应;
装置还可以包括模型训练模块70,用于:
基于音频训练信息以及对应于它们的、语音分类模型的输出结果,确定语 音分类模型的对比损失函数和交叉熵损失函数;
融合对比损失函数和交叉熵损失函数,以获得语音分类模型的目标损失函 数;
基于梯度下降规则调整语音分类模型的模型参数,直至目标损失函数的损 失值收敛至不再减小,以结束对语音分类模型的训练。
在一种可选的实施方式中,语音分类模型可以包括多个卷积层相级联而成 的卷积神经网络,循环神经网络为GRU神经网络。
在一种可选的实施方式中,语音分类模型还可以包括:融合层之后依次设 置的全连接层、Softmax层和输出层。
在一种可选的实施方式中,声纹识别模型可以包括分数值线性判别分析模 块,验证模块74具体还可以用于:
通过声纹识别模型获取所述音频信息的FBank特征数据对应的ivector特 征数据,并基于ivector特征数据,通过分数值线性判别分析模块评估音频信息 与所述目标对象之间的匹配度,以获得相应的第二结果。
在一种可选的实施方式中,检测模块71具体还可以用于:
提取待检测的音频信息的FBank特征数据,将FBank特征数据输入卷积 神经网络以获取对应于该音频信息的局部特征向量;
将局部特征向量输入循环神经网络,以相应循环神经网络的输出结果作为 注意力机制模型的输入,以计算获得对应于该音频信息的全局特征向量;
通过融合层收集局部特征向量和全局特征向量,并对局部特征向量和全局 特征向量进行融合处理以获得相应的融合特征向量;其中,融合特征向量用于 确定第一结果。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。 当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或 硬件中实现。
基于上述实施例,本申请实施例还提供一种电子设备,图8示出了本申请 实施例提供的一种电子设备的结构示意图。
参阅图8所示,电子设备可以包括处理器8010(Center Processing Unit, CPU)、存储器8020,还可以包括输入设备8030和输出设备8040等,输入设 备8030可以包括键盘、鼠标、触摸屏等,输出设备8040可以包括显示设备, 如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube, CRT)等。
存储器8020可以包括只读存储器(ROM)和随机存取存储器(RAM), 并向处理器8010提供存储器8020中存储的程序指令和数据。在本申请实施例 中,存储器8020可以用于存储本申请实施例中语音检测的程序。
处理器8010通过调用存储器8020存储的程序指令,处理器8010用于执 行上述任意方法实施例中的语音检测方法,例如图2所示的实施例提供的一种 语音检测方法。
本申请实施例还提供了一种计算机存储介质,该计算机可读存储介质内存 储有计算机程序,计算机设备的处理器从计算机可读存储介质读取该计算机程 序,处理器执行该计算机程序,使得该计算机设备执行上述任意方法实施例中 的语音检测方法。
在一些可能的实施方式中,本申请提供的语音检测方法的各个方面还可以 实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备 上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据 本申请各种示例性实施方式的语音检测方法的步骤,例如,所述计算机设备可 以执行如图2所示的步骤S201中的语音检测的流程。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申 请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及 其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种语音检测方法,其特征在于,包括:
将待检测的音频信息输入语音分类模型以获得第一结果,所述第一结果用以确定所述音频信息与目标对象之间的对应关系;其中,
所述语音分类模型由音频训练信息训练获得,所述语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
2.根据权利要求1所述的方法,其特征在于,所述语音分类模型由所述目标对象的音频训练信息训练获得,包括:
对所述音频训练信息进行特征提取以获得相应的音频特征数据;
对所述音频特征数据进行数据增强处理,并通过增强后的音频特征数据对所述语音分类模型进行训练。
3.根据权利要求2所述的方法,其特征在于,对所述音频训练信息进行特征提取以获得相应的音频特征数据的步骤包括:
将所述音频训练信息切分为等长的音频片段,对每个所述音频片段分别进行特征提取以获得对应的音频特征数据,所述音频特征数据包括对应于每个音频片段的原始特征数据以及FBank特征数据。
4.根据权利要求3所述的方法,其特征在于,对所述音频特征数据进行数据增强处理的步骤至少包括以下之一:
在FBank特征数据中随机的选取部分频带上对应的特征值,将相应的特征值替换为随机值;
在FBank特征数据中随机的交换至少两个时间片段上对应的特征值。
5.根据权利要求3所述的方法,其特征在于,对所述音频特征数据进行数据增强处理的步骤至少包括以下之一:
在所述原始特征数据中添加随机的噪声特征数据;
将多段所述的原始特征数据相拼接;
改变所述原始特征数据中的发音速度特征和/或音调特征。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述第一结果确定所述音频信息与目标对象是相对应的,则将所述音频信息输入声纹识别模型以获得第二结果;其中,所述第二结果用于对所述第一结果进行验证,所述声纹识别模型由音频训练信息训练获得。
7.根据权利要求1所述的方法,其特征在于,所述音频训练信息包括由第一标签所标注的正训练样本集和由第二标签所标注的负训练样本集,所述第一标签表征所述正训练样本集内的音频样本与所述目标对象相对应,所述第二标签表征所述负训练样本集内的音频样本与所述目标对象不对应;
所述语音分类模型由所述目标对象的音频训练信息训练获得,还包括:
基于所述音频训练信息以及对应于它们的、所述语音分类模型的输出结果,确定所述语音分类模型的对比损失函数和交叉熵损失函数;
融合所述对比损失函数和所述交叉熵损失函数,以获得所述语音分类模型的目标损失函数;
基于梯度下降规则调整所述语音分类模型的模型参数,直至所述目标损失函数的损失值收敛至不再减小,以结束对所述语音分类模型的训练。
8.一种语音检测装置,其特征在于,包括:
检测模块,用于将待检测的音频信息输入语音分类模型以获得第一结果,所述第一结果用以确定所述音频信息与目标对象之间的对应关系;其中,
所述语音分类模型由音频训练信息训练获得,所述语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~7任一项所述的方法。
CN202011327815.2A 2020-11-24 2020-11-24 语音检测方法、装置、电子设备和存储介质 Active CN112466298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011327815.2A CN112466298B (zh) 2020-11-24 2020-11-24 语音检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011327815.2A CN112466298B (zh) 2020-11-24 2020-11-24 语音检测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112466298A true CN112466298A (zh) 2021-03-09
CN112466298B CN112466298B (zh) 2023-08-11

Family

ID=74799698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011327815.2A Active CN112466298B (zh) 2020-11-24 2020-11-24 语音检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112466298B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011363A (zh) * 2021-03-30 2021-06-22 福州市长乐区极微信息科技有限公司 隐私安全的音频标注处理方法
CN113066507A (zh) * 2021-03-15 2021-07-02 上海明略人工智能(集团)有限公司 端到端说话人分离方法、系统及设备
CN113436609A (zh) * 2021-07-06 2021-09-24 南京硅语智能科技有限公司 语音转换模型及其训练方法、语音转换方法及系统
CN113506566A (zh) * 2021-06-22 2021-10-15 荣耀终端有限公司 声音检测模型训练方法、数据处理方法以及相关装置
CN113593603A (zh) * 2021-07-27 2021-11-02 浙江大华技术股份有限公司 音频类别的确定方法、装置、存储介质及电子装置
CN114429766A (zh) * 2022-01-29 2022-05-03 北京百度网讯科技有限公司 调整播放音量的方法、装置、设备以及存储介质
CN114519803A (zh) * 2022-01-24 2022-05-20 东莞理工学院 一种基于迁移学习的小样本目标识别方法
CN114637896A (zh) * 2022-05-23 2022-06-17 杭州闪马智擎科技有限公司 数据的审核方法和装置、存储介质及电子装置
CN115273892A (zh) * 2022-07-27 2022-11-01 腾讯科技(深圳)有限公司 音频处理方法、装置、设备、存储介质和计算机程序产品
CN116612783A (zh) * 2023-07-17 2023-08-18 联想新视界(北京)科技有限公司 一种声音识别方法、装置、电子设备及存储介质
CN116935889A (zh) * 2023-09-14 2023-10-24 北京远鉴信息技术有限公司 一种音频类别的确定方法、装置、电子设备及存储介质
CN117275519A (zh) * 2023-11-22 2023-12-22 珠海高凌信息科技股份有限公司 一种声音类型识别修正方法、系统、装置及介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997096A (ja) * 1995-09-28 1997-04-08 Victor Co Of Japan Ltd 音声認識用音響モデル生成方法
US20170011738A1 (en) * 2015-07-09 2017-01-12 Google Inc. Generating acoustic models
CN107437417A (zh) * 2017-08-02 2017-12-05 中国科学院自动化研究所 基于循环神经网络语音识别中语音数据增强方法及装置
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
US20190172480A1 (en) * 2017-12-05 2019-06-06 Synaptics Incorporated Voice activity detection systems and methods
CN110019931A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 音频分类方法、装置、智能设备和存储介质
CN110364165A (zh) * 2019-07-18 2019-10-22 青岛民航凯亚系统集成有限公司 航班动态信息语音查询方法
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN110728991A (zh) * 2019-09-06 2020-01-24 南京工程学院 一种改进的录音设备识别算法
US20200043504A1 (en) * 2017-09-29 2020-02-06 Tencent Technology (Shenzhen) Company Limited Voice identity feature extractor and classifier training
CN110827813A (zh) * 2019-10-18 2020-02-21 清华大学深圳国际研究生院 一种基于多模态特征的重音检测方法及系统
CN110853618A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备
CN111372123A (zh) * 2020-03-03 2020-07-03 南京信息工程大学 基于从局部到全局的视频时序片段提取方法
CN111402920A (zh) * 2020-03-10 2020-07-10 同盾控股有限公司 娇喘音频的识别方法及装置、终端、存储介质
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997096A (ja) * 1995-09-28 1997-04-08 Victor Co Of Japan Ltd 音声認識用音響モデル生成方法
US20170011738A1 (en) * 2015-07-09 2017-01-12 Google Inc. Generating acoustic models
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN107437417A (zh) * 2017-08-02 2017-12-05 中国科学院自动化研究所 基于循环神经网络语音识别中语音数据增强方法及装置
US20200043504A1 (en) * 2017-09-29 2020-02-06 Tencent Technology (Shenzhen) Company Limited Voice identity feature extractor and classifier training
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法
US20190172480A1 (en) * 2017-12-05 2019-06-06 Synaptics Incorporated Voice activity detection systems and methods
CN110019931A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 音频分类方法、装置、智能设备和存储介质
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN110364165A (zh) * 2019-07-18 2019-10-22 青岛民航凯亚系统集成有限公司 航班动态信息语音查询方法
CN110728991A (zh) * 2019-09-06 2020-01-24 南京工程学院 一种改进的录音设备识别算法
CN110827813A (zh) * 2019-10-18 2020-02-21 清华大学深圳国际研究生院 一种基于多模态特征的重音检测方法及系统
CN110853618A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备
CN111372123A (zh) * 2020-03-03 2020-07-03 南京信息工程大学 基于从局部到全局的视频时序片段提取方法
CN111402920A (zh) * 2020-03-10 2020-07-10 同盾控股有限公司 娇喘音频的识别方法及装置、终端、存储介质
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066507B (zh) * 2021-03-15 2024-04-19 上海明略人工智能(集团)有限公司 端到端说话人分离方法、系统及设备
CN113066507A (zh) * 2021-03-15 2021-07-02 上海明略人工智能(集团)有限公司 端到端说话人分离方法、系统及设备
CN113011363A (zh) * 2021-03-30 2021-06-22 福州市长乐区极微信息科技有限公司 隐私安全的音频标注处理方法
CN113011363B (zh) * 2021-03-30 2024-04-30 闽江学院 隐私安全的音频标注处理方法
CN113506566A (zh) * 2021-06-22 2021-10-15 荣耀终端有限公司 声音检测模型训练方法、数据处理方法以及相关装置
CN113506566B (zh) * 2021-06-22 2022-04-15 荣耀终端有限公司 声音检测模型训练方法、数据处理方法以及相关装置
CN113436609A (zh) * 2021-07-06 2021-09-24 南京硅语智能科技有限公司 语音转换模型及其训练方法、语音转换方法及系统
CN113593603A (zh) * 2021-07-27 2021-11-02 浙江大华技术股份有限公司 音频类别的确定方法、装置、存储介质及电子装置
CN114519803A (zh) * 2022-01-24 2022-05-20 东莞理工学院 一种基于迁移学习的小样本目标识别方法
CN114429766A (zh) * 2022-01-29 2022-05-03 北京百度网讯科技有限公司 调整播放音量的方法、装置、设备以及存储介质
CN114637896A (zh) * 2022-05-23 2022-06-17 杭州闪马智擎科技有限公司 数据的审核方法和装置、存储介质及电子装置
CN114637896B (zh) * 2022-05-23 2022-09-09 杭州闪马智擎科技有限公司 数据的审核方法和装置、存储介质及电子装置
CN115273892A (zh) * 2022-07-27 2022-11-01 腾讯科技(深圳)有限公司 音频处理方法、装置、设备、存储介质和计算机程序产品
CN116612783A (zh) * 2023-07-17 2023-08-18 联想新视界(北京)科技有限公司 一种声音识别方法、装置、电子设备及存储介质
CN116612783B (zh) * 2023-07-17 2023-10-27 联想新视界(北京)科技有限公司 一种声音识别方法、装置、电子设备及存储介质
CN116935889A (zh) * 2023-09-14 2023-10-24 北京远鉴信息技术有限公司 一种音频类别的确定方法、装置、电子设备及存储介质
CN116935889B (zh) * 2023-09-14 2023-11-24 北京远鉴信息技术有限公司 一种音频类别的确定方法、装置、电子设备及存储介质
CN117275519A (zh) * 2023-11-22 2023-12-22 珠海高凌信息科技股份有限公司 一种声音类型识别修正方法、系统、装置及介质
CN117275519B (zh) * 2023-11-22 2024-02-13 珠海高凌信息科技股份有限公司 一种声音类型识别修正方法、系统、装置及介质

Also Published As

Publication number Publication date
CN112466298B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN112466298B (zh) 语音检测方法、装置、电子设备和存储介质
US20230041233A1 (en) Image recognition method and apparatus, computing device, and computer-readable storage medium
US20200097820A1 (en) Method and apparatus for classifying class, to which sentence belongs, using deep neural network
CN111462735A (zh) 语音检测方法、装置、电子设备及存储介质
KR20190013011A (ko) 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
CN107844481B (zh) 识别文本检错方法及装置
Demertzis et al. Extreme deep learning in biosecurity: the case of machine hearing for marine species identification
CN110363220B (zh) 行为类别检测方法、装置、电子设备和计算机可读介质
CN112380377A (zh) 一种音频推荐方法、装置、电子设备及计算机存储介质
CN111462761A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN115050077A (zh) 情绪识别方法、装置、设备及存储介质
CN113011646A (zh) 一种数据处理方法、设备以及可读存储介质
CN113962965A (zh) 图像质量评价方法、装置、设备以及存储介质
CN111816170A (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
US11244166B2 (en) Intelligent performance rating
CN109190649B (zh) 一种深度学习网络模型服务器的优化方法和装置
CN113312445B (zh) 数据处理方法、模型构建方法、分类方法及计算设备
CN112347990B (zh) 基于多模态智能审稿系统及方法
CN115130650A (zh) 一种模型训练方法及相关装置
CN115171042A (zh) 一种学生课堂行为的识别方法、装置、终端设备及介质
CN115114462A (zh) 模型训练方法、装置、多媒体推荐方法、设备及存储介质
CN114333844A (zh) 声纹识别方法、装置、介质及设备
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
KR20210099445A (ko) 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210922

Address after: 310052 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd.

Address before: 310052 Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province, 4, 7 stories

Applicant before: NETEASE (HANGZHOU) NETWORK Co.,Ltd.

GR01 Patent grant
GR01 Patent grant