CN110246506A - 人声智能检测方法、装置及计算机可读存储介质 - Google Patents
人声智能检测方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110246506A CN110246506A CN201910468133.4A CN201910468133A CN110246506A CN 110246506 A CN110246506 A CN 110246506A CN 201910468133 A CN201910468133 A CN 201910468133A CN 110246506 A CN110246506 A CN 110246506A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- training set
- input
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 109
- 238000001514 detection method Methods 0.000 claims abstract description 83
- 238000009432 framing Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 35
- 230000009467 reduction Effects 0.000 claims description 25
- 238000013480 data collection Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种人工智能技术,揭露了一种人声智能检测方法,包括:接收包括正样本集、负样本集的训练集和标签集,对所述训练集进行包括预加重和加窗分帧的预处理操作后输入至人声检测模型,将所述标签集输入至损失函数,所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,将所述训练值输入至所述损失函数,所述损失函数计算得到损失值,并判断所述损失值与预设阈值的大小,直至所述损失值小于所述预设阈值时,所述人声检测模型退出训练,接收输入的声音数据,利用所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。本发明还提出一种人声智能检测装置以及一种计算机可读存储介质。本发明可以实现高效的人声检测。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于语音数据输入后可智能化检测是否有人声的方法、装置及计算机可读存储介质。
背景技术
视频监控系统目前已得到广泛的应用,然而目前多数视频监控系统没有对人声进行检测。进一步地,国内外的人声检测领域研究的主要内容包括识别不同人的声音特征以及不同语义特征的人声识别和不同情感状态特征的人声识别等,但多数研究的共性是已知是人所发出的说话声音的前提下,研究所述人声的某一方面特征,很少有直接对是否是人声进行检测的研究,且由于人声与环境之间的多变性,使得多数人声检测方法在实际应用中效果不理想,人声检测的效果有待及时解决。
发明内容
本发明提供一种人声智能检测方法、装置及计算机可读存储介质,其主要目的在于当用户输入语音数据时,给用户判断所述语音数据是否包括人声的精准结果。
为实现上述目的,本发明提供的一种人声智能检测方法,包括:
数据处理层接收包括正样本集和负样本集的训练集和标签集,其中,所述正样本集包括人声数据以及所述负样本集不包括人声数据,对所述训练集进行包括预加重和加窗分帧的预处理操作,将所述预处理操作完成的训练集输入至人声检测模型,将所述标签集输入至损失函数;
所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,并将所述训练值输入至所述损失函数,所述损失函数基于所述标签集和所述训练值计算得到损失值,判断所述损失值与预设阈值的大小,直至所述损失值小于所述预设阈值时,所述人声检测模型退出训练;
接收输入的声音数据并输入至所述人声检测模型,所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。
可选地,对所述训练集进行包括预加重和加窗分帧的预处理操作,包括:
基于数字滤波器对所述训练集的声音频率进行预加重,所述预加重的方法为:
H(z)=1-μz-1
其中,H(z)为所述预加重后的训练集,z为所述声音频率,μ为预加重系数;
基于所述预加重后的训练集,根据汉明窗法进行加窗分帧处理,所述汉明窗法ω(n)为:
其中,n为所述预加重后的训练集,N为所述汉明窗法的窗长,cos为余弦函数。
可选地,对所述训练集进行包括预加重和加窗分帧的预处理操作,包括:
基于数字滤波器对所述训练集的声音频率进行预加重,所述预加重的方法为:
H(z)=1-μz-1
其中,H(z)为所述预加重后的训练集,z为所述声音频率,μ为预加重系数;
基于所述预加重后的训练集,根据汉明窗法进行加窗分帧处理,所述汉明窗法ω(n)为:
其中,n为所述预加重后的训练集,N为所述汉明窗法的窗长,cos为余弦函数。
可选地,
所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,包括:
将所述训练集输入至所述人声检测模型的第一层卷积层进行卷积操作,得到第一卷积数据集,并将所述第一卷积数据集输入至第一层池化层;
所述第一层池化层对所述第一卷积数据集进行最大化池化操作,得到第一降维数据集,并将所述第一降维数据集输入至第二层卷积层进行所述卷积操作,得到第二卷积数据集,将所述第二卷积数据集输入至第二层池化层进行所述最大化池化操作,得到第二降维数据集,并将所述第二降维数据集输入至全连接层;
所述全连接层结合激活函数对所述第二降维数据集执行计算,得到所述训练值。
可选地,所述卷积操作为:
其中ω’为输出数据,ω为输入数据,k为卷积核的大小,s为所述卷积操作的步幅,p为数据补零矩阵;
所述激活函数为:
其中y为所述第二降维数据集,e为无限不循环小数。
此外,为实现上述目的,本发明还提供一种人声智能检测装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的人声智能检测程序,所述人声智能检测程序被所述处理器执行时实现如下步骤:
数据处理层接收包括正样本集和负样本集的训练集和标签集,其中,所述正样本集包括人声数据以及所述负样本集不包括人声数据,对所述训练集进行包括预加重和加窗分帧的预处理操作,将所述预处理操作完成的训练集输入至人声检测模型,将所述标签集输入至损失函数;
所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,并将所述训练值输入至所述损失函数,所述损失函数基于所述标签集和所述训练值计算得到损失值,判断所述损失值与预设阈值的大小,直至所述损失值小于所述预设阈值时,所述人声检测模型退出训练;
接收输入的声音数据并输入至所述人声检测模型,所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。
可选地,对所述训练集进行包括预加重和加窗分帧的预处理操作,包括:
基于数字滤波器对所述训练集的声音频率进行预加重,所述预加重的方法为:
H(z)=1-μz-1
其中,H(z)为所述预加重后的训练集,z为所述声音频率,μ为预加重系数;
基于所述预加重后的训练集,根据汉明窗法进行加窗分帧处理,所述汉明窗法ω(n)为:
其中,n为所述预加重后的训练集,N为所述汉明窗法的窗长,cos为余弦函数。
可选地,对所述训练集进行包括预加重和加窗分帧的预处理操作,包括:
基于数字滤波器对所述训练集的声音频率进行预加重,所述预加重的方法为:
H(z)=1-μz-1
其中,H(z)为所述预加重后的训练集,z为所述声音频率,μ为预加重系数;
基于所述预加重后的训练集,根据汉明窗法进行加窗分帧处理,所述汉明窗法ω(n)为:
其中,n为所述预加重后的训练集,N为所述汉明窗法的窗长,cos为余弦函数。
可选地,
所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,包括:
将所述训练集输入至所述人声检测模型的第一层卷积层进行卷积操作,得到第一卷积数据集,并将所述第一卷积数据集输入至第一层池化层;
所述第一层池化层对所述第一卷积数据集进行最大化池化操作,得到第一降维数据集,并将所述第一降维数据集输入至第二层卷积层进行所述卷积操作,得到第二卷积数据集,将所述第二卷积数据集输入至第二层池化层进行所述最大化池化操作,得到第二降维数据集,并将所述第二降维数据集输入至全连接层;
所述全连接层结合激活函数对所述第二降维数据集执行计算,得到所述训练值。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有人声智能检测程序,所述人声智能检测程序可被一个或者多个处理器执行,以实现如上所述的人声智能检测方法的步骤。
本发明的人声检测模型使用卷积神经网络,所述卷积神经网络基于局部感知和权值共享思想保留了语音间的关联信息,可大大减少所需参数的数量,且通过池化操作进一步缩减网络参数数量,提高模型的鲁棒性,因此本发明提出的人声智能检测方法、装置及计算机可读存储介质可以实现高效的人声检测判断。
附图说明
图1为本发明一实施例提供的人声智能检测方法的流程示意图;
图2为本发明一实施例提供的人声智能检测装置的内部结构示意图;
图3为本发明一实施例提供的人声智能检测装置中人声智能检测程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种人声智能检测方法。参照图1所示,为本发明一实施例提供的人声智能检测方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,人声智能检测方法包括:
S1、数据处理层接收包括正样本集和负样本集的训练集和标签集,其中,所述正样本集包括人声数据以及所述负样本集不包括人声数据,对所述训练集进行包括预加重和加窗分帧的预处理操作,将所述预处理操作完成的训练集输入至人声检测模型,将所述标签集输入至损失函数。
本发明较佳实施例,所述包括人声数据的正样本集是在安静的环境下通过麦克风录取,所述麦克风录取的采样频率16kHz、采样大小16bits,且参与录取的人员至少录制两段不同人声数据,一段使用标准普通话录取,另一段使用所述录取人员的地方方言录取。所述正样本集内每段人声数据时长不少于10秒。
本发明较佳实施例,所述负样本集来源于音频数据集AudioSet中包括多条人工标记的声音剪辑片段,所述AudioSet是目前开放的大规模且完善的音频数据集,进一步地,所述多条人工标记的声音剪辑片段包括2084320条人工标记的每段10秒长度的声音剪辑片段。
本发明较佳实施所述预加重预处理操作是提高所述训练集的高频音域部分,使所述训练集的音域低频到音域高频的信号频谱变得平坦,同时还能抑制随机噪声和直流漂移的影响,进一步地,所述预加重是基于数字滤波器对所述训练集的声音频率进行预加重,所述预加重即所述预加重的方法为:
H(z)=1-μz-1
其中,H(z)为所述预加重后的训练集,z为所述声音频率,μ为预加重系数;
本发明较佳实施所述加窗分帧是根据在小范围的时间内,所述训练集的音频信号保持不变的特点,对所述训练集的音频信号进行分帧处理,进一地,所述加窗分帧基于所述预加重后的训练集,根据汉明窗法进行加窗分帧处理,所述汉明窗法ω(n)为:
其中,n为所述预加重后的训练集,N为所述汉明窗法的窗长,cos为余弦函数。
S2、所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,并将所述训练值输入至所述损失函数,所述损失函数基于所述标签集和所述训练值计算得到损失值,判断所述损失值与预设阈值的大小,直至所述损失值小于所述预设阈值时,所述人声检测模型退出训练。
本发明较佳实施例所述人声检测模型接收所述预处理操作完成的训练集,将所述训练集输入至第一层卷积层,所述第一层卷积层进行卷积操作后得到卷积数据集输入至第一层池化层;其后,所述第一层池化层对所述卷积数据集进行最大化池化操作后得到降维数据集输入至第二层卷积层,所述第二层卷积层进行所述卷积操作后输入至第二层池化层进行所述最大化池化操作,直到最终输入至全连接层;所述全连接层结合激活函数计算得到所述训练值;
本发明较佳实施例所述卷积操作为:
其中ω′为输出数据,ω为输入数据,k为卷积核的大小,s为卷积操作的步幅,p为数据补零矩阵;
本发明较佳实施例所述激活函数为:
其中y为所述第二降维数据集,e为无限不循环小数。
本发明较佳实施例所述损失值T为:
其中,n为所述训练集的大小,yt为所述训练值,μt为所述标签集。
S3、接收输入的声音数据并输入至所述人声检测模型,所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。
发明还提供一种人声智能检测装置。参照图2所示,为本发明一实施例提供的人声智能检测装置的内部结构示意图。
在本实施例中,所述人声智能检测装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该人声智能检测装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是人声智能检测装置1的内部存储单元,例如该人声智能检测装置1的硬盘。存储器11在另一些实施例中也可以是人声智能检测装置1的外部存储设备,例如人声智能检测装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括人声智能检测装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于人声智能检测装置1的应用软件及各类数据,例如人声智能检测程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行人声智能检测程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在人声智能检测装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及人声智能检测程序01的人声智能检测装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对人声智能检测装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有人声智能检测程序01;处理器12执行存储器11中存储的人声智能检测程序01时实现如下步骤:
步骤一、数据处理层接收包括正样本集和负样本集的训练集和标签集,其中,所述正样本集包括人声数据以及所述负样本集不包括人声数据,对所述训练集进行包括预加重和加窗分帧的预处理操作,将所述预处理操作完成的训练集输入至人声检测模型,将所述标签集输入至损失函数。
本发明较佳实施例,所述包括人声数据的正样本集是在安静的环境下通过麦克风录取,所述麦克风录取的采样频率16kHz、采样大小16bits,且参与录取的人员至少录制两段不同人声数据,一段使用标准普通话录取,另一段使用所述录取人员的地方方言录取。所述正样本集内每段人声数据时长不少于10秒。
本发明较佳实施例,所述负样本集来源于音频数据集AudioSet中包括多条人工标记的声音剪辑片段,所述AudioSet是目前开放的大规模且完善的音频数据集,进一步地,所述多条人工标记的声音剪辑片段包括2084320条人工标记的每段10秒长度的声音剪辑片段。
本发明较佳实施所述预加重预处理操作是提高所述训练集的高频音域部分,使所述训练集的音域低频到音域高频的信号频谱变得平坦,同时还能抑制随机噪声和直流漂移的影响,进一步地,所述预加重是基于数字滤波器对所述训练集的声音频率进行预加重,所述预加重即所述预加重的方法为:
H(z)=1-μz-1
其中,H(z)为所述预加重后的训练集,z为所述声音频率,μ为预加重系数;
本发明较佳实施所述加窗分帧是根据在小范围的时间内,所述训练集的音频信号保持不变的特点,对所述训练集的音频信号进行分帧处理,进一地,所述加窗分帧基于所述预加重后的训练集,根据汉明窗法进行加窗分帧处理,所述汉明窗法ω(n)为:
其中,n为所述预加重后的训练集,N为所述汉明窗法的窗长,cos为余弦函数。
步骤二、所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,并将所述训练值输入至所述损失函数,所述损失函数基于所述标签集和所述训练值计算得到损失值,判断所述损失值与预设阈值的大小,直至所述损失值小于所述预设阈值时,所述人声检测模型退出训练。
本发明较佳实施例所述人声检测模型接收所述预处理操作完成的训练集,将所述训练集输入至第一层卷积层,所述第一层卷积层进行卷积操作后得到卷积数据集输入至第一层池化层;其后,所述第一层池化层对所述卷积数据集进行最大化池化操作后得到降维数据集输入至第二层卷积层,所述第二层卷积层进行所述卷积操作后输入至第二层池化层进行所述最大化池化操作,直到最终输入至全连接层;所述全连接层结合激活函数计算得到所述训练值;
本发明较佳实施例所述卷积操作为:
其中ω’为输出数据,ω为输入数据,k为卷积核的大小,s为卷积操作的步幅,p为数据补零矩阵;
本发明较佳实施例所述激活函数为:
其中y为所述第二降维数据集,e为无限不循环小数。
本发明较佳实施例所述损失值T为:
其中,n为所述训练集的大小,yt为所述训练值,μt为所述标签集。
步骤三、接收输入的声音数据并输入至所述人声检测模型,所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。
可选地,在其他实施例中,人声智能检测程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述人声智能检测程序在人声智能检测装置中的执行过程。
例如,参照图3所示,为本发明人声智能检测装置一实施例中的人声智能检测程序的程序模块示意图,该实施例中,所述人声智能检测程序可以被分割为数据接收模块10、模型训练模块20、人声结果输出模块30,示例性地:
所述数据接收模块10用于:接收包括人声数据的正样本集、不包括人声数据的负样本集和标签集,所述正样本集和所述负样本集统称训练集,对所述训练集进行包括预加重和加窗分帧的预处理操作,将所述预处理操作完成的训练集输入至人声检测模型,将所述标签集输入至损失函数。
所述模型训练模块20用于:所述人声检测模型接收所述预处理操作完成的训练集进行训练得到训练值,并将所述训练值输入至所述损失函数,所述损失函数基于所述标签集和所述训练值计算得到损失值,判断所述损失值与预设阈值的大小,直至所述损失值小于所述预设阈值时,所述人声检测模型退出训练。
所述人声结果输出模块30用于:接收输入的声音数据并输入至所述人声检测模型,所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。
上述数据接收模块10、模型训练模块20、人声结果输出模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有人声智能检测程序,所述人声智能检测程序可被一个或多个处理器执行,以实现如下操作:
接收包括人声数据的正样本集、不包括人声数据的负样本集和标签集,所述正样本集和所述负样本集统称训练集,对所述训练集进行包括预加重和加窗分帧的预处理操作,将所述预处理操作完成的训练集输入至人声检测模型,将所述标签集输入至损失函数。
所述人声检测模型接收所述预处理操作完成的训练集进行训练得到训练值,并将所述训练值输入至所述损失函数,所述损失函数基于所述标签集和所述训练值计算得到损失值,判断所述损失值与预设阈值的大小,直至所述损失值小于所述预设阈值时,所述人声检测模型退出训练。
接收输入的声音数据并输入至所述人声检测模型,所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。
本发明计算机可读存储介质具体实施方式与上述人声智能检测装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种人声智能检测方法,其特征在于,所述方法包括:
数据处理层接收包括正样本集和负样本集的训练集和标签集,其中,所述正样本集包括人声数据以及所述负样本集不包括人声数据,对所述训练集进行包括预加重和加窗分帧的预处理操作,将所述预处理操作完成的训练集输入至人声检测模型,将所述标签集输入至损失函数;
所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,并将所述训练值输入至所述损失函数,所述损失函数基于所述标签集和所述训练值计算得到损失值,判断所述损失值与预设阈值的大小,直至所述损失值小于所述预设阈值时,所述人声检测模型退出训练;
接收输入的声音数据并输入至所述人声检测模型,利用所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。
2.如权利要求1所述的人声智能检测方法,其特征在于,所述数据处理层接收包括正样本集和负样本集的训练集和标签集,包括:
提取预设音频数据集AudioSet中包括的多条人工标记的声音剪辑片段做为所述负样本集;
录制多种采样频率的人声,构建所述正样本集;
基于所述正样本集和所述负样本集建立对应的标签集。
3.如权利要求2所述的人声智能检测方法,其特征在于,对所述训练集进行包括预加重和加窗分帧的预处理操作,包括:
基于数字滤波器对所述训练集的声音频率进行预加重,所述预加重的方法为:
H(z)=1-μz-1
其中,H(z)为所述预加重后的训练集,z为所述声音频率,μ为预加重系数;
基于所述预加重后的训练集,根据汉明窗法进行加窗分帧处理,所述汉明窗法ω(n)为:
其中,n为所述预加重后的训练集,N为所述汉明窗法的窗长,cos为余弦函数。
4.如权利要求1至3中任意一项所述的人声智能检测方法,其特征在于,所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,包括:
将所述训练集输入至所述人声检测模型的第一层卷积层进行卷积操作,得到第一卷积数据集,并将所述第一卷积数据集输入至第一层池化层;
所述第一层池化层对所述第一卷积数据集进行最大化池化操作,得到第一降维数据集,并将所述第一降维数据集输入至第二层卷积层进行所述卷积操作,得到第二卷积数据集,将所述第二卷积数据集输入至第二层池化层进行所述最大化池化操作,得到第二降维数据集,并将所述第二降维数据集输入至全连接层;
所述全连接层结合激活函数对所述第二降维数据集执行计算,得到所述训练值。
5.如权利要求4所述的人声智能检测方法,其特征在于,所述卷积操作为:
其中ω’为输出数据,ω为输入数据,k为卷积核的大小,s为所述卷积操作的步幅,p为数据补零矩阵;
所述激活函数为:
其中y为所述第二降维数据集,e为无限不循环小数。
6.一种人声智能检测装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的人声智能检测程序,所述人声智能检测程序被所述处理器执行时实现如下步骤:
数据处理层接收包括正样本集和负样本集的训练集和标签集,其中,所述正样本集包括人声数据以及所述负样本集不包括人声数据,对所述训练集进行包括预加重和加窗分帧的预处理操作,将所述预处理操作完成的训练集输入至人声检测模型,将所述标签集输入至损失函数;
所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,并将所述训练值输入至所述损失函数,所述损失函数基于所述标签集和所述训练值计算得到损失值,判断所述损失值与预设阈值的大小,直至所述损失值小于所述预设阈值时,所述人声检测模型退出训练;
接收输入的声音数据并输入至所述人声检测模型,所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。
7.如权利要求6所述的人声智能检测装置,其特征在于,所述数据处理层接收包括正样本集和负样本集的训练集和标签集,包括:
提取预设音频数据集AudioSet中包括的多条人工标记的声音剪辑片段做为所述负样本集;
录制多种采样频率的人声,构建所述正样本集;
基于所述正样本集和所述负样本集建立对应的标签集。
8.如权利要求7所述的人声智能检测装置,其特征在于,对所述训练集进行包括预加重和加窗分帧的预处理操作,包括:
基于数字滤波器对所述训练集的声音频率进行预加重,所述预加重的方法为:
H(z)=1-μz-1
其中,H(z)为所述预加重后的训练集,z为所述声音频率,μ为预加重系数;
基于所述预加重后的训练集,根据汉明窗法进行加窗分帧处理,所述汉明窗法ω(n)为:
其中,n为所述预加重后的训练集,N为所述汉明窗法的窗长,cos为余弦函数。
9.如权利要求6至8任意一项所述的人声智能检测装置,其特征在于,所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值,包括:
将所述训练集输入至所述人声检测模型的第一层卷积层进行卷积操作,得到第一卷积数据集,并将所述第一卷积数据集输入至第一层池化层;
所述第一层池化层对所述第一卷积数据集进行最大化池化操作,得到第一降维数据集,并将所述第一降维数据集输入至第二层卷积层进行所述卷积操作,得到第二卷积数据集,将所述第二卷积数据集输入至第二层池化层进行所述最大化池化操作,得到第二降维数据集,并将所述第二降维数据集输入至全连接层;
所述全连接层结合激活函数对所述第二降维数据集执行计算,得到所述训练值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有人声智能检测程序,所述人声智能检测程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的人声智能检测方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910468133.4A CN110246506A (zh) | 2019-05-29 | 2019-05-29 | 人声智能检测方法、装置及计算机可读存储介质 |
PCT/CN2019/117352 WO2020238046A1 (zh) | 2019-05-29 | 2019-11-12 | 人声智能检测方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910468133.4A CN110246506A (zh) | 2019-05-29 | 2019-05-29 | 人声智能检测方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110246506A true CN110246506A (zh) | 2019-09-17 |
Family
ID=67885602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910468133.4A Pending CN110246506A (zh) | 2019-05-29 | 2019-05-29 | 人声智能检测方法、装置及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110246506A (zh) |
WO (1) | WO2020238046A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751941A (zh) * | 2019-09-18 | 2020-02-04 | 平安科技(深圳)有限公司 | 语音合成模型的生成方法、装置、设备及存储介质 |
CN110765868A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 唇读模型的生成方法、装置、设备及存储介质 |
CN111221942A (zh) * | 2020-01-09 | 2020-06-02 | 平安科技(深圳)有限公司 | 智能化文本对话生成方法、装置及计算机可读存储介质 |
CN111243609A (zh) * | 2020-01-10 | 2020-06-05 | 平安科技(深圳)有限公司 | 有效语音智能检测方法、装置及计算机可读存储介质 |
CN111401147A (zh) * | 2020-02-26 | 2020-07-10 | 中国平安人寿保险股份有限公司 | 基于视频行为数据的智能分析方法、装置及存储介质 |
WO2020238046A1 (zh) * | 2019-05-29 | 2020-12-03 | 平安科技(深圳)有限公司 | 人声智能检测方法、装置及计算机可读存储介质 |
CN113936694A (zh) * | 2021-12-17 | 2022-01-14 | 珠海普林芯驰科技有限公司 | 人声实时检测方法、计算机装置及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013050604A (ja) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびそのプログラム |
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
CN107393542A (zh) * | 2017-06-28 | 2017-11-24 | 北京林业大学 | 一种基于双通道神经网络的鸟类物种识别方法 |
CN108665005A (zh) * | 2018-05-16 | 2018-10-16 | 南京信息工程大学 | 一种利用dcgan提高基于cnn图像识别性能的方法 |
CN108922561A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109754812A (zh) * | 2019-01-30 | 2019-05-14 | 华南理工大学 | 一种基于卷积神经网络的防录音攻击检测的声纹认证方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016003299A1 (en) * | 2014-07-04 | 2016-01-07 | Intel Corporation | Replay attack detection in automatic speaker verification systems |
CN105374357B (zh) * | 2015-11-23 | 2022-03-29 | 青岛海尔智能技术研发有限公司 | 一种语音识别方法、装置及语音控制系统 |
CN108806698A (zh) * | 2018-03-15 | 2018-11-13 | 中山大学 | 一种基于卷积神经网络的伪装语音识别方法 |
CN108986824B (zh) * | 2018-07-09 | 2022-12-27 | 宁波大学 | 一种回放语音检测方法 |
CN109350032B (zh) * | 2018-10-16 | 2022-03-18 | 武汉中旗生物医疗电子有限公司 | 一种分类方法、系统、电子设备及存储介质 |
CN109599117A (zh) * | 2018-11-14 | 2019-04-09 | 厦门快商通信息技术有限公司 | 一种音频数据识别方法及人声语音防重放识别系统 |
CN110246506A (zh) * | 2019-05-29 | 2019-09-17 | 平安科技(深圳)有限公司 | 人声智能检测方法、装置及计算机可读存储介质 |
-
2019
- 2019-05-29 CN CN201910468133.4A patent/CN110246506A/zh active Pending
- 2019-11-12 WO PCT/CN2019/117352 patent/WO2020238046A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013050604A (ja) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびそのプログラム |
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
CN107393542A (zh) * | 2017-06-28 | 2017-11-24 | 北京林业大学 | 一种基于双通道神经网络的鸟类物种识别方法 |
CN108665005A (zh) * | 2018-05-16 | 2018-10-16 | 南京信息工程大学 | 一种利用dcgan提高基于cnn图像识别性能的方法 |
CN108922561A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109754812A (zh) * | 2019-01-30 | 2019-05-14 | 华南理工大学 | 一种基于卷积神经网络的防录音攻击检测的声纹认证方法 |
Non-Patent Citations (2)
Title |
---|
中国电子学会: "《第5届全国语音图象通讯信号处理学术会议论文集》", 25 October 1991 * |
高志强等: "《深度的学习入门到实战》", 30 June 2018 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020238046A1 (zh) * | 2019-05-29 | 2020-12-03 | 平安科技(深圳)有限公司 | 人声智能检测方法、装置及计算机可读存储介质 |
CN110751941A (zh) * | 2019-09-18 | 2020-02-04 | 平安科技(深圳)有限公司 | 语音合成模型的生成方法、装置、设备及存储介质 |
CN110765868A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 唇读模型的生成方法、装置、设备及存储介质 |
WO2021052163A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 语音合成模型的生成方法、装置、设备及计算机可读存储介质 |
CN110751941B (zh) * | 2019-09-18 | 2023-05-26 | 平安科技(深圳)有限公司 | 语音合成模型的生成方法、装置、设备及存储介质 |
CN111221942A (zh) * | 2020-01-09 | 2020-06-02 | 平安科技(深圳)有限公司 | 智能化文本对话生成方法、装置及计算机可读存储介质 |
CN111243609A (zh) * | 2020-01-10 | 2020-06-05 | 平安科技(深圳)有限公司 | 有效语音智能检测方法、装置及计算机可读存储介质 |
WO2021139182A1 (zh) * | 2020-01-10 | 2021-07-15 | 平安科技(深圳)有限公司 | 有效语音智能检测方法、装置、设备及计算机可读存储介质 |
CN111401147A (zh) * | 2020-02-26 | 2020-07-10 | 中国平安人寿保险股份有限公司 | 基于视频行为数据的智能分析方法、装置及存储介质 |
CN111401147B (zh) * | 2020-02-26 | 2024-06-04 | 中国平安人寿保险股份有限公司 | 基于视频行为数据的智能分析方法、装置及存储介质 |
CN113936694A (zh) * | 2021-12-17 | 2022-01-14 | 珠海普林芯驰科技有限公司 | 人声实时检测方法、计算机装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020238046A1 (zh) | 2020-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110246506A (zh) | 人声智能检测方法、装置及计算机可读存储介质 | |
CN108564955B (zh) | 电子装置、身份验证方法和计算机可读存储介质 | |
CN110163476A (zh) | 项目智能推荐方法、电子装置及存储介质 | |
CN108564954A (zh) | 深度神经网络模型、电子装置、身份验证方法和存储介质 | |
CN110619568A (zh) | 风险评估报告的生成方法、装置、设备及存储介质 | |
CN108021864A (zh) | 人物性格分析方法、装置及存储介质 | |
CN110277088A (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN110163204A (zh) | 基于图像识别的商家监管方法、装置及存储介质 | |
CN110442857A (zh) | 情感智能判断方法、装置及计算机可读存储介质 | |
CN112560453A (zh) | 语音信息校验方法、装置、电子设备及介质 | |
CN113903363B (zh) | 基于人工智能的违规行为检测方法、装置、设备及介质 | |
CN110413773A (zh) | 智能文本分类方法、装置及计算机可读存储介质 | |
CN113205814B (zh) | 语音数据标注方法、装置、电子设备及存储介质 | |
CN110322898A (zh) | 婴儿哭声检测方法、装置及计算机可读存储介质 | |
CN110347789A (zh) | 文本意图智能分类方法、装置及计算机可读存储介质 | |
CN109977750A (zh) | 印章真伪校验方法、装置及计算机可读存储介质 | |
CN110427453A (zh) | 数据的相似度计算方法、装置、计算机设备及存储介质 | |
CN114756669A (zh) | 问题意图的智能分析方法、装置、电子设备及存储介质 | |
CN114639152A (zh) | 基于人脸识别的多模态语音交互方法、装置、设备及介质 | |
CN117057935A (zh) | 基于领域设计的数据处理方法、装置、设备及其存储介质 | |
CN112489628A (zh) | 语音数据选择方法、装置、电子设备及存储介质 | |
CN115700845B (zh) | 人脸识别模型训练方法、人脸识别方法、装置及相关设备 | |
CN114548114B (zh) | 文本情绪识别方法、装置、设备及存储介质 | |
CN114780724A (zh) | 案件分类方法、装置、计算机设备及存储介质 | |
CN108764045B (zh) | 牲畜识别方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190917 |
|
RJ01 | Rejection of invention patent application after publication |