CN110910900B - 音质异常数据检测方法、装置、电子设备及存储介质 - Google Patents
音质异常数据检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110910900B CN110910900B CN201911379585.1A CN201911379585A CN110910900B CN 110910900 B CN110910900 B CN 110910900B CN 201911379585 A CN201911379585 A CN 201911379585A CN 110910900 B CN110910900 B CN 110910900B
- Authority
- CN
- China
- Prior art keywords
- segment
- voiced
- unvoiced
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 112
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims description 159
- 230000001755 vocal effect Effects 0.000 claims description 77
- 238000003062 neural network model Methods 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 34
- 239000000203 mixture Substances 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 26
- 238000011084 recovery Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 230000005856 abnormality Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 18
- 230000003595 spectral effect Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000009432 framing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例提供一种音质异常数据检测方法、装置、电子设备及存储介质,该方法包括:接收用户语音数据,确定用户语音数据中的有声段语音数据和无声段语音数据;提取有声段语音数据中的有声段声学特征,提取无声段语音数据中的无声段声学特征;将有声段声学特征输入训练好的有声段产生式模型,得到用户语音数据的有声段检测结果,将无声段声学特征输入训练好的无声段产生式模型,得到用户语音数据的无声段检测结果;有声段产生式模型采用正常有声段样本进行训练,无声段产生式模型采用正常无声段样本进行训练;根据有声段检测结果和无声段检测结果确定用户语音数据是否为音质异常数据。本申请实施例可以提高音质异常数据检测的准确率。
Description
技术领域
本申请涉及机器学习技术领域,具体涉及一种音质异常数据检测方法、装置、电子设备及存储介质。
背景技术
在语音评测系统中,如果评测设备出现故障,则语音评测系统的评测结果难以让人满意。因此,需要一种音质异常数据识别系统,能够识别语音数据是否出现音质异常。
目前的音质异常数据检测的过程为:在训练阶段,预先准备正例数据(音质正常数据)和反例数据(音质异常数据),使用正例数据和反例数据对分类模型进行训练;在测试阶段,从待测语音数据中提取相应的特征,用分类模型判断音质是否异常。由于音质异常数据检测方法是基于正例数据和反例数据的,假设正例数据覆盖比较全面,即使不对反例数据进行细分类,检测效果很大程度上也依赖于反例数据是否覆盖完全。而实际应用中异常数据千变万化,很难罗列完全,导致对异常数据的判断容易出错。
发明内容
本申请实施例提供一种音质异常数据检测方法、装置、电子设备及存储介质,可以提高音质异常数据检测的准确率。
本申请实施例的第一方面提供了一种音质异常数据检测方法,包括:
接收用户语音数据,确定所述用户语音数据中的有声段语音数据和无声段语音数据;
提取所述有声段语音数据中的有声段声学特征,提取所述无声段语音数据中的无声段声学特征;
将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果;所述有声段产生式模型采用正常有声段样本进行训练,所述无声段产生式模型采用正常无声段样本进行训练;
根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据。
本申请实施例的第二方面提供了一种音质异常数据检测装置,包括:
接收单元,用于接收用户语音数据;
确定单元,用于确定所述用户语音数据中的有声段语音数据和无声段语音数据;
提取单元,用于提取所述有声段语音数据中的有声段声学特征,提取所述无声段语音数据中的无声段声学特征;
检测单元,用于将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果;所述有声段产生式模型采用正常有声段样本进行训练,所述无声段产生式模型采用正常无声段样本进行训练;
判别单元,用于根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据。
本申请实施例的第三方面提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面中的步骤指令。
本申请实施例的第四方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
本申请实施例的第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请实施例中,在判断用户语音数据是否异常时,接收用户语音数据,确定用户语音数据中的有声段语音数据和无声段语音数据;提取有声段语音数据中的有声段声学特征,提取无声段语音数据中的无声段声学特征;将有声段声学特征输入训练好的有声段产生式模型,得到用户语音数据的有声段检测结果,将无声段声学特征输入训练好的无声段产生式模型,得到用户语音数据的无声段检测结果;有声段产生式模型采用正常有声段样本进行训练,无声段产生式模型采用正常无声段样本进行训练;根据有声段检测结果和无声段检测结果确定用户语音数据是否为音质异常数据。本申请实施例的有声段产生式模型采用正常有声段样本进行训练,无声段产生式模型采用正常无声段样本进行训练,无需异常有声段样本和异常无声段样本。只采用正例数据进行训练,无需反例数据,避免了反例数据无法穷举而出现误判的风险,从而可以提高音质异常数据检测的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音质异常数据检测方法的流程示意图;
图2a是本申请实施例提供的一种有声段神经网络模型的结构示意图;
图2b是本申请实施例提供的一种无声段神经网络模型的结构示意图;
图3是本申请实施例提供的一种模型训练方法的流程示意图;
图4是本申请实施例提供的一种音质异常数据检测装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
下面对本申请实施例进行详细介绍。
请参阅图1,图1是本申请实施例提供的一种音质异常数据检测方法的流程示意图。如图1所示,该音质异常数据检测方法可以包括如下步骤:
101,电子设备接收用户语音数据,确定用户语音数据中的有声段语音数据和无声段语音数据。
本申请实施例中,电子设备可以是安装有音质异常数据检测系统的电子设备,比如,手机、个人电脑、平板电脑、智能音箱等。
电子设备可以安装有麦克风(或麦克风阵列),电子设备可以通过麦克风接收用户语音数据。电子设备还可以通过与之进行通信连接的其他设备接收用户语音数据。电子设备还可以从本地存储器(比如,非易失性存储器)中获取用户语音数据。
其中,电子设备可以通过语音活动检测(voice activity detection,VAD)确定用户语音数据中的有声段语音数据和无声段语音数据。语音活动检测,也可以称为语音边界检测,用于划分用户语音数据中的有声段语音数据和无声段语音数据。
比如,VAD可以基于能量、频域、倒谱、谐波、时长信息等特征来识别语音数据中的有声段语音数据和无声段语音数据。举例来说,有声段语音数据可以是用户语音数据中能量大于或等于一定门限值的语音数据部分,无声段语音数据可以是用户语音数据中能量低于一定门限值的语音数据部分。
102,电子设备提取有声段语音数据中的有声段声学特征,提取无声段语音数据中的无声段声学特征。
本申请实施例中,声学特征可以用于后续的异常音频检测。声学特征一般为语音数据的频谱特征。比如,声学特征可以包括梅尔频率倒谱系数(mel frequency cepstrumcoefficient,MFCC)特征、或滤波器组(filter bank,FB)特征、或幅度谱特征等。
可选的,有声段声学特征包括有声段频谱特征,有声段频谱特征包括有声段梅尔频谱倒谱系数MFCC特征、滤波器组特征、幅度谱特征中的任意一种;
无声段声学特征包括无声段频谱特征,无声段频谱特征包括无声段梅尔频谱倒谱系数MFCC特征、滤波器组特征、幅度谱特征中的任意一种。
电子设备可以通过如下方式提取有声段语音数据中的有声段声学特征:
电子设备对有声段语音数据进行分帧处理,对分帧后的声段语音数据进行预加重,依次提取每帧语音数据的频谱特征,得到有声段语音数据中的有声段声学特征。
电子设备可以通过如下方式提取无声段语音数据中的无声段声学特征:
电子设备对无声段语音数据进行分帧处理,对分帧后的声段语音数据进行预加重,依次提取每帧语音数据的频谱特征,得到无声段语音数据中的无声段声学特征。
103,电子设备将有声段声学特征输入训练好的有声段产生式模型,得到用户语音数据的有声段检测结果,将无声段声学特征输入训练好的无声段产生式模型,得到用户语音数据的无声段检测结果;有声段产生式模型采用正常有声段样本进行训练,无声段产生式模型采用正常无声段样本进行训练。
本申请实施例中,有声段产生式模型采用正常有声段样本进行训练,无声段产生式模型采用正常无声段样本进行训练。本申请实施例只采用正例数据进行训练,无需反例数据,避免了反例数据无法穷举而出现误判的风险,从而可以提高音质异常数据检测的准确率。
有声段产生式模型用于对有声段声学特征进行处理,得到用户语音数据的有声段检测结果。无声段产生式模型用于对无声段声学特征进行处理,得到用户语音数据的无声段检测结果。
产生式模型(generative modeling,GM)是对后验概率建模,估计的是联合概率分布。产生式模型可以包括高斯混合模型(Gaussion Mixture Model,GMM)或神经网络模型。
104,电子设备根据有声段检测结果和无声段检测结果确定用户语音数据是否为音质异常数据。
本申请实施例中,有声段检测结果可以包括有声段异常或有声段正常。无声段检测结果可以包括无声段异常或无声段正常。
电子设备根据有声段检测结果和无声段检测结果确定用户语音数据是否为音质异常数据,包括:
若有声段异常,并且无声段异常,则确定用户语音数据为音质异常数据;若有声段正常或无声段正常,则确定用户语音数据为音质正常数据。
其中,本申请的音质异常数据检测方法可以应用于需要进行音质异常检测的场景,比如,可以应用于(英语、汉语等其他语言)口语考试过程中的用户语音数据的异常检测。在英语口语考试实施过程中,用户语音数据一般通过机器和人工来评分。一些由于设备原因导致的低信噪比、截幅、降噪等用户语音数据,使机器评分面临着严峻的考验。并且一些严重有问题的数据,人是无法评分的,即使考试之后检测出来,也于事无补,只能判定该考生当次考试失败,需重新组织这些考生重考,耗费较多的人力物力。而如果将这些数据在考试过程中检测出来,引导考生现场重考,将大幅提升考试的成功率、组织重考的难度也将大大降低。本申请实施例的音质异常数据检测方法可以在英语口语考试过程对考生产生的用户语音数据进行实时检测,对于音质正常的用户语音数据,可以直接交给机器和人工进行评分,对于音质异常的用户语音数据,则可以发出报警提示,或者通知设备维修人员,可以引导考生现场重考,将大幅提升考试的成功率、组织重考的难度也将大大降低。
可选的,在执行步骤104之后,若用户语音数据为音质异常数据,则可以进一步判断该用户语音数据是哪种音质异常数据。音质异常数据可以包括低信噪比语音数据、截幅语音数据、降噪语音数据等。
本申请实施例中,采用有声段产生式模型和无声段产生式模型分别对一段用户语音数据中的有声段声学特征和无声段声学特征进行处理,与采用一个模型对未划分有声段和无声段的用户语音数据的处理相比,可以提高音质异常数据检测的准确度。
可选的,产生式模型包括神经网络模型。有声段产生式模型包括有声段神经网络模型,无声段产生式模型包括无声段神经网络模型。步骤103具体可以包括如下步骤:
电子设备将有声段声学特征输入训练好的有声段神经网络模型,得到用户语音数据的有声段编码误差,将无声段声学特征输入训练好的无声段神经网络模型,得到用户语音数据的无声段编码误差。
步骤104具体可以包括如下步骤:
(11)若有声段编码误差大于第一阈值,并且无声段编码误差大于第二阈值,电子设备确定用户语音数据为音质异常数据;
(12)若有声段编码误差小于第一阈值,或者无声段编码误差小于第二阈值,电子设备确定用户语音数据为音质正常数据。
本申请实施例中,神经网络模型可以包括卷积神经网络(Convolutional NeuralNetwork,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短时记忆神经网络(Long Short-term Memory Networks,LSTM)、深度神经网络(Deep Neural Networks,DNN)中的任一种。
有声段神经网络模型可以对有声段声学特征进行处理,得到用户语音数据的有声段编码误差。无声段神经网络模型可以对无声段声学特征进行处理,得到用户语音数据的无声段编码误差。
有声段神经网络模型和无声段神经网络模型均为编码网络。有声段神经网络模型可以对输入的有声段声学特征进行至少两次编码,得到至少两次有声段编码的编码误差。类似的,无声段神经网络模型可以对输入的无声段声学特征进行至少两次编码,得到至少两次无声段编码的编码误差。其中,编码误差可以通过均方误差来衡量。
第一阈值可以预先进行设定。比如,第一阈值可以根据有声段产生式模型采用正常有声段样本进行训练得到的训练结果进行调整。
第二阈值也可以预先进行设定。比如,第二阈值可以根据无声段产生式模型采用正常无声段样本进行训练得到的训练结果进行调整。
第一阈值和第二阈值都可以存储在电子设备的存储器(比如,非易失性存储器)中。
可选的,有声段神经网络模型包括第一有声段编码网络、第二有声段编码网络和有声段解码网络。电子设备将有声段声学特征输入训练好的有声段神经网络模型,得到用户语音数据的有声段编码误差,具体可以包括如下步骤:
(21)电子设备将有声段声学特征输入第一有声段编码网络,得到第一有声段编码;
(22)电子设备将第一有声段编码输入有声段解码网络,得到有声段恢复特征;
(23)电子设备将有声段恢复特征输入第二有声段编码网络,得到第二有声段编码;
(24)电子设备计算第一有声段编码和第二有声段编码的均方误差,将第一有声段编码和第二有声段编码的均方误差作为用户语音数据的有声段编码误差。
请参阅图2a,图2a是本申请实施例提供的一种有声段神经网络模型的结构示意图。如图2a所示,有声段神经网络模型包括第一有声段编码网络、第二有声段编码网络和有声段解码网络。将有声段声学特征x1输入第一有声段编码网络,得到第一有声段编码z1,将第一有声段编码z1输入有声段解码网络,得到有声段恢复特征x2;将有声段恢复特征x2输入第二有声段编码网络,得到第二有声段编码z2。
其中,第一有声段编码和第二有声段编码的均方误差(Mean Squared Error,MSE)是指第一有声段编码z1与第二有声段编码z2之差平方的期望值。
可选的,无声段神经网络模型包括第一无声段编码网络、第二无声段编码网络和无声段解码网络;电子设备将无声段声学特征输入训练好的无声段神经网络模型,得到用户语音数据的无声段编码误差,具体可以包括如下步骤:
(31)电子设备将无声段声学特征输入第一无声段编码网络,得到第一无声段编码;
(32)电子设备将第一无声段编码输入无声段解码网络,得到无声段恢复特征;
(33)电子设备将无声段恢复特征输入第二无声段编码网络,得到第二无声段编码;
(34)电子设备计算第一无声段编码和第二无声段编码的均方误差,将第一无声段编码和第二无声段编码的均方误差作为用户语音数据的无声段编码误差。
请参阅图2b,图2b是本申请实施例提供的一种无声段神经网络模型的结构示意图。如图2b所示,无声段神经网络模型包括第一无声段编码网络、第二无声段编码网络和无声段解码网络。将无声段声学特征y1输入第一无声段编码网络,得到第一无声段编码w1,将第一无声段编码w1输入无声段解码网络,得到无声段恢复特征y2;将无声段恢复特征y2输入第二无声段编码网络,得到第二无声段编码w2。
其中,第一无声段编码和第二无声段编码的均方误差(Mean Squared Error,MSE)是指第一无声段编码w1与第二无声段编码w2之差平方的期望值。
可选的,有声段产生式模型包括有声段高斯混合模型,无声段产生式模型包括无声段高斯混合模型;步骤103具体可以包括步骤:
电子设备将有声段声学特征输入训练好的有声段高斯混合模型,得到用户语音数据的有声段产生概率,将无声段声学特征输入训练好的无声段高斯混合模型,得到用户语音数据的无声段产生概率;
步骤104具体可以包括如下步骤:
(41)若有声段产生概率小于第三阈值,并且无声段产生概率小于第四阈值,电子设备确定用户语音数据为音质异常数据;
(42)若有声段产生概率大于第三阈值,或者无声段产生概率大于第四阈值,电子设备确定用户语音数据为音质正常数据。
高斯模型可以进行如下定义:
对于一维随机变量x,如果服从高斯分布,则其概率密度函数为:
μ和σ2分别是高斯分布的均值和方差,记为X~N(x,σ2)
多维随机变量X=(x1,x2,...xn)的联合概率密度函数为:
记为X~N(μ,∑),x服从高斯分布。
混合高斯模型可以进行如下定义:
假设混合高斯模型由K个高斯模型组成,则其概率密度函数如下:
混合高斯模型的本质就是融合几个单高斯模型,来使得模型更加复杂,从而产生更复杂的样本。理论上,如果某个混合高斯模型融合的高斯模型个数足够多,它们之间的权重设定得足够合理,这个混合模型可以拟合任意分布的样本。
本申请实施例中,混合高斯模型可以包括有声段高斯混合模型和无声段高斯混合模型。有声段高斯混合模型可以对有声段声学特征进行处理,得到用户语音数据的有声段产生概率。无声段高斯混合模型可以对无声段声学特征进行处理,得到用户语音数据的无声段产生概率。
第三阈值可以预先进行设定。比如,第三阈值可以根据有声段高斯混合模型采用正常有声段样本进行训练得到的训练结果进行调整。
第四阈值也可以预先进行设定。比如,第四阈值可以根据无声段高斯混合模型采用正常无声段样本进行训练得到的训练结果进行调整。
第三阈值和第四阈值都可以存储在电子设备的存储器(比如,非易失性存储器)中。
请参阅图3,图3是本申请实施例提供的一种模型训练方法的流程示意图。如图3所示,该模型训练方法可以包括如下步骤:
301,电子设备从训练数据集中获取正常语音样本,从正常语音样本中提取有声段语音样本和无声段语音样本。
302,电子设备将有声段语音样本输入有声段产生式模型,得到有声段训练结果;根据有声段训练结果对有声段产生式模型的模型参数进行优化。
303,电子设备将无声段语音样本输入无声段产生式模型,得到无声段训练结果;根据无声段训练结果对输入无声段产生式模型的模型参数进行优化。
本申请实施例中,训练数据集可以预先进行获取。可以从大量的语音数据中挑选正常语音数据。正常语音数据可以人工进行挑选,也可以通过VAD方式进行挑选。
通常情况下,异常语音数据的有声语音段是比较少的,但是我们不能仅从语音段占比较少就认为数据是异常语音数据。所以基于这个常识,我们挑选正常语音数据的方法如下:步一:对大规模考试的考生数据提取VAD边界,有声段(speech段)时长占整条语音时长比例达到预设比例阈值以上的数据认为是正常语音数据;步二:对步一选取的数据根据VAD边界划分为有声段(speech段)和无声段(nonspeech段);步三:对步二提取的有声段语音数据和无声段语音数据分别训练有声段产生式模型和无声段产生式模型。
其中,预设比例阈值可以预先进行设定,比如,可以设置预设比例阈值为70%。
本申请实施例中,可以从正常语音样本中提取有声段语音样本和无声段语音样本,将有声段语音样本输入有声段产生式模型,得到有声段训练结果,根据有声段训练结果对有声段产生式模型的模型参数进行优化;将无声段语音样本输入无声段产生式模型,得到无声段训练结果;根据无声段训练结果对输入无声段产生式模型的模型参数进行优化。
在模型训练过程中,有声段产生式模型采用正常有声段样本进行训练,无声段产生式模型采用正常无声段样本进行训练,无需异常有声段样本和异常无声段样本。只采用正例数据进行训练,无需反例数据,避免了反例数据无法穷举而出现误判的风险,从而可以提高音质异常数据检测的准确率。
可选的,步骤302中,电子设备根据有声段训练结果对有声段产生式模型的模型参数进行优化,具体可以包括如下步骤:
电子设备基于有声段语音样本与有声段训练结果计算有声段训练的损失函数,根据有声段训练的损失函数对有声段产生式模型的模型参数进行优化。
步骤302中,电子设备根据无声段训练结果对无声段产生式模型的模型参数进行优化,具体可以包括如下步骤:
电子设备基于无声段语音样本与无声段训练结果计算无声段训练的损失函数,根据无声段训练的损失函数对无声段产生式模型的模型参数进行优化。
本申请实施例中,有声段产生式模型以图2a所示的有声段神经网络模型为例,有声段神经网络模型包括第一有声段编码网络、有声段解码网络和第二有声段编码网络。在对有声段神经网络模型进行训练时,从有声段语音样本中提取有声段声学特征,将有声段声学特征输入第一有声段编码网络,第一有声段编码网络输出第一有声段编码,将第一有声段编码输入有声段解码网络,有声段解码网络输出有声段恢复特征,将有声段恢复特征输入第二有声段编码网络,第二有声段编码网络输出第二有声段编码,计算第一有声段编码和第二有声段编码的均方误差E11,计算有声段声学特征和有声段恢复特征的平均绝对误差E12,将E11和E12加权求和作为有声段训练的损失函数更新有声段产生式模型的模型参数。有声段训练的损失函数L2=A2*E21+B2*E22。其中,A2、B2为加权系数。
无声段产生式模型以图2b所示的无声段神经网络模型为例,无声段神经网络模型包括第一无声段编码网络、无声段解码网络和第二无声段编码网络。在对无声段神经网络模型进行训练时,从无声段语音样本中提取无声段声学特征,将无声段声学特征输入第一无声段编码网络,第一无声段编码网络输出第一无声段编码,将第一无声段编码输入无声段解码网络,无声段解码网络输出无声段恢复特征,将无声段恢复特征输入第二无声段编码网络,第二无声段编码网络输出第二无声段编码,计算第一无声段编码和第二无声段编码的均方误差E21,计算无声段声学特征和无声段恢复特征的平均绝对误差E22,将E21和E22加权求和作为无声段训练的损失函数更新无声段产生式模型的模型参数。无声段训练的损失函数L2=A2*E21+B2*E22。其中,A2、B2为加权系数。
本申请实施例中,可以采用梯度下降算法(比如,Adam优化方法)对有声段产生式模型的模型参数和无声段产生式模型的模型参数进行优化。
有声段产生式模型的模型参数可以包括有声段产生式模型中的卷积层中的卷积核权值矩阵、全连接层中的权值矩阵、池化层的权值矩阵、LSTM层的权值矩阵。
无声段产生式模型的模型参数可以包括无声段产生式模型中的卷积层中的卷积核权值矩阵、全连接层中的权值矩阵、池化层的权值矩阵、LSTM层的权值矩阵。
可选的,电子设备根据有声段训练的损失函数对有声段产生式模型的模型参数进行优化之后,还可以执行如下步骤:
在有声段训练的损失函数符合第一预设条件的情况下,电子设备确定有声段产生式模型为训练好的有声段产生式模型;
电子设备根据无声段训练的损失函数对无声段产生式模型的模型参数进行优化之后,还可以执行如下步骤:
在无声段训练的损失函数符合第二预设条件的情况下,电子设备确定无声段产生式模型为训练好的无声段产生式模型。
本申请实施例中,在有声段训练的损失函数符合收敛条件的情况,确定有声段产生式模型为训练好的有声段产生式模型。在无声段训练的损失函数符合收敛条件的情况,确定无声段产生式模型为训练好的有声段产生式模型。
可选的,电子设备确定有声段产生式模型为训练好的有声段产生式模型之后,还可以执行如下步骤:
从虚警训练数据集中获取有声段训练语音样本,将有声段训练语音样本输入训练好的有声段产生式模型,得到训练语音样本的有声段编码误差或有声段产生概率;
需要说明的是,由于虚警训练数据集是无监督挑选的,所以可能存在少量异常数据,且模型不一定能将正常和异常数据完美的区分开,即虚警为0,召回100%,正常数据和异常数据的分布存在一定的交叉,可以假设虚警训练数据集都是正常数据,预设一定的虚警率,例如10%或1%,以确定检测的阈值。
将虚警训练数据集中的第一预设数量的训练语音样本的有声段编码误差按照从高到低排序后排名为第一预设阈值的有声段编码误差作为目标有声段编码误差,第一预设阈值为第一预设数量与第一预设虚警率之积;或者,
将虚警训练数据集中的第二预设数量的训练语音样本的有声段产生概率按照从低到高排序后排名为第二预设阈值的有声段产生概率作为目标有声段产生概率,第二预设阈值为第二预设数量与第二预设虚警率之积;
其中,目标有声段编码误差为第一阈值,目标有声段产生概率为第三阈值。
本申请实施例中,在有声段产生式模型为训练好的有声段产生式模型后,可以采用虚警训练数据集来调整虚警率作为后续有声段异常数据检测的门限值。
比如,有声段产生式模型为神经网络模型时,从虚警训练数据集中获取有声段训练语音样本,将有声段训练语音样本输入训练好的有声段神经网络模型,得到训练语音样本的有声段编码误差。第一预设数量可以预先进行设定,比如设置为1000,第一预设虚警率也可以预先进行设定。比如,第一预设虚警率可以设置为0.5%。第一预设数量设置的越大,调检测门限的时间越长。第一预设虚警率设置的越小,有声段异常音质检测结果越严格。第一预设虚警率可以根据需要进行设定。
若第一预设数量设置为1000,第一预设虚警率设置为0.5%。则可以将1000条训练语音样本的有声段编码误差按照从高到低排序后排名为第5的有声段编码误差作为目标有声段编码误差。比如,1000条训练语音样本的有声段编码误差从高到低排序分别为10、9.5、8.6、7.7、7.5、...。则可以将7.5作为上述步骤(11)和步骤(12)中的第一阈值。
又比如,有声段产生式模型为高斯混合模型时,从虚警训练数据集中获取有声段训练语音样本,将有声段训练语音样本输入训练好的有声段高斯混合模型,得到训练语音样本的有声段产生概率。第二预设数量可以预先进行设定,比如设置为1000,第二预设虚警率也可以预先进行设定。比如,第二预设虚警率可以设置为0.5%。第二预设数量设置的越大,调检测门限的时间越长。第二预设虚警率设置的越小,有声段异常音质检测结果越严格。第二预设虚警率可以根据需要进行设定。
若第二预设数量设置为1000,第二预设虚警率设置为0.5%。则可以将1000条训练语音样本的有声段产生概率按照从低到高排序后排名为第5的有声段产生概率作为目标有声段产生概率。比如,1000条训练语音样本的有声段产生概率从低到高排序分别为0.01、0.03、0.04、0.05、0.06、...。则可以将0.06作为上述步骤(41)和步骤(42)中的第三阈值。
可选的,电子设备确定无声段产生式模型为训练好的无声段产生式模型之后,还可以执行如下步骤:
从虚警训练数据集中获取无声段训练语音样本,将无声段训练语音样本输入训练好的无声段产生式模型,得到训练语音样本的无声段编码误差或无声段产生概率;
将虚警训练数据集中的第三预设数量的训练语音样本的无声段编码误差按照从高到低排序后排名为第三预设阈值的无声段编码误差作为目标无声段编码误差,第三预设阈值为第三预设数量与第三预设虚警率之积;或者,
将虚警训练数据集中的第四预设数量的训练语音样本的无声段产生概率按照从低到高排序后排名为第四预设阈值的无声段产生概率作为目标无声段产生概率,第四预设阈值为第四预设数量与第四预设虚警率之积;
其中,目标无声段编码误差为第二阈值,目标无声段产生概率为第四阈值。
本申请实施例中,在无声段产生式模型为训练好的无声段产生式模型后,可以采用虚警训练数据集来调整虚警率作为后续无声段异常数据检测的门限值。
比如,无声段产生式模型为神经网络模型时,从虚警训练数据集中获取无声段训练语音样本,将无声段训练语音样本输入训练好的无声段神经网络模型,得到训练语音样本的无声段编码误差。第三预设数量可以预先进行设定,比如设置为1000,第三预设虚警率也可以预先进行设定。比如,第三预设虚警率可以设置为0.5%。第三预设数量设置的越大,调检测门限的时间越长。第三预设虚警率设置的越小,无声段异常音质检测结果越严格。第三预设虚警率可以根据需要进行设定。
若第三预设数量设置为1000,第三预设虚警率设置为0.5%。则可以将1000条训练语音样本的无声段编码误差按照从高到低排序后排名为第5的无声段编码误差作为目标无声段编码误差。比如,1000条训练语音样本的无声段编码误差从高到低排序分别为10、9.5、8.6、7.7、7.5、...。则可以将7.5作为上述步骤(11)和步骤(12)中的第二阈值。
又比如,无声段产生式模型为高斯混合模型时,从虚警训练数据集中获取无声段训练语音样本,将无声段训练语音样本输入训练好的无声段高斯混合模型,得到训练语音样本的无声段产生概率。第四预设数量可以预先进行设定,比如设置为1000,第四预设虚警率也可以预先进行设定。比如,第四预设虚警率可以设置为0.5%。第四预设数量设置的越大,调检测门限的时间越长。第四预设虚警率设置的越小,无声段异常音质检测结果越严格。第四预设虚警率可以根据需要进行设定。
若第四预设数量设置为1000,第四预设虚警率设置为0.5%。则可以将1000条训练语音样本的无声段产生概率按照从低到高排序后排名为第5的无声段产生概率作为目标无声段产生概率。比如,1000条训练语音样本的无声段产生概率从低到高排序分别为0.01、0.03、0.04、0.05、0.06、...。则可以将0.06作为上述步骤(41)和步骤(42)中的第四阈值。
本申请实施例可以根据需要调整第一阈值、第二阈值、第三阈值和第四阈值,可以提高后续异常音质检测的灵活性。在不同的异常音质检测的场景,可以采用设置虚警率来调整第一阈值、第二阈值、第三阈值和第四阈值。比如,在要求较为严格的口语考试的异常音质检测的过程中,可以设置较低的虚警率。在要求较为宽松的音乐会、演唱会等异常音质检测的过程中,可以设置较高的虚警率。
需要说明的是,图3的模型训练方法用于对有声段产生式模型和无声段产生式模型进行训练,图3的模型训练方法可以在图1的音质异常数据检测方法之前执行。在有声段产生式模型和无声段产生式模型训练好之后,可以执行图1所述的方法。
本申请实施例中,有声段产生式模型采用正常有声段样本进行训练,无声段产生式模型采用正常无声段样本进行训练。本申请实施例只采用正例数据进行训练,无需反例数据,避免了反例数据无法穷举而出现误判的风险,从而可以提高音质异常数据检测的准确率。
请参阅图4,图4是本申请实施例提供的一种音质异常数据检测装置的结构示意图。如图4所示,该音质异常数据检测装置400可以包括接收单元401、确定单元402、提取单元403、检测单元404和判别单元405。
接收单元401,用于接收用户语音数据;
确定单元402,用于确定所述用户语音数据中的有声段语音数据和无声段语音数据;
提取单元403,用于提取所述有声段语音数据中的有声段声学特征,提取所述无声段语音数据中的无声段声学特征;
检测单元404,用于将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果;所述有声段产生式模型采用正常有声段样本进行训练,所述无声段产生式模型采用正常无声段样本进行训练;
判别单元405,用于根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据。
可选的,所述有声段产生式模型包括有声段神经网络模型,所述无声段产生式模型包括无声段神经网络模型;所述检测单元404将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果,具体为:将所述有声段声学特征输入训练好的有声段神经网络模型,得到所述用户语音数据的有声段编码误差,将所述无声段声学特征输入训练好的无声段神经网络模型,得到所述用户语音数据的无声段编码误差;
所述判别单元405根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据,具体为:在所述有声段编码误差大于第一阈值,并且所述无声段编码误差大于第二阈值的情况下,确定所述用户语音数据为音质异常数据;在所述有声段编码误差小于所述第一阈值,或者所述无声段编码误差小于所述第二阈值的情况下,确定所述用户语音数据为音质正常数据。
可选的,所述有声段神经网络模型包括第一有声段编码网络、第二有声段编码网络和有声段解码网络;所述检测单元404将所述有声段声学特征输入训练好的有声段神经网络模型,得到所述用户语音数据的有声段编码误差,具体为:将所述有声段声学特征输入所述第一有声段编码网络,得到第一有声段编码;将所述第一有声段编码输入所述有声段解码网络,得到有声段恢复特征;将所述有声段恢复特征输入所述第二有声段编码网络,得到第二有声段编码;计算所述第一有声段编码和所述第二有声段编码的均方误差,将所述第一有声段编码和所述第二有声段编码的均方误差作为所述用户语音数据的有声段编码误差。
可选的,所述无声段神经网络模型包括第一无声段编码网络、第二无声段编码网络和无声段解码网络;所述检测单元404将所述无声段声学特征输入训练好的无声段神经网络模型,得到所述用户语音数据的无声段编码误差,具体为:将所述无声段声学特征输入所述第一无声段编码网络,得到第一无声段编码;将所述第一无声段编码输入所述无声段解码网络,得到无声段恢复特征;将所述无声段恢复特征输入所述第二无声段编码网络,得到第二无声段编码;计算所述第一无声段编码和所述第二无声段编码的均方误差,将所述第一无声段编码和所述第二无声段编码的均方误差作为所述用户语音数据的无声段编码误差。
可选的,所述有声段产生式模型包括有声段高斯混合模型,所述无声段产生式模型包括无声段高斯混合模型;所述检测单元404将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果,具体为:将所述有声段声学特征输入训练好的有声段高斯混合模型,得到所述用户语音数据的有声段产生概率,将所述无声段声学特征输入训练好的无声段高斯混合模型,得到所述用户语音数据的无声段产生概率;
所述判别单元405根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据,具体为:在所述有声段产生概率小于第三阈值,并且所述无声段产生概率小于第四阈值的情况下,确定所述用户语音数据为音质异常数据;在所述有声段产生概率大于所述第三阈值,或者所述无声段产生概率大于所述第四阈值的情况下,确定所述用户语音数据为音质正常数据。
可选的,该音质异常数据检测装置400可以包括获取单元406和训练单元407。
所述获取单元406,用于在所述接收单元401接收用户语音数据之前,从训练数据集中获取正常语音样本,从所述正常语音样本中提取有声段语音样本和无声段语音样本;
训练单元407,用于将所述有声段语音样本输入有声段产生式模型,得到有声段训练结果;根据所述有声段训练结果对所述有声段产生式模型的模型参数进行优化,将所述无声段语音样本输入无声段产生式模型,得到无声段训练结果;根据所述无声段训练结果对所述无声段产生式模型的模型参数进行优化。
可选的,所述训练单元407根据所述有声段训练结果对所述有声段产生式模型的模型参数进行优化,具体为:
基于所述有声段语音样本与所述有声段训练结果计算有声段训练的损失函数,根据所述有声段训练的损失函数对所述有声段产生式模型的模型参数进行优化;
所述训练单元407根据所述无声段训练结果对所述无声段产生式模型的模型参数进行优化,具体为:
基于所述无声段语音样本与所述无声段训练结果计算无声段训练的损失函数,根据所述无声段训练的损失函数对所述无声段产生式模型的模型参数进行优化。
可选的,该音质异常数据检测装置400可以包括处理单元408。
所述处理单元408,用于在所述训练单元407根据所述有声段训练的损失函数对所述有声段产生式模型的模型参数进行优化之后,在所述有声段训练的损失函数符合第一预设条件的情况下,确定所述有声段产生式模型为训练好的有声段产生式模型;
所述处理单元408,还用于所述训练单元407根据所述无声段训练的损失函数对所述无声段产生式模型的模型参数进行优化之后,在所述无声段训练的损失函数符合第二预设条件的情况下,确定所述无声段产生式模型为训练好的无声段产生式模型。
可选的,所述处理单元408,还用于确定所述有声段产生式模型为训练好的有声段产生式模型之后,从虚警训练数据集中获取有声段训练语音样本,将所述有声段训练语音样本输入所述训练好的有声段产生式模型,得到训练语音样本的有声段编码误差或有声段产生概率;
所述处理单元408,还用于将所述虚警训练数据集中的第一预设数量的训练语音样本的有声段编码误差按照从高到低排序后排名为第一预设阈值的有声段编码误差作为目标有声段编码误差,所述第一预设阈值为所述第一预设数量与第一预设虚警率之积;或者,
所述处理单元408,还用于将所述虚警训练数据集中的第二预设数量的训练语音样本的有声段产生概率按照从低到高排序后排名为第二预设阈值的有声段产生概率作为目标有声段产生概率,所述第二预设阈值为所述第二预设数量与第二预设虚警率之积;
其中,所述目标有声段编码误差为所述第一阈值,所述目标有声段产生概率为所述第三阈值。
可选的,所述处理单元408,还用于确定所述无声段产生式模型为训练好的无声段产生式模型之后,从所述虚警训练数据集中获取无声段训练语音样本,将所述无声段训练语音样本输入所述训练好的无声段产生式模型,得到训练语音样本的无声段编码误差或无声段产生概率;
所述处理单元408,还用于将所述虚警训练数据集中的第三预设数量的训练语音样本的无声段编码误差按照从高到低排序后排名为第三预设阈值的无声段编码误差作为目标无声段编码误差,所述第三预设阈值为所述第三预设数量与第三预设虚警率之积;或者,
所述处理单元408,还用于将所述虚警训练数据集中的第四预设数量的训练语音样本的无声段产生概率按照从低到高排序后排名为第四预设阈值的无声段产生概率作为目标无声段产生概率,所述第四预设阈值为所述第四预设数量与第四预设虚警率之积;
其中,所述目标无声段编码误差为所述第二阈值,所述目标无声段产生概率为所述第四阈值。
可选的,所述有声段声学特征包括有声段频谱特征,所述有声段频谱特征包括有声段梅尔频谱倒谱系数MFCC特征、滤波器组特征、幅度谱特征中的任意一种;
所述无声段声学特征包括无声段频谱特征,所述无声段频谱特征包括无声段梅尔频谱倒谱系数MFCC特征、滤波器组特征、幅度谱特征中的任意一种。
本申请实施例中,采用有声段产生式模型和无声段产生式模型分别对一段用户语音数据中的有声段声学特征和无声段声学特征进行处理,与采用一个模型对未划分有声段和无声段的用户语音数据的处理相比,可以提高音质异常数据检测的准确度。
请参阅图5,图5是本申请实施例提供的一种电子设备的结构示意图,如图5所示,该电子设备500包括处理器501、存储器502和通信接口503,处理器501、存储器502和通信接口503可以通过通信总线504相互连接。通信总线504可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器502用于存储计算机程序,计算机程序包括程序指令,处理器501被配置用于调用程序指令,上述程序包括用于执行图1至图3所示的方法。
处理器501可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。
存储器502可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
通信接口503,用于与其他设备(如物联网设备)或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
此外,该电子设备500还可以包括天线等通用部件,在此不再详述。
本申请实施例中,采用有声段产生式模型和无声段产生式模型分别对一段用户语音数据中的有声段声学特征和无声段声学特征进行处理,与采用一个模型对未划分有声段和无声段的用户语音数据的处理相比,可以提高音质异常数据检测的准确度。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种音质异常数据检测方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种音质异常数据检测方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在申请明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、电子设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种音质异常数据检测方法,其特征在于,所述方法应用于口语考试过程中的用户语音数据的异常检测,所述方法包括:
接收用户语音数据,通过语音活动检测确定所述用户语音数据中的有声段语音数据和无声段语音数据;
提取所述有声段语音数据中的有声段声学特征,提取所述无声段语音数据中的无声段声学特征;
将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果;所述有声段产生式模型采用正常有声段样本进行训练,所述无声段产生式模型采用正常无声段样本进行训练;
根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据;
所述有声段产生式模型包括有声段神经网络模型,所述无声段产生式模型包括无声段神经网络模型;所述将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果,包括:
将所述有声段声学特征输入训练好的有声段神经网络模型,得到所述用户语音数据的有声段编码误差,将所述无声段声学特征输入训练好的无声段神经网络模型,得到所述用户语音数据的无声段编码误差;
所述根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据,包括:
若所述有声段编码误差大于第一阈值,并且所述无声段编码误差大于第二阈值,确定所述用户语音数据为音质异常数据;
若所述有声段编码误差小于所述第一阈值,或者所述无声段编码误差小于所述第二阈值,确定所述用户语音数据为音质正常数据。
2.根据权利要求1所述的方法,其特征在于,所述有声段神经网络模型包括第一有声段编码网络、第二有声段编码网络和有声段解码网络;所述将所述有声段声学特征输入训练好的有声段神经网络模型,得到所述用户语音数据的有声段编码误差,包括:
将所述有声段声学特征输入所述第一有声段编码网络,得到第一有声段编码;
将所述第一有声段编码输入所述有声段解码网络,得到有声段恢复特征;
将所述有声段恢复特征输入所述第二有声段编码网络,得到第二有声段编码;
计算所述第一有声段编码和所述第二有声段编码的均方误差,将所述第一有声段编码和所述第二有声段编码的均方误差作为所述用户语音数据的有声段编码误差。
3.根据权利要求1或2所述的方法,其特征在于,所述无声段神经网络模型包括第一无声段编码网络、第二无声段编码网络和无声段解码网络;所述将所述无声段声学特征输入训练好的无声段神经网络模型,得到所述用户语音数据的无声段编码误差,包括:
将所述无声段声学特征输入所述第一无声段编码网络,得到第一无声段编码;
将所述第一无声段编码输入所述无声段解码网络,得到无声段恢复特征;
将所述无声段恢复特征输入所述第二无声段编码网络,得到第二无声段编码;
计算所述第一无声段编码和所述第二无声段编码的均方误差,将所述第一无声段编码和所述第二无声段编码的均方误差作为所述用户语音数据的无声段编码误差。
4.根据权利要求1~2任一项所述的方法,其特征在于,所述有声段产生式模型包括有声段高斯混合模型,所述无声段产生式模型包括无声段高斯混合模型;所述将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果,包括:
将所述有声段声学特征输入训练好的有声段高斯混合模型,得到所述用户语音数据的有声段产生概率,将所述无声段声学特征输入训练好的无声段高斯混合模型,得到所述用户语音数据的无声段产生概率;
所述根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据,包括:
若所述有声段产生概率小于第三阈值,并且所述无声段产生概率小于第四阈值,确定所述用户语音数据为音质异常数据;
若所述有声段产生概率大于所述第三阈值,或者所述无声段产生概率大于所述第四阈值,确定所述用户语音数据为音质正常数据。
5.根据权利要求4所述的方法,其特征在于,所述接收用户语音数据之前,所述方法还包括:
从训练数据集中获取正常语音样本,从所述正常语音样本中提取有声段语音样本和无声段语音样本;
将所述有声段语音样本输入有声段产生式模型,得到有声段训练结果;根据所述有声段训练结果对所述有声段产生式模型的模型参数进行优化;
将所述无声段语音样本输入无声段产生式模型,得到无声段训练结果;根据所述无声段训练结果对所述无声段产生式模型的模型参数进行优化。
6.根据权利要求5所述的方法,其特征在于,所述根据所述有声段训练结果对所述有声段产生式模型的模型参数进行优化,包括:
基于所述有声段语音样本与所述有声段训练结果计算有声段训练的损失函数,根据所述有声段训练的损失函数对所述有声段产生式模型的模型参数进行优化;
所述根据所述无声段训练结果对所述无声段产生式模型的模型参数进行优化,包括:
基于所述无声段语音样本与所述无声段训练结果计算无声段训练的损失函数,根据所述无声段训练的损失函数对所述无声段产生式模型的模型参数进行优化。
7.根据权利要求6所述的方法,其特征在于,所述根据所述有声段训练的损失函数对所述有声段产生式模型的模型参数进行优化之后,所述方法还包括:
在所述有声段训练的损失函数符合第一预设条件的情况下,确定所述有声段产生式模型为训练好的有声段产生式模型;
所述根据所述无声段训练的损失函数对所述无声段产生式模型的模型参数进行优化之后,所述方法还包括:
在所述无声段训练的损失函数符合第二预设条件的情况下,确定所述无声段产生式模型为训练好的无声段产生式模型。
8.根据权利要求7所述的方法,其特征在于,所述确定所述有声段产生式模型为训练好的有声段产生式模型之后,所述方法还包括:
从虚警训练数据集中获取有声段训练语音样本,将所述有声段训练语音样本输入所述训练好的有声段产生式模型,得到训练语音样本的有声段编码误差或有声段产生概率;
将所述虚警训练数据集中的第一预设数量的训练语音样本的有声段编码误差按照从高到低排序后排名为第一预设阈值的有声段编码误差作为目标有声段编码误差,所述第一预设阈值为所述第一预设数量与第一预设虚警率之积;或者,
将所述虚警训练数据集中的第二预设数量的训练语音样本的有声段产生概率按照从低到高排序后排名为第二预设阈值的有声段产生概率作为目标有声段产生概率,所述第二预设阈值为所述第二预设数量与第二预设虚警率之积;
其中,所述目标有声段编码误差为所述第一阈值,所述目标有声段产生概率为所述第三阈值。
9.根据权利要求8所述的方法,其特征在于,所述确定所述无声段产生式模型为训练好的无声段产生式模型之后,所述方法还包括:
从所述虚警训练数据集中获取无声段训练语音样本,将所述无声段训练语音样本输入所述训练好的无声段产生式模型,得到训练语音样本的无声段编码误差或无声段产生概率;
将所述虚警训练数据集中的第三预设数量的训练语音样本的无声段编码误差按照从高到低排序后排名为第三预设阈值的无声段编码误差作为目标无声段编码误差,所述第三预设阈值为所述第三预设数量与第三预设虚警率之积;或者,
将所述虚警训练数据集中的第四预设数量的训练语音样本的无声段产生概率按照从低到高排序后排名为第四预设阈值的无声段产生概率作为目标无声段产生概率,所述第四预设阈值为所述第四预设数量与第四预设虚警率之积;
其中,所述目标无声段编码误差为所述第二阈值,所述目标无声段产生概率为所述第四阈值。
10.一种音质异常数据检测装置,其特征在于,所述装置应用于口语考试过程中的用户语音数据的异常检测,所述装置包括:
接收单元,用于接收用户语音数据;
确定单元,用于通过语音活动检测确定所述用户语音数据中的有声段语音数据和无声段语音数据;
提取单元,用于提取所述有声段语音数据中的有声段声学特征,提取所述无声段语音数据中的无声段声学特征;
检测单元,用于将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果;所述有声段产生式模型采用正常有声段样本进行训练,所述无声段产生式模型采用正常无声段样本进行训练;
判别单元,用于根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据;
所述有声段产生式模型包括有声段神经网络模型,所述无声段产生式模型包括无声段神经网络模型;所述检测单元将所述有声段声学特征输入训练好的有声段产生式模型,得到所述用户语音数据的有声段检测结果,将所述无声段声学特征输入训练好的无声段产生式模型,得到所述用户语音数据的无声段检测结果,具体为:将所述有声段声学特征输入训练好的有声段神经网络模型,得到所述用户语音数据的有声段编码误差,将所述无声段声学特征输入训练好的无声段神经网络模型,得到所述用户语音数据的无声段编码误差;
所述判别单元根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据,具体为:在所述有声段编码误差大于第一阈值,并且所述无声段编码误差大于第二阈值的情况下,确定所述用户语音数据为音质异常数据;在所述有声段编码误差小于所述第一阈值,或者所述无声段编码误差小于所述第二阈值的情况下,确定所述用户语音数据为音质正常数据。
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1~9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911379585.1A CN110910900B (zh) | 2019-12-27 | 2019-12-27 | 音质异常数据检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911379585.1A CN110910900B (zh) | 2019-12-27 | 2019-12-27 | 音质异常数据检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110910900A CN110910900A (zh) | 2020-03-24 |
CN110910900B true CN110910900B (zh) | 2022-08-05 |
Family
ID=69828126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911379585.1A Active CN110910900B (zh) | 2019-12-27 | 2019-12-27 | 音质异常数据检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110910900B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516970A (zh) * | 2020-03-27 | 2021-10-19 | 北京奇虎科技有限公司 | 基于语言模型的报警方法、设备、存储介质及装置 |
CN111477248B (zh) * | 2020-04-08 | 2023-07-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频噪声检测方法及装置 |
CN113576412B (zh) * | 2021-07-27 | 2022-03-04 | 上海交通大学医学院附属第九人民医院 | 一种基于机器学习语音技术的困难气道评估方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324229B (zh) * | 2011-09-08 | 2012-11-28 | 中国科学院自动化研究所 | 语音输入设备使用异常的检测方法及系统 |
CN108592812B (zh) * | 2018-05-10 | 2019-12-31 | 电子科技大学 | 风机叶片光纤载荷应变特征提取及裂纹监测方法 |
CN110189769B (zh) * | 2019-05-23 | 2021-11-19 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
CN110333783B (zh) * | 2019-07-10 | 2020-08-28 | 中国科学技术大学 | 一种用于鲁棒肌电控制的无关手势处理方法及系统 |
-
2019
- 2019-12-27 CN CN201911379585.1A patent/CN110910900B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110910900A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
US10878823B2 (en) | Voiceprint recognition method, device, terminal apparatus and storage medium | |
CN110910900B (zh) | 音质异常数据检测方法、装置、电子设备及存储介质 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
WO2021201970A1 (en) | Generating and using text-to-speech data for speech recognition models | |
CN103400577A (zh) | 多语种语音识别的声学模型建立方法和装置 | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN108899033B (zh) | 一种确定说话人特征的方法及装置 | |
CN110136696B (zh) | 音频数据的监控处理方法和系统 | |
CN108615533A (zh) | 一种基于深度学习的高性能语音增强方法 | |
CN110600014A (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN110797049A (zh) | 一种语音评测方法及相关装置 | |
CN109300339A (zh) | 一种英语口语的练习方法及系统 | |
KR101862982B1 (ko) | LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법 | |
CN110739006B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN113658596A (zh) | 语意辨识方法与语意辨识装置 | |
CN116230018A (zh) | 一种用于语音合成系统的合成语音质量评估方法 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
CN114171004A (zh) | 语音交互方法、装置、电子设备及存储介质 | |
Khanum et al. | Text independent gender identification in noisy environmental conditions | |
CN110689875A (zh) | 一种语种识别方法、装置及可读存储介质 | |
CN112069354A (zh) | 一种音频数据的分类方法、装置、设备和存储介质 | |
CN111061909A (zh) | 一种伴奏分类方法和装置 | |
Xue et al. | Matlab-based intelligent voiceprint recognition system | |
CN111475634A (zh) | 基于座席语音切分的代表性话术片段抽取装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |