CN110782902A - 音频数据确定方法、装置、设备和介质 - Google Patents
音频数据确定方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN110782902A CN110782902A CN201911076290.7A CN201911076290A CN110782902A CN 110782902 A CN110782902 A CN 110782902A CN 201911076290 A CN201911076290 A CN 201911076290A CN 110782902 A CN110782902 A CN 110782902A
- Authority
- CN
- China
- Prior art keywords
- audio data
- candidate
- candidate audio
- audio
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 18
- 239000000203 mixture Substances 0.000 claims description 14
- 239000011295 pitch Substances 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000008451 emotion Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 10
- 230000000717 retained effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种音频数据确定方法、装置、设备和介质。所述方法包括:从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据;根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,以得到目标用户的目标音频数据,供添加到声纹库中。本发明实施例通过将目标用户的音频数据集中的语音类音频的音频数据,作为候选音频数据,并依据候选音频数据的音频参数和身份向量,确定目标用户的目标音频数据,供添加到声纹库中,本方法无需人工对音频数据进行审核,音频数据入库速度快,提高了声纹库的建库效率。
Description
技术领域
本发明实施例涉及语音识别处理技术领域,尤其涉及一种音频数据确定方法、装置、设备和介质。
背景技术
声纹识别,也叫做说话人识别,是一项根据语音波形中反映说话人生理和行为特征的语音参数,来识别话者身份的生物识别技术。在进行声纹识别时,通常是基于预先建立的声纹数据库进行识别,现有技术中的声纹数据库在建立时只存储有与被采集人员对应的声纹信息,在通过该声纹数据库进行声纹识别时,需要将待识别声纹与声纹数据库中存储的所有声纹信息进行逐一匹配。为了保证声纹数据库中声纹数据的可靠性,入库前需要对采集的音频数据进行筛选。
通常是由人工方式对采集的音频数据进行审核,但这种方式效率较低,并且当声纹数据库规模激增时,由于人工审核无法快速完成音频数据筛选,导致声纹识别的准确率降低。
发明内容
本发明实施例提供一种音频数据确定方法、装置、设备和介质,以解决现有声纹库建立时,音频数据入库速度慢,声纹库建库效率较低的问题。
第一方面,本发明实施例提供了一种音频数据确定方法,所述方法包括:
从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据;
根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,以得到目标用户的目标音频数据,供添加到声纹库中。
第二方面,本发明实施例提供了一种音频数据确定装置,所述装置包括:
候选音频数据确定模块,用于从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据;
目标音频数据获取模块,用于根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,以得到目标用户的目标音频数据,供添加到声纹库中。
第三方面,本发明实施例提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的音频数据确定方法。
第四方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的音频数据确定方法。
本发明实施例通过将目标用户的音频数据集中的语音类音频的音频数据,作为候选音频数据,并依据候选音频数据的音频参数和身份向量,确定目标用户的目标音频数据,供添加到声纹库中,本方法无需人工对音频数据进行审核,音频数据入库速度快,提高了声纹库的建库效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例一提供的一种音频数据确定方法的流程图;
图2为本发明实施例二提供的一种音频数据确定方法的流程图;
图3为本发明实施例三提供的一种音频数据确定装置的结构示意图;
图4为本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的结构而非全部结构。
实施例一
图1是本发明实施例一提供的一种音频数据确定方法的流程图。本实施例适用于将音频数据导入声纹库前,对音频数据进行筛选以得到适合入库的音频数据的情况,该方法可以由本发明实施例提供的音频数据确定装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,该方法可以包括:
步骤101、从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据。
其中,目标用户表示被采集音频数据的用户,其音频数据会导入声纹库作为该用户对应的声纹数据,每个用户被采集的音频数据都是以打包文件的形式存放在对应用户ID下。
具体的,音频数据采集目的是为了获取目标用户的语音类音频的音频数据,但是在采集过程中,可能会引入非语音类音频的音频数据,例如:音乐、彩铃、强噪音、长静音、振铃音、拨号音以及系统操作音等,考虑到非语音类音频的音频数据会对声纹建库和识别产生负面影响,需要对非语音类音频的音频数据进行滤除。
可选的,采用音频类型识别模型对所述音频数据集中包括的至少一条音频数据进行音频类型识别,以得到所述至少一条音频数据的音频类型;其中,识别的音频类型为语音类音频或非语音类音频;根据识别结果,将所述音频数据集中属于语音类音频的音频数据,作为候选音频数据。
其中,音频类型识别模型包括但不限于区分度训练模型、概率生成式模型和深度神经网络模型等。音频类型识别模型是通过对样本音频数据以及对应人工标注的音频类型进行训练得到的。将音频数据输入到训练好的音频类型识别模型中,即可得到输入音频数据对应的音频类型。
通过从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据,实现了对非语音类音频数据的滤除,保证了声纹库中声纹数据的可靠性,相应提高了基于声纹库声纹识别的准确率。
步骤102、根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,以得到目标用户的目标音频数据,供添加到声纹库中。
其中,音频参数是音频数据的自然属性,每条音频数据都具有不同的音频参数,而音频参数则体现了音频数据质量的好坏。身份向量是根据音频数据的声学特征得到的,因此其体现了音频数据的唯一性,根据身份向量即可区分音频数据是否为同一用户的音频数据。
具体的,由于采集的音频数据质量良莠不齐,为了提高基于声纹库的声纹识别准确率,需要将质量差的音频数据滤除掉;并且,由于声纹库中同一用户的声纹数据必须只包含该用户的音频数据,而在音频数据采集过程中,用户的ID可能会被别人冒用或者攻击,从而导致该用户被采集的音频数据中包含了其它人的音频数据,因此需要将不属于目标用户的音频数据滤除掉。
可选的,步骤102包括:
A、根据所述候选音频数据的音频参数,对所述候选音频数据进行筛选;其中所述音频参数包括有效时长、信噪比、平均幅度值、音节数以及文本识别信息中的至少一种。
其中,有效时长和音节数体现了音频数据包含信息的多少,信噪比体现了音频数据失真的程度,平均幅度值体现了音频数据的响度;文本识别信息是音频数据经过语音识别后的文本形式,当声纹库是用于声纹考勤或打卡时,则需要文本识别信息与预设文本信息相似。
可选的,若任一候选音频数据的有效时长大于或等于时长门限值,则保留该候选音频数据;若任一候选音频数据的信噪比大于或等于信噪比门限值,则保留该候选音频数据;若任一候选音频数据的平均幅度值大于或等于幅度值门限值,则保留该候选音频数据;若任一候选音频数据的音节数大于或等于音节数门限值,则保留该候选音频数据;若任一候选音频数据的文本识别信息与预设文本信息之间的文本相似度大于或等于第一相似度门限值,则保留该候选音频数据。
B、根据剩余的候选音频数据的身份向量,对剩余的候选音频数据进行筛选。
可选的,基于候选音频数据的身份向量,对候选音频数据进行交叉验证:
对剩余的候选音频数据进行声纹特征提取,得到剩余的各候选音频数据的身份向量;根据所述身份向量,确定剩余的各候选音频数据与其它剩余的候选音频数据之间的相似度均值;将所述相似度均值大于或等于第二相似度门限值的剩余的候选音频数据,作为目标用户的目标音频数据。
通过根据候选音频数据的音频参数和身份向量,对候选音频数据进行筛选,以得到目标用户的目标音频数据,保证了入库音频数据的质量较高,且同一用户的声纹数据与该用户唯一的对应。
本发明实施例提供的技术方案,通过将目标用户的音频数据集中的语音类音频的音频数据,作为候选音频数据,并依据候选音频数据的音频参数和身份向量,确定目标用户的目标音频数据,供添加到声纹库中,本方法无需人工对音频数据进行审核,音频数据入库速度快,提高了声纹库的建库效率。
在上述实施例的基础上,步骤102之后,可选的还包括:
A、确定目标用户的目标音频数据的语种信息、方言信息和情感信息。
其中,语种信息和方言信息的确定不仅在于语言自身独有的音素种类,而且还在于音素间特有的连接关系。语种信息和方言信息通常根据具体的任务需求选定目标语种/方言的范围。情感信息可细分为高兴、愤怒、恐惧、惊奇、悲伤、厌恶、中性等,也可以只分为正面、负面、中性情绪三大类。
可选的,采用传统的语种识别算法和方言识别算法,分别对目标用户的目标音频数据进行识别,确定目标用户的目标音频数据的语种信息和方言信息。
可选的,利用语种信息识别模型和方言信息识别模型,分别对目标用户的目标音频数据进行识别,确定目标用户的目标音频数据的语种信息和方言信息,其中,语种信息识别模型和方言信息识别模型,是通过采用深度学习算法对样本数据进行训练得到的。
可选的,利用情感信息识别模型,分别对目标用户的目标音频数据进行识别,确定目标用户的目标音频数据的情感信息,其中,情感信息识别模型是通过采用深度学习算法对样本数据进行训练得到的。
B、根据确定结果,为所述目标音频数据添加单条音频标签。
其中,单条音频标签包括单条语种信息标签、单条方言信息标签和单条情感信息标签。
具体的,由于用户通常能运用一种以上的语种/方言,例如,目标用户的目标音频数据可能包含工作中使用的汉语普通话语音、生活中使用的方言语音以及在某些场景使用的外语语音,因此为目标音频数据中的每条音频数据添加单条语种信息标签和单条方言信息标签。而由于每条音频数据的情绪受发声过程中心理和生理状态的影响,即每条音频数据的情感状态是不同的,因此为目标音频数据中的每条音频数据添加单条情感信息标签。
通过为目标音频数据添加单条音频标签,可以在包括公共安全领域,辅助使用者缩小搜索范围,快速确定目标对象。
在上述实施例的基础上,步骤102之后,可选的还包括:
A、根据目标用户的目标音频数据,确定目标用户的年龄和性别。
具体的,由于目标用户的年龄一致和性别不变,为了提高添加音频标签的效率,确定目标用户的年龄和性别时,无需识别每条音频数据。
可选的,采用随机采样的方法,在目标音频数据中获取采样音频数据,并利用现有的年龄识别算法和性别识别算法,确定采样音频数据中的年龄和性别,并将采样音频数据中识别的年龄和性别,作为目标用户的年龄和性别。
B、根据确定结果,为目标音频数据所属的目标音频集添加整体音频标签。
具体的,根据目标用户的年龄和性别,生成年龄标签和性别标签,并将年龄标签和性别标签作为目标音频数据所属的目标音频集的整体音频标签。
通过根据目标用户的年龄和性别,为目标音频数据所属的目标音频集添加整体音频标签,提高了添加音频标签的效率,使得目标用户对应的目标音频集所有的目标音频数据共享音频标签。
实施例二
图2为本发明实施例二提供的一种音频数据确定方法的流程图。本实施例为上述实施例一提供了一种具体实现方式,如图2所示,该方法可以包括:
步骤201、采用音频类型识别模型对目标用户的音频数据集中包括的至少一条音频数据进行音频类型识别。
当目标用户的音频数据包含多人语音时,例如会议音频和访谈场景音频时,此时需要针对一条音频数据中包含的用户语音,分别进行音频类型识别。
可选的:
A、将目标用户的音频数据集中包括的至少一条音频数据,按时间窗进行切分,并从每个时间窗的音频数据中提取音频特征。
具体的,时间窗的长短可由用户自行设置,可选的包括500ms,时间窗内按帧提取音频特征,帧长通常为25ms。音频特征可选的包括,平均能量均值、平均能量标准方差、最大频点能量均值、最大频点能量标准方差、过零率均值、过零率标准方差、谱带宽均值、谱带宽标准方差、谱滚降均值以及谱滚降标准方差中的至少一种。
B、采用音频类型识别模型对提取的音频特征进行音频类型识别,以得到每个时间窗的音频数据的音频类型。
具体的,语音类音频的音频特征与非语音类音频的音频特征,在数值上存在差异,根据音频数据的音频特征即可区分出语音类音频和非语音类音频。
可选的,音频类型识别模型是通过对样本音频特征以及对应人工标注的音频类型进行训练得到的。将音频特征输入到训练好的音频类型识别模型中,即可得到音频特征对应时间窗音频数据的音频类型。
通过对音频数据按时间窗切分,使得每个时间窗中的音频数据都属于同一用户;并将每个时间窗中的音频数据的音频特征,输入到音频类型识别模型中,确定每个时间窗的音频数据的音频类型,实现了多用户对话音频数据的音频类型识别。
步骤202、根据识别结果,将所述音频数据集中属于语音类音频的音频数据,作为候选音频数据。
步骤203、根据所述候选音频数据的音频参数,对所述候选音频数据进行筛选。
其中,音频参数包括有效时长、信噪比、平均幅度值、音节数以及文本识别信息中的至少一种。
可选的,若任一候选音频数据的有效时长大于或等于时长门限值,则保留该候选音频数据。
其中,有效时长是指发某个音段或语音成分所用的时间,由声波持续的时间长短决定,即音频中有效音素的持续时间。
具体的,从任一候选音频数据中进行采样,并通过语音活动检测技术计算采样点的有效时长,若有效时长大于或等于时长门限值,则保留该候选音频数据。
可选的,若任一候选音频数据的信噪比大于或等于信噪比门限值,则保留该候选音频数据。
具体的,从任一候选音频数据中读取采样值,并计算采样点的信号功率ps以及噪声功率pn,利用公式SNR=10*lg(ps/pn)来计算信噪比,若信噪比大于或等于信噪比门限值,则保留该候选音频数据,其中,SNR表示音频的信噪比。
可选的,若任一候选音频数据的平均幅度值大于或等于幅度值门限值,则保留该候选音频数据。
具体的,从任一候选音频数据中获取有效语音数据;考虑到音频数据在采集传输过程中可能会被压缩,将有效语音数据转码至16bit线性;对转码后的有效语音数据读取采样值,并根据公式确定采样点的平均幅度值,若平均幅度值大于或等于幅度值门限值,则保留该候选音频数据,其中M表示采样点的平均幅度值,x(m)表示采样点的幅度值,N表示采样点的总个数。
可选的,若任一候选音频数据的音节数大于或等于音节数门限值,则保留该候选音频数据。
其中,音节是由一个元音,或在该元音前后紧接着伴有一个或多个辅音而构成的语音片段。音节数包括总音节数和不同音节数,总音节数体现了音频数据包含信息的多少,而不同音节数则体现了音频数据包含信息的丰富程度。
具体的,若任一候选音频数据的总音节数大于或等于第一音节数门限值,且不同音节数大于或等于第二音节数门限值,则保留该候选音频数据,其中第一音节数门限值可选的为4,第二音节数门限值可选的为2。
可选的,若任一候选音频数据的文本识别信息与预设文本信息之间的文本相似度大于或等于第一相似度门限值,则保留该候选音频数据。
在文本相关或者文本提示的声纹库应用中,还需要检验语音内容的一致性,例如基于固定密码和基于数字串的声纹场景。
具体的,利用现有的语音识别技术将任一候选音频数据转化为文本识别信息,并利用文本相似度算法计算文本识别信息与预设文本信息之间的文本相似度,若文本相似度大于或等于第一相似度门限值,则保留该候选音频数据。
步骤204、对剩余的候选音频数据进行声纹特征提取,得到剩余的各候选音频数据的身份向量。
具体的,各候选音频数据的身份向量是基于候选音频数据的声学特征得到的。
可选的,步骤204包括:
A、提取剩余的候选音频数据的声学特征,并根据所述声学特征建立高斯混合模型。
其中,声学特征包括但不限于MFCC(Mel-scale Frequency CepstralCoefficients,梅尔倒谱系数)和PLP(Perceptual Linear Predictive,感知线性预测)等。高斯混合模型中高斯分量的数量可根据经验设置,可选的为1024个。
B、根据所述高斯混合模型中每个高斯分量的均值向量,确定所述高斯混合模型的均值超矢量。
具体的,将高斯混合模型的每个高斯分量的均值向量排列在一起组成一个超向量,称为高斯混合模型的均值超矢量。
示例性的,假设高斯混合模型中高斯分量的数量为1024个,音频数据的维数为60维,则高斯混合模型的均值超矢量为一个60×1024维的超矢量。
C、对所述均值超矢量进行降维操作,得到所述剩余的各候选音频数据的身份向量。
具体的,通过矩阵投影技术将均值超矢量进行降维,将降维后的均值超矢量经过线性区分分析处理去除信道等干扰之后,作为剩余的各候选音频数据的身份向量。
步骤205、根据所述身份向量,确定剩余的各候选音频数据与其它剩余的候选音频数据之间的相似度均值。
具体的,计算剩余的各候选音频数据的身份向量,与其它剩余的候选音频数据的身份向量之间的相似度,其中,相似度可选的包括余弦距离或概率线性区分分析等;并利用公式计算相似度均值,其中,Cj表示剩余的候选音频数据,SIMk表示Cj中第k条候选音频数据的相似度均值,表示Cj中第k条候选音频数据与除它之外的候选音频数据的两两相似度的求和,#count表示求和的个数。
步骤206、将所述相似度均值大于或等于第二相似度门限值的剩余的候选音频数据,作为目标用户的目标音频数据。
具体的,第二相似度门限值可以由技术人员根据经验直接设置,也可以通过建模的方式确定。
可选的,根据剩余的候选音频数据的相似度均值建立高斯模型,根据建立的高斯模型确定高斯均值mean和高斯标准差stdev,并将mean-α*stdev作为第二相似度门限值,其中,α为根据经验设立的常数,将相似度均值大于或等于第二相似度门限值的剩余的候选音频数据,作为目标用户的目标音频数据。
本发明实施例提供的技术方案,通过采用音频类型识别模型识别音频数据的音频类型,并将语音类音频的音频数据,作为候选音频数据,保证了入库音频数据皆为语音数据;通过根据候选音频数据的音频参数,对所述候选音频数据进行筛选,保证了入库音频数据的质量;通过根据剩余的各候选音频数据与其它剩余的候选音频数据之间的相似度均值,将相似度均值大于或等于第二相似度门限值的剩余的候选音频数据,作为目标用户的目标音频数据,保证了入库音频数据与目标用户唯一的对应,提高了声纹库中声纹数据的准确性。
实施例三
图3为本发明实施例三提供的一种音频数据确定装置的结构示意图,可执行本发明任一实施例所提供的一种音频数据确定方法,具备执行方法相应的功能模块和有益效果。如图3所示,该装置可以包括:
候选音频数据确定模块31,用于从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据;
目标音频数据获取模块32,用于根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,以得到目标用户的目标音频数据,供添加到声纹库中。
在上述实施例的基础上,所述候选音频数据确定模块31,具体用于:
采用音频类型识别模型对所述音频数据集中包括的至少一条音频数据进行音频类型识别,以得到所述至少一条音频数据的音频类型;其中,识别的音频类型为语音类音频或非语音类音频;
根据识别结果,将所述音频数据集中属于语音类音频的音频数据,作为候选音频数据。
在上述实施例的基础上,所述目标音频数据获取模块32,具体用于:
根据所述候选音频数据的音频参数,对所述候选音频数据进行筛选;其中所述音频参数包括有效时长、信噪比、平均幅度值、音节数以及文本识别信息中的至少一种;
根据剩余的候选音频数据的身份向量,对剩余的候选音频数据进行筛选。
在上述实施例的基础上,所述目标音频数据获取模块32,具体还用于:
若任一候选音频数据的有效时长大于或等于时长门限值,则保留该候选音频数据;
若任一候选音频数据的信噪比大于或等于信噪比门限值,则保留该候选音频数据;
若任一候选音频数据的平均幅度值大于或等于幅度值门限值,则保留该候选音频数据;
若任一候选音频数据的音节数大于或等于音节数门限值,则保留该候选音频数据;
若任一候选音频数据的文本识别信息与预设文本信息之间的文本相似度大于或等于第一相似度门限值,则保留该候选音频数据。
在上述实施例的基础上,所述音节数包括总音节数和不同音节数;所述目标音频数据获取模块32,具体还用于:
若任一候选音频数据的音节数大于或等于音节数门限值,包括:
若任一候选音频数据的总音节数大于或等于第一音节数门限值,且不同音节数大于或等于第二音节数门限值。
在上述实施例的基础上,所述目标音频数据获取模块32,具体还用于:
对剩余的候选音频数据进行声纹特征提取,得到剩余的各候选音频数据的身份向量;
根据所述身份向量,确定剩余的各候选音频数据与其它剩余的候选音频数据之间的相似度均值;
将所述相似度均值大于或等于第二相似度门限值的剩余的候选音频数据,作为目标用户的目标音频数据。
在上述实施例的基础上,所述目标音频数据获取模块32,具体还用于:
提取剩余的候选音频数据的声学特征,并根据所述声学特征建立高斯混合模型;
根据所述高斯混合模型中每个高斯分量的均值向量,确定所述高斯混合模型的均值超矢量;
对所述均值超矢量进行降维操作,得到所述剩余的各候选音频数据的身份向量。
在上述实施例的基础上,所述装置还包括单条音频标签添加模块,具体用于:
确定目标用户的目标音频数据的语种信息、方言信息和情感信息;
根据确定结果,为所述目标音频数据添加单条音频标签。
在上述实施例的基础上,所述装置还包括整体音频标签添加模块,具体用于:
根据目标用户的目标音频数据,确定目标用户的年龄和性别;
根据确定结果,为目标音频数据所属的目标音频集添加整体音频标签。
本发明实施例所提供的一种音频数据确定装置,可执行本发明任一实施例所提供的一种音频数据确定方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任一实施例提供的一种音频数据确定方法。
实施例四
图4为本发明实施例四提供的一种设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性设备400的框图。图4显示的设备400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,设备400以通用计算设备的形式表现。设备400的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备400典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备400访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。设备400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统406可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
设备400也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该设备400交互的设备通信,和/或与使得该设备400能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,设备400还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器412通过总线403与设备400的其它模块通信。应当明白,尽管图中未示出,可以结合设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的音频数据确定方法,包括:
从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据;
根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,以得到目标用户的目标音频数据,供添加到声纹库中。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种音频数据确定方法,该方法包括:
从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据;
根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,以得到目标用户的目标音频数据,供添加到声纹库中。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种音频数据确定方法中的相关操作。本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种音频数据确定方法,其特征在于,所述方法包括:
从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据;
根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,以得到目标用户的目标音频数据,供添加到声纹库中。
2.根据权利要求1所述的方法,其特征在于,从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据,包括:
采用音频类型识别模型对所述音频数据集中包括的至少一条音频数据进行音频类型识别,以得到所述至少一条音频数据的音频类型;其中,识别的音频类型为语音类音频或非语音类音频;
根据识别结果,将所述音频数据集中属于语音类音频的音频数据,作为候选音频数据。
3.根据权利要求1所述的方法,其特征在于,根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,包括:
根据所述候选音频数据的音频参数,对所述候选音频数据进行筛选;其中所述音频参数包括有效时长、信噪比、平均幅度值、音节数以及文本识别信息中的至少一种;
根据剩余的候选音频数据的身份向量,对剩余的候选音频数据进行筛选。
4.根据权利要求3所述的方法,其特征在于,根据所述候选音频数据的音频参数,对所述候选音频数据进行筛选,包括如下至少一项:
若任一候选音频数据的有效时长大于或等于时长门限值,则保留该候选音频数据;
若任一候选音频数据的信噪比大于或等于信噪比门限值,则保留该候选音频数据;
若任一候选音频数据的平均幅度值大于或等于幅度值门限值,则保留该候选音频数据;
若任一候选音频数据的音节数大于或等于音节数门限值,则保留该候选音频数据;
若任一候选音频数据的文本识别信息与预设文本信息之间的文本相似度大于或等于第一相似度门限值,则保留该候选音频数据。
5.根据权利要求4所述的方法,其特征在于,所述音节数包括总音节数和不同音节数;
若任一候选音频数据的音节数大于或等于音节数门限值,包括:
若任一候选音频数据的总音节数大于或等于第一音节数门限值,且不同音节数大于或等于第二音节数门限值。
6.根据权利要求3所述的方法,其特征在于,根据剩余的候选音频数据的身份向量,对剩余的候选音频数据进行筛选,包括:
对剩余的候选音频数据进行声纹特征提取,得到剩余的各候选音频数据的身份向量;
根据所述身份向量,确定剩余的各候选音频数据与其它剩余的候选音频数据之间的相似度均值;
将所述相似度均值大于或等于第二相似度门限值的剩余的候选音频数据,作为目标用户的目标音频数据。
7.根据权利要求6所述的方法,其特征在于,对剩余的候选音频数据进行声纹特征提取,得到剩余的各候选音频数据的身份向量,包括:
提取剩余的候选音频数据的声学特征,并根据所述声学特征建立高斯混合模型;
根据所述高斯混合模型中每个高斯分量的均值向量,确定所述高斯混合模型的均值超矢量;
对所述均值超矢量进行降维操作,得到所述剩余的各候选音频数据的身份向量。
8.一种音频数据确定装置,其特征在于,所述装置包括:
候选音频数据确定模块,用于从目标用户的音频数据集中选择属于语音类音频的音频数据,作为候选音频数据;
目标音频数据获取模块,用于根据所述候选音频数据的音频参数和身份向量,对所述候选音频数据进行筛选,以得到目标用户的目标音频数据,供添加到声纹库中。
9.一种设备,其特征在于,所述设备还包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的音频数据确定方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的音频数据确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911076290.7A CN110782902A (zh) | 2019-11-06 | 2019-11-06 | 音频数据确定方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911076290.7A CN110782902A (zh) | 2019-11-06 | 2019-11-06 | 音频数据确定方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110782902A true CN110782902A (zh) | 2020-02-11 |
Family
ID=69389551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911076290.7A Pending CN110782902A (zh) | 2019-11-06 | 2019-11-06 | 音频数据确定方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110782902A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111653283A (zh) * | 2020-06-28 | 2020-09-11 | 讯飞智元信息科技有限公司 | 一种跨场景声纹比对方法、装置、设备及存储介质 |
CN112614478A (zh) * | 2020-11-24 | 2021-04-06 | 北京百度网讯科技有限公司 | 音频训练数据处理方法、装置、设备以及存储介质 |
CN112837690A (zh) * | 2020-12-30 | 2021-05-25 | 科大讯飞股份有限公司 | 一种音频数据生成方法、音频数据转写方法及其装置 |
CN114282941A (zh) * | 2021-12-20 | 2022-04-05 | 咪咕音乐有限公司 | 广告插入位置的确定方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730120A (zh) * | 2013-12-27 | 2014-04-16 | 深圳市亚略特生物识别科技有限公司 | 电子设备的语音控制方法及系统 |
US20170270914A1 (en) * | 2013-07-31 | 2017-09-21 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN108132995A (zh) * | 2017-12-20 | 2018-06-08 | 北京百度网讯科技有限公司 | 用于处理音频信息的方法和装置 |
CN108460081A (zh) * | 2018-01-12 | 2018-08-28 | 平安科技(深圳)有限公司 | 语音数据库创建方法、声纹注册方法、装置、设备及介质 |
CN108597525A (zh) * | 2018-04-25 | 2018-09-28 | 四川远鉴科技有限公司 | 语音声纹建模方法及装置 |
CN109448699A (zh) * | 2018-12-15 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 语音转换文本方法、装置、计算机设备及存储介质 |
CN109727602A (zh) * | 2018-12-29 | 2019-05-07 | 苏州思必驰信息科技有限公司 | 一种移动设备终端的声纹识别方法及装置 |
CN110264999A (zh) * | 2019-03-27 | 2019-09-20 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
CN110364178A (zh) * | 2019-07-22 | 2019-10-22 | 出门问问(苏州)信息科技有限公司 | 一种语音处理方法、装置、存储介质和电子设备 |
-
2019
- 2019-11-06 CN CN201911076290.7A patent/CN110782902A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170270914A1 (en) * | 2013-07-31 | 2017-09-21 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
CN103730120A (zh) * | 2013-12-27 | 2014-04-16 | 深圳市亚略特生物识别科技有限公司 | 电子设备的语音控制方法及系统 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN108132995A (zh) * | 2017-12-20 | 2018-06-08 | 北京百度网讯科技有限公司 | 用于处理音频信息的方法和装置 |
CN108460081A (zh) * | 2018-01-12 | 2018-08-28 | 平安科技(深圳)有限公司 | 语音数据库创建方法、声纹注册方法、装置、设备及介质 |
CN108597525A (zh) * | 2018-04-25 | 2018-09-28 | 四川远鉴科技有限公司 | 语音声纹建模方法及装置 |
CN109448699A (zh) * | 2018-12-15 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 语音转换文本方法、装置、计算机设备及存储介质 |
CN109727602A (zh) * | 2018-12-29 | 2019-05-07 | 苏州思必驰信息科技有限公司 | 一种移动设备终端的声纹识别方法及装置 |
CN110264999A (zh) * | 2019-03-27 | 2019-09-20 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
CN110364178A (zh) * | 2019-07-22 | 2019-10-22 | 出门问问(苏州)信息科技有限公司 | 一种语音处理方法、装置、存储介质和电子设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111653283A (zh) * | 2020-06-28 | 2020-09-11 | 讯飞智元信息科技有限公司 | 一种跨场景声纹比对方法、装置、设备及存储介质 |
CN111653283B (zh) * | 2020-06-28 | 2024-03-01 | 讯飞智元信息科技有限公司 | 一种跨场景声纹比对方法、装置、设备及存储介质 |
CN112614478A (zh) * | 2020-11-24 | 2021-04-06 | 北京百度网讯科技有限公司 | 音频训练数据处理方法、装置、设备以及存储介质 |
CN112614478B (zh) * | 2020-11-24 | 2021-08-24 | 北京百度网讯科技有限公司 | 音频训练数据处理方法、装置、设备以及存储介质 |
CN112837690A (zh) * | 2020-12-30 | 2021-05-25 | 科大讯飞股份有限公司 | 一种音频数据生成方法、音频数据转写方法及其装置 |
CN112837690B (zh) * | 2020-12-30 | 2024-04-16 | 科大讯飞股份有限公司 | 一种音频数据生成方法、音频数据转写方法及其装置 |
CN114282941A (zh) * | 2021-12-20 | 2022-04-05 | 咪咕音乐有限公司 | 广告插入位置的确定方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107409061B (zh) | 用于语音总结的方法和系统 | |
Chauhan et al. | Speaker recognition using LPC, MFCC, ZCR features with ANN and SVM classifier for large input database | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
Reddy | Speech recognition by machine: A review | |
EP1199708B1 (en) | Noise robust pattern recognition | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
Kelly et al. | Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
CN112233680B (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN110008481B (zh) | 翻译语音生成方法、装置、计算机设备和存储介质 | |
CN110738998A (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
CN110797032B (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
Kopparapu | Non-linguistic analysis of call center conversations | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
Koolagudi et al. | Dravidian language classification from speech signal using spectral and prosodic features | |
Kanabur et al. | An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition | |
CN113129895A (zh) | 一种语音检测处理系统 | |
CN111429919A (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
CN113053409B (zh) | 音频测评方法及装置 | |
CN110853674A (zh) | 文本核对方法、设备以及计算机可读存储介质 | |
Balpande et al. | Speaker recognition based on mel-frequency cepstral coefficients and vector quantization | |
CN113658599A (zh) | 基于语音识别的会议记录生成方法、装置、设备及介质 | |
Imam et al. | Speaker recognition using automated systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200211 |