CN112185347A - 语种识别方法、装置、服务器及存储介质 - Google Patents
语种识别方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN112185347A CN112185347A CN202011033457.4A CN202011033457A CN112185347A CN 112185347 A CN112185347 A CN 112185347A CN 202011033457 A CN202011033457 A CN 202011033457A CN 112185347 A CN112185347 A CN 112185347A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- detected
- language
- voiceprint
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000005236 sound signal Effects 0.000 claims abstract description 547
- 238000000605 extraction Methods 0.000 claims abstract description 85
- 238000013528 artificial neural network Methods 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims description 88
- 238000012549 training Methods 0.000 claims description 34
- 238000001914 filtration Methods 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 28
- 230000009467 reduction Effects 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 5
- 230000002349 favourable effect Effects 0.000 abstract description 8
- 238000001228 spectrum Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 15
- 239000000284 extract Substances 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本公开关于一种语种识别方法、装置、服务器及存储介质,该方法包括:获取待检测音频信号中的声学特征;将声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征;根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值;根据各个对数似然比值,确定待检测音频信号与各个预设语种音频信号之间的特征相似度;根据特征相似度,从各个预设语种音频信号对应的语种信息中,确定待检测音频信号的语种信息。采用本方法,有利于提高语种识别的准确度。
Description
技术领域
本公开涉及语音识别技术领域,尤其涉及一种语种识别方法、装置、服务器及存储介质。
背景技术
随着互联网技术的发展,网络上的视频多种多样,包括不同语种信息的视频,而不同地区的用户对不同语种信息的视频的喜好是完全不同的,故识别出视频中的音频信号对应的语种信息显得非常重要。
相关技术中,对语种的识别方法,一般是通过人工对视频中的音频信号的语种信息进行识别;但是,通过人工识别语种信息,容易出现错误,导致语种识别的准确度较低。
发明内容
本公开提供一种语种识别方法、装置、服务器及存储介质,以至少解决相关技术中语种识别的准确度较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种语种识别方法,包括:
获取待检测音频信号中的声学特征;
将所述声学特征输入预先训练的声纹特征提取网络模型中,得到所述预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为所述待检测音频信号中的声纹特征;所述预先训练的声纹特征提取网络模型是根据音频样本数据集合,基于预设的神经网络训练得到的,所述音频样本数据集合包括不同语种的样本音频信号的声学特征;
根据所述待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值;所述对数似然比值用于表征所述待检测音频信号与预设语种音频信号之间的相似程度;
根据各个所述对数似然比值,确定所述待检测音频信号与各个所述预设语种音频信号之间的特征相似度;
根据所述特征相似度,从各个所述预设语种音频信号对应的语种信息中,确定所述待检测音频信号的语种信息。
在一示例性实施例中,所述预先训练的声纹特征提取网络模型通过下述方式训练得到:
滤除各个所述样本音频信号中的声学特征中的静音特征,得到各个所述样本音频信号中的目标声学特征;
分别将各个所述样本音频信号中的目标声学特征输入所述预设的神经网络,得到所述预设的神经网络中所述目标神经网络层输出的各个所述样本音频信号中的预测声纹特征;
根据各个所述样本音频信号中的预测声纹特征和对应的实际声纹特征之间的差值,得到所述预设的神经网络的损失值;根据所述损失值调整所述预设的神经网络的网络参数,直到所述损失值小于第一预设阈值时,则将网络参数调整后的预设的神经网络,作为所述预先训练的声纹特征提取网络模型。
在一示例性实施例中,所述根据所述待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值,包括:
分别将所述待检测音频信号中的声纹特征以及预设语种音频信号中的声纹特征进行预处理,得到所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征;所述预处理包括数据降维处理和数据归一化处理;
将所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征输入预先训练的语种识别模型,通过所述预先训练的语种识别模型对所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征进行概率线性判别分析处理,得到所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值。
在一示例性实施例中,所述预先训练的语种识别模型通过下述方式训练得到:
将各个所述样本音频信号中的声学特征输入所述预先训练的声纹特征提取网络模型中,分别得到所述预先训练的声纹特征提取网络模型中所述目标神经网络层输出的特征,对应作为各个所述样本音频信号中的声纹特征;
根据各个所述样本音频信号中的声纹特征,对待训练的语种识别模型进行训练,直到训练后的语种识别模型的损失值小于第二预设阈值时,则将所述训练后的语种识别模型,作为所述预先训练的语种识别模型。
在一示例性实施例中,所述根据各个所述样本音频信号中的声纹特征,对待训练的语种识别模型进行训练,包括:
获取各个所述样本音频信号中的声纹特征的平均值;
对所述平均值进行数据降维处理和数据归一化处理;
根据数据降维处理和数据归一化处理后的所述平均值,对待训练的语种识别模型进行训练。
在一示例性实施例中,所述根据所述特征相似度,从各个所述预设语种音频信号对应的语种信息中,确定所述待检测音频信号的语种信息,包括:
从所述待检测音频信号与各个所述预设语种音频信号之间的特征相似度中,筛选出最大的特征相似度;
若所述最大的特征相似度大于对应的阈值,则将所述最大的特征相似度对应的预设语种音频信号的语种信息,作为所述待检测音频信号的语种信息。
在一示例性实施例中,在获取待检测音频信号中的声学特征之后,还包括:
滤除所述待检测音频信号的声学特征中的静音特征,得到所述待检测音频信号中的目标声学特征;
所述将所述声学特征输入预先训练的声纹特征提取网络模型中,得到所述预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为所述待检测音频信号中的声纹特征,包括:
将所述目标声学特征输入预先训练的声纹特征提取网络模型中,得到所述预先训练的声纹特征提取网络模型中所述目标神经网络层输出的特征,作为所述待检测音频信号中的声纹特征。
在一示例性实施例中,所述获取待检测音频信号中的声学特征,包括:
获取所述待检测音频信号对应的频谱信息;
根据所述待检测音频信号对应的频谱信息,获取所述待检测音频信号的功率谱信息;
将所述功率谱信息进行谐波滤波处理,并将谐波滤波处理后的所述功率谱信息进行倒谱分析处理,得到所述待检测音频信号中的声学特征。
根据本公开实施例的第二方面,提供一种视频推送方法,包括:
获取待推送视频中的待检测音频信号中的声学特征;
根据所述待检测音频信号中的声学特征,确定所述待检测音频信号的语种信息,作为所述待推送视频的语种信息;所述待检测音频信号的语种信息根据上述所述的语种识别方法得到;
根据所述语种信息,将所述待推送视频推送至对应的账户。
在一示例性实施例中,所述根据所述语种信息,将所述待推送视频推送至对应的账户,包括:
查询预设的语种信息与地区标识的对应关系,得到与所述语种信息对应的地区标识;
将所述待推送视频推送至所述地区标识对应的账户。
根据本公开实施例的第三方面,提供一种语种识别装置,包括:
声学特征获取单元,被配置为执行获取待检测音频信号中的声学特征;
声纹特征获取单元,被配置为执行将所述声学特征输入预先训练的声纹特征提取网络模型中,得到所述预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为所述待检测音频信号中的声纹特征;所述预先训练的声纹特征提取网络模型是根据音频样本数据集合,基于预设的神经网络训练得到的,所述音频样本数据集合包括不同语种的样本音频信号的声学特征;
比值确定单元,被配置为执行根据所述待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值;所述对数似然比值用于表征所述待检测音频信号与预设语种音频信号之间的相似程度;
特征相似度确定单元,被配置为执行根据各个所述对数似然比值,确定所述待检测音频信号与各个所述预设语种音频信号之间的特征相似度;
语种信息确定单元,被配置为执行根据所述特征相似度,从各个所述预设语种音频信号对应的语种信息中,确定所述待检测音频信号的语种信息。
在一示例性实施例中,所述装置还包括声纹特征提取网络模型训练单元,被配置为执行滤除各个所述样本音频信号中的声学特征中的静音特征,得到各个所述样本音频信号中的目标声学特征;分别将各个所述样本音频信号中的目标声学特征输入所述预设的神经网络,得到所述预设的神经网络中所述目标神经网络层输出的各个所述样本音频信号中的预测声纹特征;根据各个所述样本音频信号中的预测声纹特征和对应的实际声纹特征之间的差值,得到所述预设的神经网络的损失值;根据所述损失值调整所述预设的神经网络的网络参数,直到所述损失值小于第一预设阈值时,则将网络参数调整后的预设的神经网络,作为所述预先训练的声纹特征提取网络模型。
在一示例性实施例中,所述比值确定单元,还被配置为执行分别将所述待检测音频信号中的声纹特征以及预设语种音频信号中的声纹特征进行预处理,得到所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征;所述预处理包括数据降维处理和数据归一化处理;将所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征输入预先训练的语种识别模型,通过所述预先训练的语种识别模型对所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征进行概率线性判别分析处理,得到所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值。
在一示例性实施例中,所述装置还包括语种识别模型训练单元,被配置为执行将各个所述样本音频信号中的声学特征输入所述预先训练的声纹特征提取网络模型中,分别得到所述预先训练的声纹特征提取网络模型中所述目标神经网络层输出的特征,对应作为各个所述样本音频信号中的声纹特征;根据各个所述样本音频信号中的声纹特征,对待训练的语种识别模型进行训练,直到训练后的语种识别模型的损失值小于第二预设阈值时,则将所述训练后的语种识别模型,作为所述预先训练的语种识别模型。
在一示例性实施例中,所述语种识别模型训练单元,还被配置为执行获取各个所述样本音频信号中的声纹特征的平均值;对所述平均值进行数据降维处理和数据归一化处理;根据数据降维处理和数据归一化处理后的所述平均值,对待训练的语种识别模型进行训练。
在一示例性实施例中,所述语种信息确定单元,还被配置为执行从所述待检测音频信号与各个所述预设语种音频信号之间的特征相似度中,筛选出最大的特征相似度;若所述最大的特征相似度大于对应的阈值,则将所述最大的特征相似度对应的预设语种音频信号的语种信息,作为所述待检测音频信号的语种信息。
在一示例性实施例中,所述装置还包括静音特征滤除单元,被配置为执行滤除所述待检测音频信号的声学特征中的静音特征,得到所述待检测音频信号中的目标声学特征;
所述声纹特征获取单元,还被配置为执行将所述目标声学特征输入预先训练的声纹特征提取网络模型中,得到所述预先训练的声纹特征提取网络模型中所述目标神经网络层输出的特征,作为所述待检测音频信号中的声纹特征。
在一示例性实施例中,所述声学特征获取单元,还被配置为执行获取所述待检测音频信号对应的频谱信息;根据所述待检测音频信号对应的频谱信息,获取所述待检测音频信号的功率谱信息;将所述功率谱信息进行谐波滤波处理,并将谐波滤波处理后的所述功率谱信息进行倒谱分析处理,得到所述待检测音频信号中的声学特征。
根据本公开实施例的第四方面,提供一种视频推送装置,包括:
特征获取单元,被配置为执行获取待推送视频中的待检测音频信号中的声学特征;
语种识别单元,被配置为执行根据所述待检测音频信号中的声学特征,确定所述待检测音频信号的语种信息,作为所述待推送视频的语种信息;所述待检测音频信号的语种信息根据上述所述的语种识别方法得到;
信息推送单元,被配置为执行根据所述语种信息,将所述待推送视频推送至对应的账户。
在一示例性实施例中,所述信息推送单元,还被配置为执行查询预设的语种信息与地区标识的对应关系,得到与所述语种信息对应的地区标识;将所述待推送视频推送至所述地区标识对应的账户。
根据本公开实施例的第五方面,提供一种服务器,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面的任一项实施例中所述的语种识别方法,或者如第二方面的任一项实施例中所述的视频推送方法。
根据本公开实施例的第六方面,提供一种存储介质,包括:当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行第一方面的任一项实施例中所述的语种识别方法,或者第二方面的任一项实施例中所述的视频推送方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行第一方面的任一项实施例中所述的语种识别方法,或者第二方面的任一项实施例中所述的视频推送方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过获取待检测音频信号中的声学特征;然后将声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征;接着根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值;并根据各个对数似然比值,确定待检测音频信号与各个预设语种音频信号之间的特征相似度;最后根据特征相似度,从各个预设语种音频信号对应的语种信息中,确定待检测音频信号的语种信息;实现了根据待检测音频信号与各个预设语种音频信号之间的对数似然比值,自动确定待检测音频信号的语种信息的目的,综合考虑待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,有利于准确确认待检测音频信号与各个预设语种音频信号之间的相似程度,进而提高了语种识别的准确度,避免了通过人工识别语种信息,容易出现错误,导致语种识别的准确度较低的缺陷。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种语种识别方法的应用环境图。
图2是根据一示例性实施例示出的一种语种识别方法的流程图。
图3是根据一示例性实施例示出的Mini TDNN模型的结构的示意图。
图4是根据一示例性实施例示出的获取待检测音频信号的x-vector特征的流程图。
图5是根据一示例性实施例示出的获取待检测音频信号中的MFCC特征的流程图。
图6是根据一示例性实施例示出的训练声纹特征提取网络模型的流程图。
图7是根据一示例性实施例示出的获取待检测音频信号与各个预设语种音频信号之间的对数似然比值的流程图。
图8是根据一示例性实施例示出的训练PLDA模型的流程图。
图9是根据一示例性实施例示出的另一种语种识别方法的流程图。
图10是根据一示例性实施例示出的一种视频推送方法的流程图。
图11是根据一示例性实施例示出的一种语种识别装置的框图。
图12是根据一示例性实施例示出的一种视频推送装置的框图。
图13是根据一示例性实施例示出的一种服务器的内部结构图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所提供的语种识别方法,可以应用于如图1所示的应用环境中。参照图1,该应用环境图包括服务器110,服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。图1中以服务器110是独立的服务器为例进行说明,参考图1,服务器110获取待检测音频信号中的声学特征;将声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征;预先训练的声纹特征提取网络模型是根据音频样本数据集合,基于预设的神经网络训练得到的,音频样本数据集合包括不同语种的样本音频信号的声学特征;根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值;对数似然比值用于表征待检测音频信号与预设语种音频信号之间的相似程度;根据各个对数似然比值,确定待检测音频信号与各个预设语种音频信号之间的特征相似度;根据特征相似度,从各个预设语种音频信号对应的语种信息中,确定待检测音频信号的语种信息。
图2是根据一示例性实施例示出的一种语种识别方法的流程图,如图2所示,语种识别方法用于如图1所述的服务器中,包括以下步骤:
在步骤S210中,获取待检测音频信号中的声学特征。
其中,待检测音频信号是指需要识别语种信息的音频信号,可以是音频信号片段,也可以是完整音频信号;在实际场景中,待检测音频信号可以是原唱歌曲、录制的歌曲片段、视频的配乐、视频中的人声等。
其中,声学特征是指用于表征待检测音频信号中的语音声学特性的物理量,比如音长、音强、音高、音质等;在实际场景中,声学特征可以是指MFCC(Mel FrequencyCepstrum Coefficient,梅尔频率倒谱系数)特征。
在步骤S220中,将声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征;预先训练的声纹特征提取网络模型是根据音频样本数据集合,基于预设的神经网络训练得到的,音频样本数据集合包括不同语种的样本音频信号的声学特征。其中,声纹特征用于描述音频信号中的声纹的特征信息,每个音频信号都具有对应的声纹特征;在实际场景中,声纹特征是指x-vector特征,可以通过预先训练的声纹特征提取网络模型提取得到,比如图3所示的Mini TDNN(Time-Delay Neural Network,时延神经网络)模型。
其中,预先训练的声纹特征提取网络模型是一种能够输出音频信号中的声纹特征的神经网络模型,比如图3所示的Mini TDNN模型。目标神经网络层是指预先训练的声纹特征提取网络模型中用于输出待检测音频信号中的声纹特征的神经网络层,比如Mini TDNN模型中的第六层神经网络层。预设的神经网络是指Mini TDNN网络。
具体地,服务器获取待检测音频信号,根据预设的声学特征提取指令,提取待检测音频信号中的声学特征;将待检测音频信号中的声学特征输入预先训练的声纹特征提取网络模型,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征。这样,通过获取待检测音频信号中的声纹特征,有利于后续根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值,从而得到待检测音频信号的语种信息。
举例说明,在视频推送场景中,不同地区的用户对不同语种的视频的喜好程度是不一样的,服务器获取网络上或本地数据库的视频,并提取视频中的音频信号,作为待检测音频信号;提取待检测音频信号中的声学特征,并将待检测音频信号的声学特征输入预先训练的声纹特征提取网络模型,得到待检测音频信号中的声纹特征;接着对待检测音频信号中的声纹特征进行分析处理,得到待检测音频信号的语种信息,作为视频的语种信息;这样,在得到视频的语种信息之后,可以针对不同地区的用户的喜好,推荐相应的视频。
进一步地,服务器还可以接收终端发送的音频信号语种检测请求,对音频信号语种检测请求进行解析,得到待检测音频信号;提取待检测音频信号中的声学特征,并对待检测音频信号中的声学特征进行声纹特征提取处理,得到待检测音频信号中的声纹特征。
此外,预先训练的声纹特征提取网络模型通过下述方式训练得到:服务器采集多个不同语种的样本音频信号的声学特征,作为音频样本数据集合;根据音频样本数据集合,对预设的神经网络进行训练,直到训练后的预设的神经网络的损失值小于预设阈值,则将该训练后的预设的神经网络,作为预先训练的声纹特征提取网络模型。这样,通过预先训练的声纹特征提取网络模型,可以对输入的待检测音频信号中的声学特征进行处理,得到待检测音频信号中的声纹特征。
在步骤S230中,根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值;对数似然比值用于表征待检测音频信号与预设语种音频信号之间的相似程度。
其中,预设语种音频信号是已知语种信息的音频信号,可以是音频信号片段,也可以是完整音频信号;每个预设语种音频信号都对应一种语种信息。
其中,对数似然比值用于表征待检测音频信号与预设语种音频信号之间的相似程度,对数似然比值越大,待检测音频信号与预设语种音频信号之间的相似程度越大。在实际场景中,对数似然比值可以通过语种识别模型计算得到,比如PLDA(Probabilistic LinearDiscriminant Analysis,概率线性判别分析)模型。
具体地,服务器查询存储有多个预设语种音频信号中的声纹特征的数据库,得到各个预设语种音频信号中的声纹特征,分别将待检测音频信号中的声纹特征以及预设语种音频信号中的声纹特征输入预先训练的语种识别模型,通过预先训练的语种识别模型对待检测音频信号中的声纹特征以及预设语种音频信号中的声纹特征进行概率线性判别分析处理,得到待检测音频信号与预设语种音频信号之间的对数似然比值;参照此方法,可以得到待检测音频信号与各个预设语种音频信号之间的对数似然比值。这样,综合考虑根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,有利于快速准确确定待检测音频信号与各个预设语种音频信号之间的特征相似度。
在步骤S240中,根据各个对数似然比值,确定待检测音频信号与各个预设语种音频信号之间的特征相似度。
其中,特征相似度用于衡量待检测音频信号与预设语种音频信号之间的特征相似程度,与对数似然比值存在一一对应的关系。例如,对数似然比值越大,特征相似度越大,那么待检测音频信号与预设语种音频信号之间的特征相似程度越大。
具体地,服务器根据待检测音频信号与预设语种音频信号之间的对数似然比值,查询预设的对数似然比值与特征相似度之间的对应关系,得到待检测音频信号与预设语种音频信号之间的特征相似度;参照此方法,可以得到待检测音频信号与各个预设语种音频信号之间的特征相似度。这样,通过确定待检测音频信号与各个预设语种音频信号之间的特征相似度,有利于后续根据待检测音频信号与各个预设语种音频信号之间的特征相似度,确定待检测音频信号的语种信息。
在步骤S250中,根据特征相似度,从各个预设语种音频信号对应的语种信息中,确定待检测音频信号的语种信息。
其中,语种信息可以是普通话、闽南语、粤语、山东话、四川话、藏语等不同语言,具体本公开不做限定。
具体地,服务器从待检测音频信号与各个预设语种音频信号之间的特征相似度中,确定出最大的特征相似度;若最大的特征相似度大于对应的阈值,则将最大的特征相似度对应的预设语种音频信号的语种信息,作为待检测音频信号的语种信息。
上述语种识别方法中,通过获取待检测音频信号中的声学特征;然后将声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征;接着根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值;并根据各个对数似然比值,确定待检测音频信号与各个预设语种音频信号之间的特征相似度;最后根据特征相似度,从各个预设语种音频信号对应的语种信息中,确定待检测音频信号的语种信息;实现了根据待检测音频信号与各个预设语种音频信号之间的对数似然比值,自动确定待检测音频信号的语种信息的目的,综合考虑待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,有利于准确确认待检测音频信号与各个预设语种音频信号之间的相似程度,进而提高了语种识别的准确度,避免了通过人工识别语种信息,容易出现错误,导致语种识别的准确度较低的缺陷。
在一示例性实施例中,在步骤S210中,在获取待检测音频信号中的声学特征之后,还包括:滤除待检测音频信号的声学特征中的静音特征,得到待检测音频信号中的目标声学特征。
其中,静音特征用于描述无效的静音的特征信息;目标声学特征是指不包含静音特征的声学特征。
具体地,服务器获取预设的静音特征滤除指令,根据预设的静音特征滤除指令,滤除待检测音频信号中的声学特征中的静音特征,得到待检测音频信号中的目标声学特征。其中,预设的静音特征滤除指令是一种能够滤除音频信号中的声学特征中的静音特征的指令。
举例说明,服务器将待检测音频信号的MFCC特征经过VAD(Voice ActivityDetection,语音活动检测)处理,以去除非语音的静音段内容,得到待检测音频信号中的目标MFCC特征。
接着,在步骤S220中,将声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征,包括:将目标声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征。举例说明,参考图4,服务器提取待检测音频信号中的MFCC特征,将待检测音频信号中的MFCC特征经过VAD处理,以滤除去掉无效的静音段内容,得到待检测音频信号中的目标MFCC特征;将待检测音频信号中的目标MFCC特征输入预先训练的声纹特征提取网络模型,选择预先训练的声纹特征提取网络模型中第六层神经网络层输出的特征,作为待检测音频信号中的x-vector特征。
需要说明的是,预设语种音频信号中的声纹特征的获取方式与待检测音频信号中的声纹特征的获取方式一致,本公开不再具体赘述。
本公开实施例提供的技术方案,在获取待检测音频信号中的声学特征之后,先滤除待检测音频信号的声学特征中的静音特征,得到待检测音频信号中的目标声学特征,再将待检测音频信号中的目标声学特征输入预先训练的声纹特征提取网络模型,有利于提高得到的声纹特征的准确率,避免了待检测音频信号中的声学特征中参杂了无效的静音特征,导致从声学特征中提取得到的声纹特征的准确率较为低下的缺陷。
在一示例性实施例中,在步骤S210中,获取待检测音频信号中的声学特征,具体包括如下内容:获取待检测音频信号对应的频谱信息;根据待检测音频信号对应的频谱信息,获取待检测音频信号的功率谱信息;将功率谱信息进行谐波滤波处理,并将谐波滤波处理后的功率谱信息进行倒谱分析处理,得到待检测音频信号中的声学特征。
举例说明,参考图5,服务器对待检测音频信号进行预处理,比如对待检测音频信号进行预加重处理和加窗(哈明窗)处理,得到预处理后的待检测音频信号;对预处理后的待检测音频信号进行STFT(Short-Time Fourier Transform,短时傅里叶变换)处理,得到待检测音频信号对应的频谱信息;对待检测音频信号对应的频谱信息进行模的平方运算处理,得到待检测音频信号的功率谱信息;将待检测音频信号的功率谱信息输入梅尔滤波器组,以对功率谱信息进行谐波滤波处理;接着,将谐波滤波处理后的功率谱信息进行倒谱分析处理,比如对数运算、DCT(Discrete Cosine Transform,离散余弦变换)处理,得到待检测音频信号中的MFCC特征,作为待检测音频信号中的声学特征。
需要说明的是,预设语种音频信号中的声学特征的获取方式与待检测音频信号中的声学特征的获取方式一致,本公开不再具体赘述。
本公开实施例提供的技术方案,通过获取待检测音频信号中的声学特征,有利于后续将待检测音频信号中的声学特征输入预先训练的声纹特征提取网络模型中,从而得到待检测音频信号中的声纹特征,无需通过人工获取待检测音频信号中的声纹特征,从而提高了待检测音频信号中的声纹特征的获取效率,进一步提高了后续的语种识别效率。
在一示例性实施例中,预先训练的声纹特征提取网络模型通过下述方式训练得到:滤除各个样本音频信号中的声学特征中的静音特征,得到各个样本音频信号中的目标声学特征;分别将各个样本音频信号中的目标声学特征输入预设的神经网络,得到预设的神经网络中目标神经网络层输出的各个样本音频信号中的预测声纹特征;根据各个样本音频信号中的预测声纹特征和对应的实际声纹特征之间的差值,得到预设的神经网络的损失值;根据损失值调整预设的神经网络的网络参数,直到损失值小于第一预设阈值时,则将网络参数调整后的预设的神经网络,作为预先训练的声纹特征提取网络模型。
具体地,服务器采集不同语种的样本音频信号,根据预设的声学特征提取指令,提取各个样本音频信号中的声学特征;根据预设的静音特征滤除指令,滤除各个声学特征中的静音特征,得到各个样本音频信号中的目标声学特征;分别将各个样本音频信号中的目标声学特征输入预设的神经网络,得到预设的神经网络中目标神经网络层输出的各个样本音频信号中的预测声纹特征;根据各个样本音频信号中的预测声纹特征与对应的实际声纹特征之间的差值,结合损失函数,计算得到预设的神经网络的损失值;根据损失值,对预设的神经网络的网络参数进行调整;重新训练网络参数调整后的预设的神经网络,直至根据网络参数调整后的预设的神经网络得到的损失值小于第一预设阈值,则将该网络参数调整后的预设的神经网络,作为预先训练的声纹特征提取网络模型。
举例说明,参考图6,服务器采集不同语种的样本音频信号,并提取不同语种的样本音频信号中的MFCC特征;将不同语种的样本音频信号中的MFCC特征经过VAD处理,以去掉无效的静音段内容,得到各个样本音频信号中的目标MFCC特征;根据各个样本音频信号中的目标MFCC特征,对Mini TDNN网络进行训练,直到训练后的Mini TDNN网络的损失值小于第一预设阈值时,则将该训练后的Mini TDNN网络,作为预先训练的声纹特征提取网络模型。
本公开实施例提供的技术方案,通过对预设的神经网络进行多次训练,有利于提高后续训练得到的声纹特征提取网络模型输出的声纹特征的准确度,使得后续基于声纹特征得到的语种信息更加准确,从而提高了语种识别的准确度。
在一示例性实施例中,在步骤S230中,根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值,具体包括如下内容:分别将待检测音频信号中的声纹特征以及预设语种音频信号中的声纹特征进行预处理,得到待检测音频信号中的目标声纹特征和预设语种音频信号中的目标声纹特征;预处理包括数据降维处理和数据归一化处理;将待检测音频信号中的目标声纹特征和预设语种音频信号中的目标声纹特征输入预先训练的语种识别模型,通过预先训练的语种识别模型对待检测音频信号中的目标声纹特征和预设语种音频信号中的目标声纹特征进行概率线性判别分析处理,得到待检测音频信号与各个预设语种音频信号之间的对数似然比值。
其中,数据降维处理可以是指LDA(Latent Dirichlet Allocation,线性判别分析)处理,用于将数据投影到一个超平面上,使类间距离更大,类内距离更小。
其中,数据归一化处理可以是指均值归一化处理和长度归一化处理,均值归一化处理的作用是将均值特征的值映射到[0,1]之间,消除量纲对最终结果的影响,使不同的特征具有可比性,使得原本可能分布相差较大的特征对模型有相同权重的影响,提升模型的收敛速度,以防止模型梯度爆炸。长度归一化处理是为了将长度超出部分去除,不够部分增量复制到模型需要的长度。
其中,预先训练的语种识别模型是指能够输出待检测音频信号与各个预设语种音频信号之间的对数似然比值的模型,比如PLDA模型。
举例说明,参考图7,服务器分别将待检测音频信号中的x-vector特征以及预设语种音频信号中的x-vector特征进行LDA处理,以对x-vector特征进行数据降维;接着,服务器对LDA处理后的x-vector特征进行均值归一化处理和长度归一化处理,得到待检测音频信号中的目标x-vector特征以及预设语种音频信号中的目标x-vector特征;将待检测音频信号中的目标x-vector特征以及预设语种音频信号中的目标x-vector特征输入PLDA模型,通过PLDA模型对待检测音频信号中的目标x-vector特征和预设语种音频信号中的目标x-vector特征进行概率线性判别分析处理,得到待检测音频信号与各个预设语种音频信号之间的对数似然比值。
本公开实施例提供的技术方案,通过获取待检测音频信号与各个预设语种音频信号之间的对数似然比值,有利于准确确定待检测音频信号与各个预设语种音频信号之间的相似程度,从而提高了语种识别的准确度,避免了通过人工识别语种信息,容易出现错误,导致语种识别的准确度较低的缺陷。
在一示例性实施例中,预先训练的语种识别模型通过下述方式训练得到:将各个样本音频信号中的声学特征输入预先训练的声纹特征提取网络模型中,分别得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,对应作为各个第二样本音频信号中的声纹特征;根据各个第二样本音频信号中的声纹特征,对待训练的语种识别模型进行训练,直到训练后的语种识别模型的损失值小于第二预设阈值时,则将训练后的语种识别模型,作为预先训练的语种识别模型。
具体地,服务器采集不同语种的样本音频信号,根据预设的声学特征提取指令,提取各个样本音频信号中的声学特征;根据预设的静音特征滤除指令,滤除各个声学特征中的静音特征,得到各个样本音频信号中的目标声学特征;将各个样本音频信号中的目标声学特征输入预先训练的声纹特征提取网络模型中,分别得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,对应作为各个样本音频信号中的声纹特征;将各个样本音频信号中的声纹特征输入待训练的语种识别模型,得到各个样本音频信号的预测语种信息;根据各个样本音频信号的预测语种信息和对应的实际语种信息之间的差值,结合损失函数,计算得到待训练的语种识别模型的损失值;根据损失值,对待训练的语种识别模型的模型参数进行调整;重新训练模型参数调整后的语种识别模型,直至根据训练后的语种识别模型得到的损失值小于第二预设阈值,则将该训练后的语种识别模型,作为预先训练的语种识别模型。
本公开实施例提供的技术方案,通过对待训练的语种识别模型进行多次训练,有利于提高后续训练得到的语种识别模型输出的对数似然比值的准确度,使得后续基于对数似然比值得到的待检测音频信号与各个预设语种音频信号之间的特征相似度更加准确,从而提高了语种识别的准确度。
在一示例性实施例中,根据各个样本音频信号中的声纹特征,对待训练的语种识别模型进行训练,具体包括如下内容:获取各个样本音频信号中的声纹特征的平均值;对平均值进行数据降维处理和数据归一化处理;根据数据降维处理和数据归一化处理后的平均值,对待训练的语种识别模型进行训练。
举例说明,参考图8,服务器采集不同语种的样本音频信号,并提取不同语种的样本音频信号中的MFCC特征;将不同语种的样本音频信号中的MFCC特征经过VAD处理,以去掉无效的静音段内容,得到各个样本音频信号中的目标MFCC特征;将各个样本音频信号中的目标MFCC特征输入预先训练的声纹特征提取网络模型中,分别得到预先训练的声纹特征提取网络模型中第六层神经网络层输出的特征,对应作为各个样本音频信号中的x-vector特征;获取各个样本音频信号中的x-vector特征的平均值,比如a语种的x-vector特征为A,b语种的x-vector特征为B,则平均值为(A+B)/2;接着,服务器对各个样本音频信号中的x-vector特征的平均值进行LDA处理,以对x-vector特征的平均值进行数据降维;对LDA处理后的x-vector特征的平均值进行均值归一化处理和长度归一化处理,得到归一化处理和长度归一化处理后的x-vector特征平均值;根据归一化处理和长度归一化处理后的x-vector特征平均值,对PLDA模型进行训练,直到训练后的PLDA模型的损失值小于第二预设阈值时,则将该训练后的PLDA模型,作为预先训练的语种识别模型。
进一步地,参考图8,服务器将待检测音频信号中的目标x-vector特征以及预设语种音频信号中的目标x-vector特征输入PLDA模型,通过PLDA模型对待检测音频信号中的目标x-vector特征和预设语种音频信号中的目标x-vector特征进行概率线性判别分析处理,得到待检测音频信号与各个预设语种音频信号之间的对数似然比值。
本公开实施例提供的技术方案,通过获取各个样本音频信号中的声纹特征的平均值,并对平均值进行数据降维处理和数据归一化处理,再对待训练的语种识别模型进行训练,有利于进一步提高后续训练得到的语种识别模型输出的对数似然比值的准确度,从而提高了语种识别的准确度。
在一示例性实施例中,在步骤S240中,根据特征相似度,从各个预设语种音频信号对应的语种信息中,确定待检测音频信号的语种信息,具体包括如下内容:从待检测音频信号与各个预设语种音频信号之间的特征相似度中,筛选出最大的特征相似度;若最大的特征相似度大于对应的阈值,则将最大的特征相似度对应的预设语种音频信号的语种信息,作为待检测音频信号的语种信息。
举例说明,从待检测音频信号与预设语种音频信号A、预设语种音频信号B、预设语种音频信号C之间的特征相似度分别是0.8、0.3、0.4,那么最大的特征相似度为待检测音频信号与预设语种音频信号A之间的特征相似度,说明待检测音频信号的语种信息为预设语种音频信号A对应的语种信息。
本公开实施例提供的技术方案,综合考虑待检测音频信号与各个预设语种音频信号之间的相似程度,有利于提高语种识别的准确度,避免了通过人工识别语种信息,容易出现错误,导致语种识别的准确度较低的缺陷。
图9是根据一示例性实施例示出的另一种语种识别方法的流程图,如图9所示,语种识别方法用于如图1所述的服务器中,包括以下步骤:
在步骤S910中,获取待检测音频信号对应的频谱信息;根据待检测音频信号对应的频谱信息,获取待检测音频信号的功率谱信息;将功率谱信息进行谐波滤波处理,并将谐波滤波处理后的功率谱信息进行倒谱分析处理,得到待检测音频信号中的声学特征。
在步骤S920中,滤除待检测音频信号的声学特征中的静音特征,得到待检测音频信号中的目标声学特征。
在步骤S930中,将待检测音频信号中的目标声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征。
在步骤S940中,分别将待检测音频信号中的声纹特征以及预设语种音频信号中的声纹特征进行预处理,得到待检测音频信号中的目标声纹特征和预设语种音频信号中的目标声纹特征;预处理包括数据降维处理和数据归一化处理。
在步骤S950中,将待检测音频信号中的目标声纹特征和预设语种音频信号中的目标声纹特征输入预先训练的语种识别模型,通过预先训练的语种识别模型对待检测音频信号中的目标声纹特征和预设语种音频信号中的目标声纹特征进行概率线性判别分析处理,得到待检测音频信号与各个预设语种音频信号之间的对数似然比值。
在步骤S960中,根据各个对数似然比值,确定待检测音频信号与各个预设语种音频信号之间的特征相似度。
在步骤S970中,从待检测音频信号与各个预设语种音频信号之间的特征相似度中,筛选出最大的特征相似度;若最大的特征相似度大于对应的阈值,则将最大的特征相似度对应的预设语种音频信号的语种信息,作为待检测音频信号的语种信息。
上述语种识别方法,实现了根据待检测音频信号与各个预设语种音频信号之间的对数似然比值,自动确定待检测音频信号的语种信息的目的,综合考虑待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,有利于准确确认待检测音频信号与各个预设语种音频信号之间的相似程度,进而提高了语种识别的准确度,避免了通过人工识别语种信息,容易出现错误,导致语种识别的准确度较低的缺陷。
图10是根据一示例性实施例示出的一种视频推送方法的流程图,可以应用到服务器中,也可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现,下面主要以服务器为例进行说明;如图10所示,视频推送方法用于如图1所示的服务器中,包括以下步骤:
在步骤S1010中,获取待推送视频中的待检测音频信号中的声学特征。
其中,待推送视频是指需要识别出语种信息的视频。
具体地,服务器获取网络上的视频,作为待推送视频;提取待推送视频中的音频信号,作为待检测音频信号,并获取待检测音频信号中的声学特征。
需要说明的是,关于待检测音频信号中的声学特征的具体获取方式,参照上述关于待检测音频信号中的声学特征的获取方法的实施例,在此不再具体赘述。
在步骤S1020中,根据待检测音频信号中的声学特征,确定待检测音频信号的语种信息,作为待推送视频的语种信息;待检测音频信号的语种信息根据上述的语种识别方法得到。
需要说明的是,关于待检测音频信号的语种信息的具体确定方式,参照关于语种识别方法的实施例,在此不再具体赘述。
在步骤S1030中,根据语种信息,将待推送视频推送至对应的账户。
其中,不同地区的账户,对应的语种信息不一样,比如广州对应的语种信息是粤语,成都对应的语种信息是四川话。
具体地,服务器根据待推送视频的语种信息,确定待推送视频的推送对象信息;根据待推送视频的推送对象信息,将待推送视频推送至对应的账户,实现了视频的精准推送,满足了用户的喜好。
上述视频推送方法,通过获取待推送视频中的待检测音频信号中的声学特征,然后根据待检测音频信号中的声学特征,确定待检测音频信号的语种信息,作为待推送视频的语种信息;最后根据语种信息,将待推送视频推送至对应的账户;实现了按照语种信息,将待推送视频推送至对应的账户的目的,有利于提高视频推送的准确度。
在一示例性实施例中,在步骤S1030中,根据语种信息,将待推送视频推送至对应的账户,包括:查询预设的语种信息与地区标识的对应关系,得到与语种信息对应的地区标识;将待推送视频推送至地区标识对应的账户。
其中,地区标识是指地区的标识信息,比如地区名称、地区编号等。
具体地,服务器获取预设的语种信息与地区标识的对应关系,根据待推送视频的语种信息,查询预设的语种信息与地区标识的对应关系,得到与待推送视频的语种信息对应的地区标识;确定该地区标识对应的账户,并将待推送视频推送至这些账户。
本公开实施例提供的技术方案,根据语种信息,将待推送视频推送至对应的账户,有利于实现视频的精准推送,从而提高了视频推送的准确度。
应该理解的是,虽然图2、9、10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、9、10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
图11是根据一示例性实施例示出的一种语种识别装置的框图。参照图11,该装置包括声学特征获取单元1110,声纹特征获取单元1120,比值确定单元1130,特征相似度确定单元1140和语种信息确定单元1150。
声学特征获取单元1110,被配置为执行获取待检测音频信号中的声学特征。
声纹特征获取单元1120,被配置为执行将声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征;预先训练的声纹特征提取网络模型是根据音频样本数据集合,基于预设的神经网络训练得到的,音频样本数据集合包括不同语种的样本音频信号的声学特征。
比值确定单元1130,被配置为执行根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值;对数似然比值用于表征待检测音频信号与预设语种音频信号之间的相似程度。
特征相似度确定单元1140,被配置为执行根据各个对数似然比值,确定待检测音频信号与各个预设语种音频信号之间的特征相似度。
语种信息确定单元1150,被配置为执行根据特征相似度,从各个预设语种音频信号对应的语种信息中,确定待检测音频信号的语种信息。
在一示例性实施例中,本公开的语种识别装置还包括声纹特征提取网络模型训练单元,被配置为执行滤除各个样本音频信号中的声学特征中的静音特征,得到各个样本音频信号中的目标声学特征;分别将各个样本音频信号中的目标声学特征输入预设的神经网络,得到预设的神经网络中目标神经网络层输出的各个样本音频信号中的预测声纹特征;根据各个样本音频信号中的预测声纹特征和对应的实际声纹特征之间的差值,得到预设的神经网络的损失值;根据损失值调整预设的神经网络的网络参数,直到损失值小于第一预设阈值时,则将网络参数调整后的预设的神经网络,作为预先训练的声纹特征提取网络模型。
在一示例性实施例中,比值确定单元1130,还被配置为执行分别将待检测音频信号中的声纹特征以及预设语种音频信号中的声纹特征进行预处理,得到待检测音频信号中的目标声纹特征和预设语种音频信号中的目标声纹特征;预处理包括数据降维处理和数据归一化处理;将待检测音频信号中的目标声纹特征和预设语种音频信号中的目标声纹特征输入预先训练的语种识别模型,通过预先训练的语种识别模型对待检测音频信号中的目标声纹特征和预设语种音频信号中的目标声纹特征进行概率线性判别分析处理,得到待检测音频信号与各个预设语种音频信号之间的对数似然比值。
在一示例性实施例中,本公开的语种识别装置还包括语种识别模型训练单元,被配置为执行将各个样本音频信号中的声学特征输入预先训练的声纹特征提取网络模型中,分别得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,对应作为各个样本音频信号中的声纹特征;根据各个样本音频信号中的声纹特征,对待训练的语种识别模型进行训练,直到训练后的语种识别模型的损失值小于第二预设阈值时,则将训练后的语种识别模型,作为预先训练的语种识别模型。
在一示例性实施例中,语种识别模型训练单元,还被配置为执行获取各个样本音频信号中的声纹特征的平均值;对平均值进行数据降维处理和数据归一化处理;根据数据降维处理和数据归一化处理后的平均值,对待训练的语种识别模型进行训练。
在一示例性实施例中,语种信息确定单元1150,还被配置为执行从待检测音频信号与各个预设语种音频信号之间的特征相似度中,筛选出最大的特征相似度;若最大的特征相似度大于对应的阈值,则将最大的特征相似度对应的预设语种音频信号的语种信息,作为待检测音频信号的语种信息。
在一示例性实施例中,本公开的语种识别装置还包括静音特征滤除单元,被配置为执行滤除待检测音频信号的声学特征中的静音特征,得到待检测音频信号中的目标声学特征;
声纹特征获取单元1120,还被配置为执行将目标声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征。
在一示例性实施例中,声学特征获取单元1110,还被配置为执行获取待检测音频信号对应的频谱信息;根据待检测音频信号对应的频谱信息,获取待检测音频信号的功率谱信息;将功率谱信息进行谐波滤波处理,并将谐波滤波处理后的功率谱信息进行倒谱分析处理,得到待检测音频信号中的声学特征。
图12是根据一示例性实施例示出的一种视频推送装置的框图。参照图12,该装置包括特征获取单元1210,语种识别单元1220和信息推送单元1230。
特征获取单元1210,被配置为执行获取待推送视频中的待检测音频信号中的声学特征。
语种识别单元1220,被配置为执行根据待检测音频信号中的声学特征,确定待检测音频信号的语种信息,作为待推送视频的语种信息;待检测音频信号的语种信息根据上述的语种识别方法得到。
信息推送单元1230,被配置为执行根据语种信息,将待推送视频推送至对应的账户。
在一示例性实施例中,信息推送单元1230,还被配置为执行查询预设的语种信息与地区标识的对应关系,得到与语种信息对应的地区标识;将待推送视频推送至地区标识对应的账户。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图13是根据一示例性实施例示出的一种用于执行上述语种识别方法或者视频推送方法的设备1300的框图。例如,设备1300可以为一服务器。参照图13,设备1300包括处理组件1320,其进一步包括一个或多个处理器,以及由存储器1322所代表的存储器资源,用于存储可由处理组件1320的执行的指令,例如应用程序。存储器1322中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1320被配置为执行指令,以执行上述语种识别方法或者视频推送方法。
设备1300还可以包括一个电源组件1324被配置为执行设备1300的电源管理,一个有线或无线网络接口1326被配置为将设备1300连接到网络,和一个输入输出(I/O)接口1328。设备1300可以操作基于存储在存储器1322的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器1322,上述指令可由设备1300的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行本公开的任一项实施例中所述的语种识别方法或者视频推送方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种语种识别方法,其特征在于,包括:
获取待检测音频信号中的声学特征;
将所述声学特征输入预先训练的声纹特征提取网络模型中,得到所述预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为所述待检测音频信号中的声纹特征;所述预先训练的声纹特征提取网络模型是根据音频样本数据集合,基于预设的神经网络训练得到的,所述音频样本数据集合包括不同语种的样本音频信号的声学特征;
根据所述待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值;所述对数似然比值用于表征所述待检测音频信号与预设语种音频信号之间的相似程度;
根据各个所述对数似然比值,确定所述待检测音频信号与各个所述预设语种音频信号之间的特征相似度;
根据所述特征相似度,从各个所述预设语种音频信号对应的语种信息中,确定所述待检测音频信号的语种信息。
2.根据权利要求1所述的语种识别方法,其特征在于,所述预先训练的声纹特征提取网络模型通过下述方式训练得到:
滤除各个所述样本音频信号中的声学特征中的静音特征,得到各个所述样本音频信号中的目标声学特征;
分别将各个所述样本音频信号中的目标声学特征输入所述预设的神经网络,得到所述预设的神经网络中所述目标神经网络层输出的各个所述样本音频信号中的预测声纹特征;
根据各个所述样本音频信号中的预测声纹特征和对应的实际声纹特征之间的差值,得到所述预设的神经网络的损失值;
根据所述损失值调整所述预设的神经网络的网络参数,直到所述损失值小于第一预设阈值时,则将网络参数调整后的预设的神经网络,作为所述预先训练的声纹特征提取网络模型。
3.根据权利要求1所述的语种识别方法,其特征在于,所述根据所述待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值,包括:
分别将所述待检测音频信号中的声纹特征以及预设语种音频信号中的声纹特征进行预处理,得到所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征;所述预处理包括数据降维处理和数据归一化处理;
将所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征输入预先训练的语种识别模型,通过所述预先训练的语种识别模型对所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征进行概率线性判别分析处理,得到所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值。
4.根据权利要求3所述的语种识别方法,其特征在于,所述预先训练的语种识别模型通过下述方式训练得到:
将各个所述样本音频信号中的声学特征输入所述预先训练的声纹特征提取网络模型中,分别得到所述预先训练的声纹特征提取网络模型中所述目标神经网络层输出的特征,对应作为各个所述样本音频信号中的声纹特征;
根据各个所述样本音频信号中的声纹特征,对待训练的语种识别模型进行训练,直到训练后的语种识别模型的损失值小于第二预设阈值时,则将所述训练后的语种识别模型,作为所述预先训练的语种识别模型。
5.根据权利要求1所述的语种识别方法,其特征在于,所述根据所述特征相似度,从各个所述预设语种音频信号对应的语种信息中,确定所述待检测音频信号的语种信息,包括:
从所述待检测音频信号与各个所述预设语种音频信号之间的特征相似度中,筛选出最大的特征相似度;
若所述最大的特征相似度大于对应的阈值,则将所述最大的特征相似度对应的预设语种音频信号的语种信息,作为所述待检测音频信号的语种信息。
6.一种视频推送方法,其特征在于,包括:
获取待推送视频中的待检测音频信号中的声学特征;
根据所述待检测音频信号中的声学特征,确定所述待检测音频信号的语种信息,作为所述待推送视频的语种信息;所述待检测音频信号的语种信息根据权利要求1至5任一项所述的语种识别方法得到;
根据所述语种信息,将所述待推送视频推送至对应的账户。
7.一种语种识别装置,其特征在于,包括:
声学特征获取单元,被配置为执行获取待检测音频信号中的声学特征;
声纹特征获取单元,被配置为执行将所述声学特征输入预先训练的声纹特征提取网络模型中,得到所述预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为所述待检测音频信号中的声纹特征;所述预先训练的声纹特征提取网络模型是根据音频样本数据集合,基于预设的神经网络训练得到的,所述音频样本数据集合包括不同语种的样本音频信号的声学特征;
比值确定单元,被配置为执行根据所述待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值;所述对数似然比值用于表征所述待检测音频信号与预设语种音频信号之间的相似程度;
特征相似度确定单元,被配置为执行根据各个所述对数似然比值,确定所述待检测音频信号与各个所述预设语种音频信号之间的特征相似度;
语种信息确定单元,被配置为执行根据所述特征相似度,从各个所述预设语种音频信号对应的语种信息中,确定所述待检测音频信号的语种信息。
8.一种视频推送装置,其特征在于,包括:
特征获取单元,被配置为执行获取待推送视频中的待检测音频信号中的声学特征;
语种识别单元,被配置为执行根据所述待检测音频信号中的声学特征,确定所述待检测音频信号的语种信息,作为所述待推送视频的语种信息;所述待检测音频信号的语种信息根据权利要求1至5任一项所述的语种识别方法得到;
信息推送单元,被配置为执行根据所述语种信息,将所述待推送视频推送至对应的账户。
9.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的方法。
10.一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011033457.4A CN112185347A (zh) | 2020-09-27 | 2020-09-27 | 语种识别方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011033457.4A CN112185347A (zh) | 2020-09-27 | 2020-09-27 | 语种识别方法、装置、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112185347A true CN112185347A (zh) | 2021-01-05 |
Family
ID=73943616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011033457.4A Pending CN112185347A (zh) | 2020-09-27 | 2020-09-27 | 语种识别方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112185347A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421575A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019079972A1 (zh) * | 2017-10-24 | 2019-05-02 | 深圳和而泰智能控制股份有限公司 | 特定声音识别方法、设备和存储介质 |
CN110010133A (zh) * | 2019-03-06 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于短文本的声纹检测方法、装置、设备及存储介质 |
CN110148400A (zh) * | 2018-07-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 发音类型的识别方法、模型的训练方法、装置及设备 |
CN110164415A (zh) * | 2019-04-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种基于语音识别的推荐方法、装置及介质 |
CN111199741A (zh) * | 2018-11-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 声纹识别方法、声纹验证方法、装置、计算设备及介质 |
CN111199729A (zh) * | 2018-11-19 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 声纹识别方法及装置 |
CN111261141A (zh) * | 2018-11-30 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法以及语音识别装置 |
-
2020
- 2020-09-27 CN CN202011033457.4A patent/CN112185347A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019079972A1 (zh) * | 2017-10-24 | 2019-05-02 | 深圳和而泰智能控制股份有限公司 | 特定声音识别方法、设备和存储介质 |
CN110148400A (zh) * | 2018-07-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 发音类型的识别方法、模型的训练方法、装置及设备 |
CN111199729A (zh) * | 2018-11-19 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 声纹识别方法及装置 |
CN111199741A (zh) * | 2018-11-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 声纹识别方法、声纹验证方法、装置、计算设备及介质 |
CN111261141A (zh) * | 2018-11-30 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法以及语音识别装置 |
CN110010133A (zh) * | 2019-03-06 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于短文本的声纹检测方法、装置、设备及存储介质 |
CN110164415A (zh) * | 2019-04-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种基于语音识别的推荐方法、装置及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421575A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
CN113421575B (zh) * | 2021-06-30 | 2024-02-06 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106935248B (zh) | 一种语音相似度检测方法及装置 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
CN112053695A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN110033756B (zh) | 语种识别方法、装置、电子设备及存储介质 | |
CN111816218A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
US20130035933A1 (en) | Audio signal processing apparatus and audio signal processing method | |
WO2021042537A1 (zh) | 语音识别认证方法及系统 | |
CN108899033B (zh) | 一种确定说话人特征的方法及装置 | |
CN111863033B (zh) | 音频质量识别模型的训练方法、装置、服务器和存储介质 | |
CN113035202B (zh) | 一种身份识别方法和装置 | |
CN113327626A (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN111081223B (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN114610840A (zh) | 基于敏感词的账务监控方法、装置、设备及存储介质 | |
CN112185347A (zh) | 语种识别方法、装置、服务器及存储介质 | |
KR101671305B1 (ko) | 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
CN112992175B (zh) | 一种语音区分方法及其语音记录装置 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
CN111681671B (zh) | 异常音识别方法、装置及计算机存储介质 | |
CN114420096A (zh) | 语音交互方法及其装置、车辆和存储介质 | |
WO2021051533A1 (zh) | 基于地址信息的黑名单识别方法、装置、设备及存储介质 | |
Paulino et al. | A brazilian speech database | |
CN108364654B (zh) | 语音处理方法、介质、装置和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |