CN111326139B - 一种语种识别方法、装置、设备及存储介质 - Google Patents
一种语种识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111326139B CN111326139B CN202010161612.4A CN202010161612A CN111326139B CN 111326139 B CN111326139 B CN 111326139B CN 202010161612 A CN202010161612 A CN 202010161612A CN 111326139 B CN111326139 B CN 111326139B
- Authority
- CN
- China
- Prior art keywords
- voice
- language
- segment
- recognized
- burr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 15
- 239000012634 fragment Substances 0.000 claims description 68
- 238000000605 extraction Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 20
- 238000007637 random forest analysis Methods 0.000 claims description 14
- 238000009499 grossing Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Abstract
本申请提出一种语种识别方法、装置、设备及存储介质,该方法包括:获取待识别语音的每一语音单元的语音特征;根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别;根据所述每一语音单元的语种类别,确定所述待识别语音中包含的各个语种。上述语种识别方法对待识别语音进行了语音单元拆分,通过识别各个语音单元的语种类别,确定整个待识别语音所包含的语种类别。该处理过程从微观粒度对待识别语音进行了精细的语种识别,当待识别语音中包含多种不同语种的语音内容时,各语种的语音内容都可以被单独识别,因此提高了混合语种语音中的各个语种的识别成功率,能够实现对混合语种语音的有效语种识别。
Description
技术领域
本申请涉及语种识别技术领域,尤其涉及一种语种识别方法、装置、设备及存储介质。
背景技术
语种识别是判断语音内容所属语言种类的过程。语种识别是语音识别类技术发展最为成熟、应用最为广泛的方向之一,同时也是语音识别的重要前期处理,对语音识别的性能有着重要的影响。
目前主流的语种识别技术的思想是提取待识别语音的声学特征,将待识别语音的声学特征与预先建立的各语种类别的声学特征模型进行相似度比对,从而判断待识别语音的语种类别。该语种识别技术目前只能对单一语种的语音进行语种识别,对于包含多种语种的混合语种语音则无法准确识别其中的语种类别。
发明内容
基于上述现有技术的缺陷和不足,本申请提出一种语种识别方法、装置、设备及存储介质,能够实现对多语种语音的语种识别。
一种语种识别方法,包括:
获取待识别语音的每一语音单元的语音特征;
根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别;
根据所述每一语音单元的语种类别,确定所述待识别语音中包含的各个语种。
一种语种识别装置,包括:
特征提取单元,用于获取待识别语音的每一语音单元的语音特征;
语种识别单元,用于根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别;
语种统计单元,用于根据所述每一语音单元的语种类别,确定所述待识别语音中包含的各个语种。
一种语种识别设备,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现上述的语种识别方法。
一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的语种识别方法。
本申请提出的语种识别方法在对待识别语音进行语种识别时,先获取待识别语音的每一语音单元的语音特征,然后根据每一语音单元的语音特征,识别每一语音单元的语种类别,最后根据每一语音单元的语种类别,确定待识别语音中包含的各个语种。上述语种识别方法对待识别语音进行了语音单元拆分,通过识别各个语音单元的语种类别,确定整个待识别语音所包含的语种类别。该处理过程从微观粒度对待识别语音进行了精细的语种识别,当待识别语音中包含多种不同语种的语音内容时,各语种的语音内容都可以被单独识别,因此提高了混合语种语音中的各个语种的识别成功率,能够实现对混合语种语音的有效语种识别。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种语种识别方法的流程示意图;
图2是本申请实施例提供的另一种语种识别方法的流程示意图;
图3是本申请实施例提供的利用BiLSTM模型进行语音识别的处理流程示意图;
图4是本申请实施例提供的又一种语种识别方法的流程示意图;
图5是本申请实施例提供的语种片段识别结果示意图;
图6是本申请实施例提供的一种语种识别装置的结构示意图;
图7是本申请实施例提供的一种语种识别设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于识别待识别语音的语种类别的应用场景,尤其适用于识别混合语种语音所包含的各个语种类别。采用本申请实施例技术方案,能够有效识别混合语种语音中所包含的各个语种类别,还可以进一步准确识别混合语种语音中的各个语种片段。
目前,基于因子分析理论的全差异子空间建模方法,即TV(Total Variability,全变量模型)方法已成为语种识别领域的主流方法。TV语种识别方法的关键步骤主要是对各语种提取ivector向量,再通过LDA线性变换空间对其进行降维,根据标注的语种类别信息,以降维后的ivector向量的类中心作为各语种的模型,每个语种模型表示为一个与降维后的ivector向量等维度的低维向量。当对待识别语音进行语种识别时,通过相同的方法获取待识别语音降维后的ivector向量,然后通过计算待识别语音降维后的ivector向量与每个语种模型低维向量的余弦距离来判断待识别语音所属语种类别。
本申请发明人在实际研究及应用中发现,类似于上述TV方法的主流语种识别技术,均只能够实现对单一语种的语音数据的语种识别,并且对语音数据的时长有较高的依赖性。语音数据的时长越长,能够提取的特征量越多,因此越有利于准确识别其语种类别,而当语音数据较短,或者当语音数据中包含多种语种的语音内容时,目前的语种识别技术往往无法应对。
然而随着语种识别技术的逐步普及,现实应用场景中出现了越来越多的混合语种语音数据的语种识别需求,比如在多语种会议录音的识别、社交音频的语种识别等场景中,待识别语音通常包含多种语种,这时对待识别语音提取的声学特征得到的是多语种复合的声学特征,并不能作为某一种语种的识别基础,因此采用类似上述TV方法的语种识别技术,无法实现混合语种的有效识别。
鉴于上述的现有语种识别技术的不足以及现实存在的混合语种识别需求,本申请发明人经过研究和试验,提出一种语种识别方法,该方法能够实现对任意时长、包含任意数量不同语种内容的语音的语种识别,从而能够有效弥补现存语种识别技术的不足,满足语种识别的现实需求。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出一种语种识别方法,参见图1所示,该方法包括:
S101、获取待识别语音的每一语音单元的语音特征。
具体的,上述的待识别语音可以是通过任意信道采集的数字语音数据,例如可以是通过电话信道、现场录音、卫星信道等渠道或方式采集得到的包含语音内容的数字音频数据。在本申请实施例中,上述的待识别语音特指包含至少一种语种的语音内容的数字音频数据,本申请实施例的技术方案,可以实现对该待识别语音中的各语种的识别,以及识别该待识别语音中的各个语种片段。
上述待识别语音的获取,可以是从语音信道中直接采集获取,也可以是通过实时录音获取,或者也可以是从存储器中读取等。
在获取到上述的待识别语音后,本申请实施例首先对其进行语音单元划分,即将完整的待识别语音,以语音单元为单位进行分割,得到各个语音单元。
其中,上述的语音单元是指设定长度的语音数据段,该设定长度的语音数据段的具体长度,可以根据实际情况而灵活设置,其设置宗旨是应当保证按照该设定长度对待识别语音进行语音数据段划分后得到的语音单元尽量小,从而可以将较长的待识别语音划分为较短的语音单元,以便后续通过对各个语音单元进行语种识别,实现对待识别语音的小粒度语种识别。
当完成对上述待识别语音的语音单元划分后,本申请实施例对划分得到的每一语音单元,分别提取其语音特征。常见的语音特征提取技术,例如Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)和感知线性预测(PLP)等,或者采用人工智能算法提取语音特征等,都可以被本申请实施例采用,以便分别提取上述每一语音单元的语音特征。
S102、根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别。
具体的,上述的语音单元的语种类别,是指语音单元所包含的语音内容所属语种的类别。例如,假设某一语音单元所包含的语音内容为英语语音内容,则该语音单元的语种类别为英语;假设某一语音单元所包含的语音内容为法语语音内容,则该语音单元的语种类别为法语。
上述语音单元的语音特征,能够表示语音单元的数据内容的特点,其中包含了语音单元的语音内容的语种信息。因此,通过对语音单元的语音特征进行解析,能够识别语音单元所包含的语音内容的语种信息,从而确定语音单元的语种类别。
任意的通过解析语音数据的语音特征而识别语音数据的语种类别的方法均可以被本申请实施例采用。一种示例性的实现方式是,预先建立各种语种类别的语音特征模型,当分别获取上述每一语音单元的语音特征后,通过将每一语音单元的语音特征与各种语种类别的语音特征模型进行对比,从中找出与语音单元的语音特征的相似度最高的语音特征模型,该语音特征模型对应的语种类别,即作为语音单元的语种类别。
S103、根据所述每一语音单元的语种类别,确定所述待识别语音中包含的各个语种。
具体的,上述的识别待识别语音中的每一语音单元的语种类别,实际上是对待识别语音进行了更小粒度的语种识别,是从微观角度上识别待识别语音的语种类别。
可以理解的是,由于上述的语音单元全部来自于待识别语音本身,因此各个语音单元的语种类别,能够直接反映语音单元内部所包含的语音内容的语种类别。
在通过步骤S102分别识别待识别语音中的每一语音单元的语种类别后,本申请实施例对待识别语音中的所有语音单元的语种类别进行统计,即可确定在待识别语音中所包含的各个语种。
例如,假设某一待识别语音划分为5个语音单元,按照本申请实施例技术方案确定了这5个语音单元的语种类别分别为汉语、英语、汉语、法语、日语,则通过统计这5个语音单元的语种类别可以确定,在该待识别语音中,包含汉语、英语、法语、日语这4种语种。
通过上述介绍可见,本申请实施例提出的语种识别方法在对待识别语音进行语种识别时,先获取待识别语音的每一语音单元的语音特征,然后根据每一语音单元的语音特征,识别每一语音单元的语种类别,最后根据每一语音单元的语种类别,确定待识别语音中包含的各个语种。上述语种识别方法对待识别语音进行了语音单元拆分,通过识别各个语音单元的语种类别,确定整个待识别语音所包含的语种类别。该处理过程从微观粒度对待识别语音进行了精细的语种识别,当待识别语音中包含多种不同语种的语音内容时,各语种的语音内容都可以被单独识别,因此提高了混合语种语音中的各个语种的识别成功率,能够实现对混合语种语音的有效语种识别。
进一步的,参见图2所示,按照本申请实施例技术方案,在识别待识别语音的每一语音单元的语种类别后,或者在根据待识别语音的每一语音单元的语种类别,确定待识别语音中包含的各个语种后,还可以执行步骤S204、通过将所述待识别语音中的语种类别相同的相邻语音单元进行合并,确定所述待识别语音中的各个语种片段。
具体的,在分别识别待识别语音中的每一语音单元的语种类别后,本申请实施例将该待识别语音中的、语种类别相同并且相邻的语音单元进行合并,使合并后的语音单元构成一个语种片段,从而确定该待识别语音中的各个语种片段。
例如,假设按照本申请实施例技术方案确定某待识别语音的10个语音单元的语种类别从前到后依次分别为汉语、汉语、汉语、英语、英语、汉语、汉语、法语、法语、日语,则按照本申请实施例技术方案,将该待识别语音中的语种类别相同并且相邻的语音单元进行合并构成语种片段,即,第一个语音单元、第二个语音单元和第三个语音单元进行合并,得到一个汉语片段;第四个语音单元和第五个语音单元合并,得到一个英语片段;第六个语音单元和第七个语音单元合并,得到一个汉语片段;第八个语音单元和第九个语音单元合并,得到一个法语片段;第十个语音单元构成一个日语片段。由此可以实现对该待识别语音中的各个语种片段的识别。
同时,可以理解,上述的确定待识别语音中的各个语种片段的处理过程,实际上实现了对待识别语音中的各个语种片段的识别和分割,使得本申请实施例提出的语种识别方法不仅明确了在待识别语音中所包含的各个语种,还明确了待识别语音中的各种不同的语种片段的起止位置,对于后续的各语种片段的截取和识别,具有重要的辅助作用。
作为一种优选的实现方式,本申请实施例提出,上述的获取待识别语音的每一语音单元的语音特征,具体为获取待识别语音的每一语音帧的语音特征,也就是,本申请实施例上述的每一语音单元,具体为每一语音帧。当获取到待识别语音时,本申请实施例将待识别语音划分为语音帧,提取每一语音帧的语音特征。
可以理解,语音帧是语音数据的最小数据单位,因此对待识别语音进行语音帧划分,以及提取各语音帧的语音特征进行语种识别,能够从最小粒度对待识别语音进行语音识别,利于更加全面、精细地识别待识别语音中包含的各个语种类别。
同时,在将待识别语音的语音帧分别作为语音单元的基础上,本申请实施例设定,上述的获取待识别语音的每一语音单元的语音特征,具体为分别提取待识别语音的每一语音帧的瓶颈特征,作为每一语音帧的语音特征。
具体的,上述的瓶颈特征(Bottleneck,BN),是声学特征的一种,其能够充分表征语音的语种信息。BN特征作为一种后验特征,相比于底层声学特征,具有很强的语种信息表征能力以及较强的抗干扰作用,在语种识别试验中能够达到较好的语种识别效果。因此,本申请实施例提取待识别语音的每一语音帧的瓶颈特征,作为每一语音帧的语音特征,参与后续的语种识别。
上述的将语音帧作为语音单元对待识别语音进行划分,以及提取语音帧的瓶颈特征,实现了对待识别语音的精细划分以及提取了最有利于语种识别的语音特征,从而为识别待识别语音中的各个语种提供了有利基础。
示例性的,本申请实施例提出的提取待识别语音的每一语音帧的瓶颈特征的具体处理过程包括:
首先,对待识别语音进行预处理。
具体的,上述的预处理为语种识别技术中常规的语音数据预处理,例如可以是对待处理语音进行格式转换处理、降噪增强处理和端点检测处理等处理中的一种处理或组合处理。上述预处理的具体处理过程可参照常规的语音数据预处理方案实现,本申请实施例不再详述。
在对待识别语音进行预处理后,提取预处理后的待识别语音的每一语音帧的FilterBank特征。
其中,上述的FilterBank特征又可简称为FB特征,具体是指借助滤波器组提取得到的语音数据特征,是常用的语音数据特征之一。通常情况下,语音信号中包含多种频段的声音信号,然而不论是对于人耳收听还是对于语音信号识别等,真正感兴趣或有利用价值的是其中某些频段的声音信号,其余信号则可能利用价值并不大,甚至可能会对正常的声音信号识别带来干扰。因此,设计借助滤波器组提取语音帧的数据特征,能够有效地提取到真正感兴趣或有价值的语音数据特征,同时可以防止多余的语音数据特征对后续的语种识别带来干扰。
作为可选的实现方式,上述的提取每一语音帧的FilterBank特征的具体实现过程,可以参照现有技术中已知的提取语音数据的FilterBank特征的方案实现,本申请实施例不再详述。
在分别提取每一语音帧的FilterBank特征后,本申请实施例进一步根据每一语音帧的FilterBank特征,确定每一语音帧的瓶颈特征。
具体的,根据语音数据的FB特征提取语音数据的BN特征可以借助神经网络实现,通过神经网络的隐藏层的层层处理,使输入的高维度特征的维度逐步缩小,直到从网络最后一个隐藏层输出时特征维度缩小到所需维度。
作为一种优选的实现方式,本申请实施例借助语音识别中常用的语音识别模型来实现FB特征向BN特征的转化。
双向长短期记忆(Bi-directional Long Short-Term Memory,BiLSTM)模型由于其较强的音素萃取功能,成为了目前性能较为突出的语音识别模型。由于BiLSTM模型已经在语音识别任务中有了很广泛的应用,具有良好的识别性能,因此可以将BiLSTM模型迁移并应用到BN特征的提取。
图3所示是利用BiLSTM模型进行语音识别的基本流程,首先对音频进行预处理,并提取每一帧的FB(filterbank)特征向量;然后将其输入到BiLSTM模型中进行语义信息提取,最后经过softmax层输出语音帧在各个状态的条件概率分布,基于语音帧在各个状态的条件概率分布可以确定各语音帧的状态,进而可以识别音频内容。图中虚线框标注的部分即为本方案的BN特征提取的流程,该流程也就是将BiLSTM模型的softmax层的前一层的输出作为BN特征。
本申请实施例将图3中所示的BiLSTM模型除去softmax层的部分作为瓶颈特征提取模型。通过将音频数据样本的FB特征输入该瓶颈特征提取模型得到BN特征对该瓶颈特征提取模型进行训练,使其能够准确的提取瓶颈特征。
基于上述的瓶颈特征提取模型,当本申请实施例提取到待识别语音的每一语音帧的Filter Bank特征后,分别将每一语音帧的Filter Bank特征输入上述预先训练的瓶颈特征提取模型,得到每一语音帧的瓶颈特征。
上述的瓶颈特征提取方案,借助了语音识别中的通用网络模型的功能,使得瓶颈特征的提取更加快捷、更易实现,同时保证了特征提取准确性。
作为一种示例性的实现方式,本申请实施例提出,上述的根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别,包括:
将所述每一语音单元的语音特征输入预先训练的语种识别模型,确定所述每一语音单元的语种类别;
其中,所述语种识别模型至少通过根据语音单元样本的语音特征识别语音单元样本的语种类别训练得到。
具体的,本申请实施例预先建立语种识别模型以及采集语音单元样本,分别将语音单元样本的语音特征输入建立的语种识别模型,训练语种识别模型对语音单元的语种类别的识别能力。在训练完毕后,将该语种识别模型用于语音单元的语种识别。
作为一种可选的实现方式,本申请实施例构建的语种识别模型采用BiLSTM网络作为主要的模型框架,并结合随机森林(Random Forest,RF)分类器进行分类,整个语种识别模型为“BiLSTM网络框架+随机森林分类器”的结构。
BiLSTM的网络结构能很好的模拟语音信号的时序特性,且综合了过去和未来时刻的信息,能更好的捕捉双向的语义依赖,这种上下文相关的语义信息对混合语种识别能起到至关重要的作用。同时,考虑到BiLSTM网络原有的softmax层在分类任务上存在泛化能力不足等问题,所以将BiLSTM模型的softmax层去掉,保留隐藏层的参数,提取隐藏层的输出重新训练分类器。本申请实施例选择的是随机森林(RandomForest,RF)分类器,主要原因是随机森林算法中引入了两个随机性:随机抽取训练样本和随机选择特征,能很好地缓解过拟合的现象,同时随机森林在分类上的表现良好,精度高,抗噪能力强。
另一方面,上述的BiLSTM网络的结构通常包括1个输入层、一个输出层和5个隐藏层。考虑到隐藏层越多,计算复杂度越高,而相比于语音识别任务,混合语种识别相对简单,因此,本申请实施例对上述BiLSTM网络的结构进行精简,设置其包括1个输入层、1个输出层和2个隐藏层。其中,输入层大小为瓶颈特征的维度,输出层大小为语种个数。
这里需要说明的是,由于本申请实施例对上述的BiLSTM网络的输出层大小进行了限定,因此理论上当一种BiLSTM网络的输出层大小确定时,由其构成的语种识别模型所能够识别的语种数量也就确定,因此该语种识别模型也就只能用于识别特定数量的语种类别。当需要识别其他数量的语种类别时,可以参照本申请实施例技术方案构建及训练新的符合可识别语种数量要求的语种识别模型。
在完成上述的语种识别模型构建后,利用语音单元样本对其进行训练,即,将语音单元样本的语音特征(在本申请中即为上述的瓶颈特征)输入该语种识别模型,使该模型对语音单元样本的语种类别进行识别。可以理解,该训练过程先后训练了BiLSTM网络的特征处理功能,以及随机森林分类器的语种分类功能。
为了防止模型训练时存在过拟合,在模型训练过程中引入一层mask(掩码)随机对语音单元样本的BN特征某些位置的特征置0。由于BN特征是由前向Fasr维特征和后向Fasr维特征组成,本申请实施例设定两个随机数来对BN特征进行dropout(随机丢弃)操作。具体的,参数n表示特征置0的个数,范围取(0,50],参数k表示开始置0的位置,范围取[0,Fasr-50)。当选定参数n和k时,分别对前向Fasr维特征和后向Fasr维特征[k,k+n-1]位置的特征置0。再将处理后的BN特征输入到BiLSTM网络中训练。
基于上述的语种识别模型的构建和训练可知,当将每一语音单元的语音特征输入语种识别模型,确定每一语音单元的语种类别时,该语种识别模型根据语音单元的语音特征确定语音单元的语种类别的具体过程主要包括两部分,分别为:
首先,将语音单元的语音特征输入双向长短期记忆网络,得到该语音单元的高维空间特征。
具体的,将每一语音帧的Fasr×2维的BN特征输入BiLSTM网络,通过BiLSTM网络提取高维空间特征。
然后,将该语音单元的高维空间特征输入随机森林分类器,能够该语音单元的语种类别。
具体的,随机森林分类器对语音单元的高维空间特征进行分类,确定其语种类别,然后,对应各语音单元的语种类别识别结果,为各语音单元设置语种分类标签。
可以理解,本申请实施例提出的上述语种识别模型,是语义信息提取性能优越的BiLSTM网络与特征分类性能优越的随机森林分类器相结合构成的模型,并且本申请实施例对该语种识别模型进行了网络结构的精简,以及在该模型的训练过程中有效避免了过拟合现象的发生,使得该语种识别模型的语种识别速率和准确率得到了有效保证,能够准确识别每一语音单元的语种类别。
进一步的,参见图4所示,在通过将所述待识别语音中的语种类别相同的相邻语音单元进行合并,确定所述待识别语音中的各个语种片段后,本申请实施例提出的语种识别方法还包括:
S405、根据所述待识别语音中的各个语种片段的时长,对所述待识别语音中的语种片段进行平滑处理。
本申请实施例提出的语种识别方法是通过对待识别语音的各个语音单元进行语种识别,实现了对待识别语音中的各个语种的识别。该精细粒度的语种识别实现了对待识别语音中的不同语种的识别,并且能够有效检出待识别语音中的各个语种片段,由于其识别粒度较小,因此可以识别出时长很短的语种片段。然而通常情况下,任意语种的语音片段通常都不会太短,一般会有一个发音时长阈值,而如果属于该语种的某一语种片段的时长小于该发音时长阈值,则可以认为该语种片段是无效的,此时该语种片段可以被视为毛刺语种片段。
当对于待识别语音的语种片段识别结果中包含毛刺语种片段时,需要对识别出的语种片段进行平滑处理。语种片段的时长是识别毛刺语种片段的主要依据,因此,本申请实施例根据待识别语音中的各个语种片段的时长,从待识别语音中识别时长小于设定的时长阈值的语种片段进行平滑处理,从而提高语种片段识别的可靠性。
其中,上述的对待识别语音的语种片段的平滑处理,具体是指对待识别语音中的毛刺语音片段的语种类别进行修正,使其与相邻的语种片段的语种类别相同,从而使待识别语音的语种片段识别结果中不再包含时长过小的语种片段,也就是不再包含毛刺语种片段。
示例性的,本申请实施例提出,上述的根据所述待识别语音中的各个语种片段的时长,对所述待识别语音中的语种片段进行平滑处理,具体包括:
首先,分别确定与所述待识别语音中的各个语种片段对应的语音时长阈值,其中,属于相同语种类别的语种片段对应的语音时长阈值相同。
理论上,当判断语种片段是否为毛刺语种片段时,需要首先明确与该语种片段对应的语音时长阈值,通过将该语种片段的时长与该语音时长阈值进行对比,能够判断该语种片段是否为毛刺语种片段。
本申请实施例对应每种语种类别设置一个语音时长阈值,因此,属于相同语种类别的语种片段对应的语音时长阈值相同。
对应每种语种类别的语音时长阈值,可以是预先设置的阈值,也可以是根据实际场景灵活计算确定的阈值。
作为示例性的实现方式,本申请实施例在确定与待识别语音中的各个语种片段对应的语音时长阈值时,具体是对应于待识别语音中的属于相同语种类别的各个语种片段,计算该各个语种片段的数据帧数的倒数平均数,作为与该各个语种片段对应的语音时长阈值。
例如,假设a1,a2,…ak表示待识别语音中的属于语种i的k个语种片段分别包含的数据帧数,则按照如下公式计算k个语种片段的数据帧数的倒数平均数ti,作为该k个语种片段各自对应的语音时长阈值。
按照上述方法,可以分别确定与各个语种片段对应的语音时长阈值。
然后,根据与待识别语音中的各个语种片段对应的语音时长阈值,从所述待识别语音中筛选出毛刺语种片段;其中,所述毛刺语种片段的时长满足预设的根据语种片段时长识别毛刺语种片段的条件。
示例性的,本申请实施例将语种片段的时长小于与语种片段对应的语音时长阈值,作为判断、识别毛刺语种片段的条件。
基于此,本申请实施例将待识别语音中的各个语种片段的时长分别与其对应的语音时长阈值进行对比,判断语种片段是否为毛刺语种片段,进而从待识别语音中筛选出毛刺语种片段。
需要说明的是,当从待识别语音中识别出相邻的毛刺语种片段时,将识别出的相邻的毛刺语种片段合并为一个毛刺语种片段,参与后续的平滑处理。
其次,通过对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别,和/或对比所述毛刺语种片段和所述毛刺语种片段的左右两侧相邻语种片段的语音特征,确定所述毛刺语种片段的待修改语种类别。
最后,将所述毛刺语种片段的语种类别修改为所述待修改语种类别。
本申请实施例通过对毛刺语种片段的语种类别进行修改,使其与相邻语种片段的语种类别相同,从而达到平滑目的。
因此,当从待识别语音中识别出毛刺语种片段后,先确定应当将毛刺语种片段的语种类别修改为哪种语种类别,也就是确定毛刺语种片段的待修改语种类别,再将毛刺语种片段的语种类别修改为该待修改语种类别,即完成了对毛刺语种片段的平滑。
由于毛刺语种片段相邻的语种片段的语种类别可能相同也可能不同,因此到底将毛刺语种片段的语种类别修改为何种语种类别,需要将毛刺语种片段、毛刺语种片段的左侧相邻语种片段和毛刺语种片段的右侧相邻语种片段三者或者三者中的任意两者的语种类别和/或语音特征进行对比,判断毛刺语种片段的语种类别与哪个相邻语种片段的语种类别的相似度最高,从而确定与该毛刺语种片段对应的待修改语种类别。
作为一种可选的实现方式,本申请实施例公开了,在通过对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别,和/或对比所述毛刺语种片段和所述毛刺语种片段的左右两侧相邻语种片段的语音特征,确定所述毛刺语种片段的待修改语种类别时,具体按照如下规则处理:
对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别。
按照本申请实施例技术方案完成对待识别语音的语种片段识别后,在待识别语音中,上述毛刺语种片段的左侧和右侧均为某种语种的语种片段,本申请实施例首先将毛刺语种片段的左侧相邻语种片段和右侧相邻语种片段的语种类别进行对比。
需要说明的是,如果毛刺语种片段位于待识别语音的起始或结束位置,这时可能不存在毛刺语种片段的左侧相邻语种片段或右侧相邻语种片段,此时可以不跳过本步骤的对比操作,通过后续介绍的将毛刺语种片段的语音特征与相邻语种片段的语音特征进行对比,来对毛刺语种片段的语种类别进行修改。
如果所述毛刺语种片段的左右两侧相邻语种片段的语种类别相同,则将所述毛刺语种片段的左右两侧相邻语种片段的语种类别设定为所述毛刺语种片段的待修改语种类别。
具体的,如果毛刺语种片段的左右两侧相邻的语种片段的语种类别相同,此时该毛刺语种片段的存在实际上是在一长段同一语种的语音片段中出现了一个其他语种的毛刺语种片段,但是一般情况下这种情况在现实情况中是不会发生的,可以认为该毛刺语种片段是识别错误的语种片段。理论上,该毛刺片段的语种类别应当与其相邻语种片段的语种类别相同,因此,如果毛刺语种片段的左右两侧相邻语种片段的语种类别相同,则本申请实施例将该毛刺语种片段的左右两侧相邻语种片段的语种类别视为该毛刺语种片段的正确语种类别,也就是将该毛刺语种片段的左右相邻语种片段的语种类别设定为该毛刺语种片段的待修改语种类别。
如果所述毛刺语种片段的左右两侧相邻语种片段的语种类别不同,则通过对比所述毛刺语种片段的语音特征、所述毛刺语种片段的左侧相邻语种片段的语音特征和所述毛刺语种片段的右侧相邻语种片段的语音特征,将所述毛刺语种片段的左侧相邻语种片段的语种类别或所述毛刺语种片段的右侧相邻语种片段的语种类别设定为所述毛刺语种片段的待修改语种类别。
具体的,如果毛刺语种片段的左右两侧相邻语种片段的语种类别不同,则该毛刺语种片段原本可能是其左侧相邻语种片段的一部分,也可能是其右侧相邻语种片段的一部分,也就是该毛刺语种片段的语种类别可能与左右两侧相邻语种片段中的任一语种片段的语种类别相同。此时,本申请实施例通过将毛刺语种片段的语音特征分别与其两侧相邻语种片段的语音特征进行对比,来判断该毛刺语种片段的语种类别到底应当与哪个相邻语种片段的语种类别相同。
示例性的,由于本申请实施例在提取待识别语音的语音特征时,是分别提取的各个语音单元的语音特征,而上述的毛刺语种片段,以及上述的毛刺语种片段的左右相邻语种片段均为至少一个语音单元合并得到的语种片段,此时,本申请实施例在计算毛刺语种片段,以及毛刺语种片段的左右两侧相邻语种片段的语音特征时,具体是计算语音片段中包含的各个语音单元的语音特征的均值,作为整个语音片段的语音特征。
当然,在其它方式中,也可以采用其它方式确定整个语音片段的语音特征,例如将语音片段中包含的各个语音单元的语音特征聚类,将聚类所得的类中心作为整个语音片段的语音特征。
然后,本申请实施例分别计算该毛刺语种片段的语音特征与其左侧相邻语种片段的语音特征的相似度,以及该毛刺语种片段的语音特征与其右侧相邻语种片段的语音特征的相似度,以计算得到的相似度为依据,选出与毛刺语种片段的语音特征的相似度较大的相邻语种片段,该相邻语种片段的语种类别,即为该毛刺语种片段的待修改语种类别。
示例性的,上述的相似度计算,可以通过计算余弦相似度或其它相似度算法实现。
可以理解,语种片段的语音特征的相似度,能够表示语种片段的语种类别的相似性,因此本申请实施例将毛刺语种片段的语种类别修改为与其相邻并且语音特征较相似的语种片段的语种类别,是符合实际的语种类别修改。
本申请实施例通过将待识别语音中的位置相邻并且语种类别相同的语音单元进行合并确定待识别语音中的各个语种片段后,实际上也就确定了各种不同语种的片段之间的边界。
正常情况下,当对相邻语种片段的各语音单元的语种类别识别正确时,两个语种片段之间的边界应当是准确无误的。
例如,图5所示为从待识别语音中识别得到的两个相邻的语种片段,左侧语种片段为语种1,右侧语种片段为语种2,其中箭头所指位置为两个语种片段之间的边界位置。以该语种片段边界位置为中心,前后各取0.5秒范围的语音构成语音数据段,标记为B部分,然后B部分两侧分别标记为A部分和C部分。
可以理解,如果对两个语种片段的各个语音单元的语种识别均正确,则在B部分应当只存在一个语种片段边界,此时,B部分的语种标签应当是类似于(1111222)的形式,在其中相邻的“1”和“2”之间的位置即为两个语种片段的边界位置。
但是,在语种识别实际应用中,可能并不能完全保证对语音单元的语种类别识别正确,此时,在两个不同语种的语种片段的交界位置附近,可能由于对个别语音单元的语种类别识别错误,使得在该语种片段边界附近范围内存在多个较小的不同语种的语种片段,此时在该范围内会存在多个语种片段边界,这对相邻语种片段的分割会带来困扰。例如,若图5中B部分的语种标签被识别为(1121122),则会造成在该范围内存在多个语种片段边界,此时会对语种1语种片段和语种2语种片段的分割带来困扰。
为了便于从待识别语音中能够准确地界定两个相邻的语种片段,本申请实施例在完成对待识别语音中的语种片段的识别后,还对存在多个语种片段边界的语音数据的语种类别进行修正,从而使相邻语种片段的边界确定且唯一,为相邻语种片段的界定提供便利。
为达到上述目的,当确定待识别语音中的各个语种片段后,或者在对待识别语音中的语种片段进行平滑处理后,本申请实施例还根据待识别语音中的各个语种片段,识别待识别语音中的多边界语音片段。
其中,上述的多边界语音片段为至少包含两个语种片段边界的设定时长的语音片段。
上述的设定时长,应当被设置为较小的时长。可以理解,当在一段较小时长的语音片段中,如果存在两个以上的语种片段边界,则在这其中的语种片段边界作为两个相邻语种片段的边界时,是不稳定的,可能发生语种片段边界波动的情况。而如果在一段较小时长的语音片段中,如果只存在一个语种片段边界,则可以确定该语种片段边界必定是其左右两侧的语种片段的边界,也就是可以确定该语种片段边界是正确的。
示例性的,本申请实施例以上述的设定时长为滑窗大小,在待识别语音中滑动查找包含两个或两个以上语种片段边界的语音片段,得到多边界语音片段。
当从待识别语音中识别、筛选出多边界语音片段后,通过对比多边界语音片段的语音特征以及该多边界语音片段的相邻语音数据的语音特征,对该多边界语音片段的语种类别进行修正。
对于多边界语音片段,由于其中包含多个语种片段边界,也就包含多个语种片段,要想使该多边界语音片段中只存在一个语种片段边界,需要对该多边界语音片段中的语音单元或语种片段的语种类别进行修正。本申请实施例通过将该多边界语音片段及其相邻语音数据的语音特征进行对比,来对该多边界语音片段的语种类别进行修正。
示例性的,本申请实施例首先根据多边界语音片段的相邻语音数据的语种类别,从多边界语音片段中筛选出候选边界。
具体的,当多边界语音片段左右两侧相邻的语音数据的语种类别确定时,其左右两侧相邻的语音数据之间的正确的边界两侧的语音数据的语种类别关系,应当符合该多边界语音片段左右两侧相邻的语音数据的语种类别关系。按照上述规律,可以从多边界语音片段中选出符合上述规律的语种片段边界,作为候选边界,该候选边界可能最终作为正确的语种片段边界。
例如图5所示,当B部分的语种标签为(1121122)时,由于B部分左右两侧(A部分和C部分)的语音数据的语种分别为语种1和语种2,则语种1语种片段和语种2语种片段之间的正确边界,可能是在B部分中从左侧起,语种标签第一次由1变成2的位置,即(11边界21122),或者是从右侧起,语种标签第一次由2变成1的位置,即(11211边界22),该两个位置处的边界,即为本申请实施例筛选出的候选边界。
当从多边界语音片段中筛选出候选边界后,从所述多边界语音片段中分别确定出与各个候选边界对应的待更新语音子片段。
其中,所述待更新语音子片段与候选边界相邻并且包含其他语种片段边界。
具体的,多边界语音片段中的候选边界可以将多边界语音片段划分为两部分,基于上述的候选边界的筛选规则,该两部分中其中一部分的语种类别与其相邻的、在该多边界语音片段之外的语音数据的语种类别相同;而另一部分由于还包含其他语种片段边界,因此其语种类别并不固定,而是包含多种不同的语种类别的语种片段,该部分即为需要进行语种类别修正的部分,本申请实施例将其标记为待更新语音子片段。
按照上述规则,当对应每个候选边界都确定与其对应的待更新语音子片段后,对应每个待更新语音子片段,分别执行以下处理:
从多边界语音片段的相邻语音数据中,选出与该待更新语音子片段相邻并且与该待更新语音子片段处于与该待更新语音子片段对应的候选边界的同一侧的语音数据,作为与该待更新语音子片段对应的邻域语音数据。
具体的,从多边界语音片段的相邻语音数据中,选出与该多边界语音片段中的待更新语音子片段相邻,并且与该待更新语音子片段处于对应的候选边界的同一侧的语音数据,作为该待更新语音子片段对应的邻域语音数据。
例如,当图5中所示B部分的语种标签为(1121122)时,对于(11边界21122)所示的候选边界位置,可以确定B部分中的语音子片段(21122)为待更新语音子片段。按照本申请实施例上述的邻域语音数据的筛选规则,将C部分的语音数据作为与待更新语音子片段(21122)对应的邻域语音数据。
同理,对于(11211边界22)所述的候选边界位置,可以确定B部分中的语音子片段(11211)为待更新语音子片段。按照本申请实施例上述的邻域语音数据的筛选规则,将A部分的语音数据作为与待更新语音子片段(11211)对应的邻域语音数据。
然后,对应每个待更新语音子片段,分别计算该待更新语音子片段的语音特征,与该待更新语音子片段的邻域语音数据的语音特征的相似度,作为该待更新语音子片段的语种修正参数。
其中,上述的语种修正参数,用于表示对待更新语音子片段的语种类别进行更新的必要程度,待更新语音子片段的语种修正参数值越大,则表示对该待更新语音子片段的语种类别进行修正的必要程度越高。
本申请实施例计算待更新语音子片段中的各个语音单元的语音特征的平均值,作为该待更新语音子片段的语音特征;计算邻域语音数据的各个语音单元的语音特征的平均值,作为该邻域语音数据的语音特征。然后,计算两者语音特征的向量的余弦相似度,作为待更新语音子片段的语种修改参数。
在分别计算得到各个待更新语音子片段的语种修正参数后,将语种修正参数最大的待更新语音子片段的语种类别,修正为其邻域语音数据的语种类别。
例如,如果待更新语音子片段(11211)的语音特征和A部分语音数据的语音特征的相似度,大于待更新语音子片段(21122)的语音特征和C部分语音数据的语音特征的相似度,那么可以确定语种1的语种片段和语种2的语种片段的边界就在(11211)和(22)之间,此时将待更新语音子片段(11211)的语种类别修改为A部分的语种类别,也就是修改为语种1,此时待更新语音子片段(11211)的语种标签修改为(11111),则B部分的语种标签更新为(1111122),此时可以准确、唯一的确定语种1的语音片段和语种2的语音片段的边界位置。
本申请实施例通过对上述的多边界语音片段的语种类别的修正,保证相邻的语种片段之间的边界唯一确定,进一步提升了多语种识别的准确度。
与上述的语种识别方法相对应的,本申请实施例还提出一种语种识别装置,参见图6所示,该装置包括:
特征提取单元100,用于获取待识别语音的每一语音单元的语音特征;
语种识别单元110,用于根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别;
语种统计单元120,用于根据所述每一语音单元的语种类别,确定所述待识别语音中包含的各个语种。
本申请实施例提出的语种识别装置在对待识别语音进行语种识别时,先通过特征提取单元100获取待识别语音的每一语音单元的语音特征,然后由语种识别单元110根据每一语音单元的语音特征,识别每一语音单元的语种类别,最后由语种统计单元120根据每一语音单元的语种类别,确定待识别语音中包含的各个语种。上述语种识别装置对待识别语音进行了语音单元拆分,通过识别各个语音单元的语种类别,确定整个待识别语音所包含的语种类别。该处理过程从微观粒度对待识别语音进行了精细的语种识别,当待识别语音中包含多种不同语种的语音内容时,各语种的语音内容都可以被单独识别,因此提高了混合语种语音中的各个语种的识别成功率,能够实现对混合语种语音的有效语种识别。
作为一种可选的实现方式,本申请另一实施例还公开了,所述装置还包括:
语种片段识别单元,用于通过将所述待识别语音中的语种类别相同的相邻语音单元进行合并,确定所述待识别语音中的各个语种片段。
示例性的,所述每一语音单元具体为每一语音帧;
所述获取待识别语音的每一语音单元的语音特征,包括:
分别提取待识别语音的每一语音帧的瓶颈特征,作为每一语音帧的语音特征。
示例性的,所述提取待识别语音的每一语音帧的瓶颈特征,包括:
对待识别语音进行预处理;其中,所述预处理包括格式转换处理、降噪增强处理和端点检测处理中的至少一种;
提取预处理后的待识别语音的每一语音帧的FilterBank特征;
根据所述每一语音帧的FilterBank特征,确定所述每一语音帧的瓶颈特征。
示例性的,所述根据所述每一语音帧的Filter Bank特征,确定所述每一语音帧的瓶颈特征,包括:
分别将所述每一语音帧的Filter Bank特征输入预先训练的瓶颈特征提取模型,得到所述每一语音帧的瓶颈特征;
其中,所述瓶颈特征提取模型至少通过由语音样本的Filter Bank特征提取语音样本的瓶颈特征训练得到。
示例性的,所述根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别,包括:
将所述每一语音单元的语音特征输入预先训练的语种识别模型,确定所述每一语音单元的语种类别;
其中,所述语种识别模型至少通过根据语音单元样本的语音特征识别语音单元样本的语种类别训练得到。
示例性的,所述语种识别模型根据语音单元的语音特征确定语音单元的语种类别的具体过程为:
将语音单元的语音特征输入双向长短期记忆网络,得到该语音单元的高维空间特征;
将该语音单元的高维空间特征输入随机森林分类器,确定该语音单元的语种类别。
示例性的,所述装置还包括:
平滑处理单元,用于根据所述待识别语音中的各个语种片段的时长,对所述待识别语音中的语种片段进行平滑处理。
示例性的,所述根据所述待识别语音中的各个语种片段的时长,对所述待识别语音中的语种片段进行平滑处理,包括:
分别确定与所述待识别语音中的各个语种片段对应的语音时长阈值,其中,属于相同语种类别的语种片段对应的语音时长阈值相同;
根据与待识别语音中的各个语种片段对应的语音时长阈值,从所述待识别语音中筛选出毛刺语种片段;其中,所述毛刺语种片段的时长满足预设的根据语种片段时长识别毛刺语种片段的条件;
通过对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别,和/或对比所述毛刺语种片段和所述毛刺语种片段的左右两侧相邻语种片段的语音特征,确定所述毛刺语种片段的待修改语种类别;
将所述毛刺语种片段的语种类别修改为所述待修改语种类别。
示例性的,在从所述待识别语音中筛选出毛刺语种片段后,所述方法还包括:
将所述待识别语音中的相邻的毛刺语种片段合并为一个毛刺语种片段。
示例性的,所述分别确定与所述待识别语音中的各个语种片段对应的语音时长阈值,包括:
对应于所述待识别语音中的属于相同语种类别的各个语种片段,计算该各个语种片段的数据帧数的倒数平均数,作为与该各个语种片段对应的语音时长阈值。
示例性的,所述通过对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别,和/或对比所述毛刺语种片段和所述毛刺语种片段的左右两侧相邻语种片段的语音特征,确定所述毛刺语种片段的待修改语种类别,包括:
对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别;
如果所述毛刺语种片段的左右两侧相邻语种片段的语种类别相同,则将所述毛刺语种片段的左右两侧相邻语种片段的语种类别设定为所述毛刺语种片段的待修改语种类别;
如果所述毛刺语种片段的左右两侧相邻语种片段的语种类别不同,则通过对比所述毛刺语种片段的语音特征、所述毛刺语种片段的左侧相邻语种片段的语音特征和所述毛刺语种片段的右侧相邻语种片段的语音特征,将所述毛刺语种片段的左侧相邻语种片段的语种类别或所述毛刺语种片段的右侧相邻语种片段的语种类别设定为所述毛刺语种片段的待修改语种类别。
示例性的,所述装置还包括:
边界修正单元,用于根据所述待识别语音中的各个语种片段,识别所述待识别语音中的多边界语音片段,其中,所述多边界语音片段为至少包含两个语种片段边界的设定时长的语音片段;
通过对比所述多边界语音片段的语音特征以及所述多边界语音片段的相邻语音数据的语音特征,对所述多边界语音片段的语种类别进行修正。
示例性的,所述通过对比所述多边界语音片段的语音特征以及所述多边界语音片段的相邻语音数据的语音特征,对所述多边界语音片段的语种类别进行修正,包括:
根据所述多边界语音片段的相邻语音数据的语种类别,从所述多边界语音片段中筛选出候选边界;
从所述多边界语音片段中分别确定出与各个候选边界对应的待更新语音子片段,其中,所述待更新语音子片段与候选边界相邻并且包含其他语种片段边界;
对应每个待更新语音子片段,从所述多边界语音片段的相邻语音数据中,选出与该待更新语音子片段相邻并且与该待更新语音子片段处于与该待更新语音子片段对应的候选边界的同一侧的语音数据,作为与该待更新语音子片段对应的邻域语音数据;
对应每个待更新语音子片段,分别计算该待更新语音子片段的语音特征,与该待更新语音子片段的邻域语音数据的语音特征的相似度,作为该待更新语音子片段的语种修正参数;
将语种修正参数最大的待更新语音子片段的语种类别,修正为其邻域语音数据的语种类别。
具体的,上述的语种识别装置的各个单元的具体工作内容,请参见上述方法实施例的介绍,此处不再重复。
本申请另一实施例还公开了一种语种识别设备,参见图7所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的语种识别方法。
具体的,上述目标检测结果的评测设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器2102执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的语种识别方法的各个步骤。
本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例提供的语种识别方法的各个步骤。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (13)
1.一种语种识别方法,其特征在于,包括:
获取待识别语音的每一语音单元的语音特征;
根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别;
根据所述每一语音单元的语种类别,将所述待识别语音中的语种类别相同的相邻语音单元进行合并,确定所述待识别语音中包含的各个语种,以明确所述待识别语音中的各种不同的语种片段的起止位置;
根据所述待识别语音中的各个语种片段,识别所述待识别语音中的多边界语音片段,其中,所述多边界语音片段为至少包含两个语种片段边界的设定时长的语音片段;
通过对比所述多边界语音片段的语音特征以及所述多边界语音片段的相邻语音数据的语音特征,对所述多边界语音片段的语种类别进行修正。
2.根据权利要求1所述的方法,其特征在于,所述每一语音单元具体为每一语音帧;
所述获取待识别语音的每一语音单元的语音特征,包括:
分别提取待识别语音的每一语音帧的瓶颈特征,作为每一语音帧的语音特征。
3.根据权利要求2所述的方法,其特征在于,所述提取待识别语音的每一语音帧的瓶颈特征,包括:
对待识别语音进行预处理;其中,所述预处理包括格式转换处理、降噪增强处理和端点检测处理中的至少一种;
提取预处理后的待识别语音的每一语音帧的FilterBank特征;
分别将所述每一语音帧的Filter Bank特征输入预先训练的瓶颈特征提取模型,得到所述每一语音帧的瓶颈特征;
其中,所述瓶颈特征提取模型至少通过由语音样本的FilterBank特征提取语音样本的瓶颈特征训练得到。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别,包括:
将所述每一语音单元的语音特征输入预先训练的语种识别模型,确定所述每一语音单元的语种类别;
其中,所述语种识别模型至少通过根据语音单元样本的语音特征识别语音单元样本的语种类别训练得到,所述语种识别模型根据语音单元的语音特征确定语音单元的语种类别的具体过程为:
将语音单元的语音特征输入双向长短期记忆网络,得到该语音单元的高维空间特征;
将该语音单元的高维空间特征输入随机森林分类器,确定该语音单元的语种类别。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待识别语音中的各个语种片段的时长,对所述待识别语音中的语种片段进行平滑处理。
6.根据权利要求5所述的方法,其特征在于,所述根据所述待识别语音中的各个语种片段的时长,对所述待识别语音中的语种片段进行平滑处理,包括:
分别确定与所述待识别语音中的各个语种片段对应的语音时长阈值,其中,属于相同语种类别的语种片段对应的语音时长阈值相同;
根据与待识别语音中的各个语种片段对应的语音时长阈值,从所述待识别语音中筛选出毛刺语种片段;其中,所述毛刺语种片段的时长满足预设的根据语种片段时长识别毛刺语种片段的条件;
通过对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别,和/或对比所述毛刺语种片段和所述毛刺语种片段的左右两侧相邻语种片段的语音特征,确定所述毛刺语种片段的待修改语种类别;
将所述毛刺语种片段的语种类别修改为所述待修改语种类别。
7.根据权利要求6所述的方法,其特征在于,在从所述待识别语音中筛选出毛刺语种片段后,所述方法还包括:
将所述待识别语音中的相邻的毛刺语种片段合并为一个毛刺语种片段。
8.根据权利要求6所述的方法,其特征在于,所述分别确定与所述待识别语音中的各个语种片段对应的语音时长阈值,包括:
对应于所述待识别语音中的属于相同语种类别的各个语种片段,计算该各个语种片段的数据帧数的倒数平均数,作为与该各个语种片段对应的语音时长阈值。
9.根据权利要求6所述的方法,其特征在于,所述通过对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别,和/或对比所述毛刺语种片段和所述毛刺语种片段的左右两侧相邻语种片段的语音特征,确定所述毛刺语种片段的待修改语种类别,包括:
对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别;
如果所述毛刺语种片段的左右两侧相邻语种片段的语种类别相同,则将所述毛刺语种片段的左右两侧相邻语种片段的语种类别设定为所述毛刺语种片段的待修改语种类别;
如果所述毛刺语种片段的左右两侧相邻语种片段的语种类别不同,则通过对比所述毛刺语种片段的语音特征、所述毛刺语种片段的左侧相邻语种片段的语音特征和所述毛刺语种片段的右侧相邻语种片段的语音特征,将所述毛刺语种片段的左侧相邻语种片段的语种类别或所述毛刺语种片段的右侧相邻语种片段的语种类别设定为所述毛刺语种片段的待修改语种类别。
10.根据权利要求1所述的方法,其特征在于,所述通过对比所述多边界语音片段的语音特征以及所述多边界语音片段的相邻语音数据的语音特征,对所述多边界语音片段的语种类别进行修正,包括:
根据所述多边界语音片段的相邻语音数据的语种类别,从所述多边界语音片段中筛选出候选边界;
从所述多边界语音片段中分别确定出与各个候选边界对应的待更新语音子片段,其中,所述待更新语音子片段与候选边界相邻并且包含其他语种片段边界;
对应每个待更新语音子片段,从所述多边界语音片段的相邻语音数据中,选出与该待更新语音子片段相邻并且与该待更新语音子片段处于与该待更新语音子片段对应的候选边界的同一侧的语音数据,作为与该待更新语音子片段对应的邻域语音数据;
对应每个待更新语音子片段,分别计算该待更新语音子片段的语音特征,与该待更新语音子片段的邻域语音数据的语音特征的相似度,作为该待更新语音子片段的语种修正参数;
将语种修正参数最大的待更新语音子片段的语种类别,修正为其邻域语音数据的语种类别。
11.一种语种识别装置,其特征在于,包括:
特征提取单元,用于获取待识别语音的每一语音单元的语音特征;
语种识别单元,用于根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别;
语种统计单元,用于根据所述每一语音单元的语种类别,将所述待识别语音中的语种类别相同的相邻语音单元进行合并,确定所述待识别语音中包含的各个语种,以明确所述待识别语音中的各种不同的语种片段的起止位置;
所述装置还用于,根据所述待识别语音中的各个语种片段,识别所述待识别语音中的多边界语音片段,其中,所述多边界语音片段为至少包含两个语种片段边界的设定时长的语音片段;通过对比所述多边界语音片段的语音特征以及所述多边界语音片段的相邻语音数据的语音特征,对所述多边界语音片段的语种类别进行修正。
12.一种语种识别设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至10中任一项所述的语种识别方法。
13.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至10中任一项所述的语种识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010161612.4A CN111326139B (zh) | 2020-03-10 | 2020-03-10 | 一种语种识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010161612.4A CN111326139B (zh) | 2020-03-10 | 2020-03-10 | 一种语种识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111326139A CN111326139A (zh) | 2020-06-23 |
CN111326139B true CN111326139B (zh) | 2024-02-13 |
Family
ID=71173144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010161612.4A Active CN111326139B (zh) | 2020-03-10 | 2020-03-10 | 一种语种识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111326139B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798836B (zh) * | 2020-08-03 | 2023-12-05 | 上海茂声智能科技有限公司 | 一种自动切换语种方法、装置、系统、设备和存储介质 |
CN112017630B (zh) * | 2020-08-19 | 2022-04-01 | 北京字节跳动网络技术有限公司 | 一种语种识别方法、装置、电子设备及存储介质 |
CN113782000B (zh) * | 2021-09-29 | 2022-04-12 | 北京中科智加科技有限公司 | 一种基于多任务的语种识别方法 |
CN114398468A (zh) * | 2021-12-09 | 2022-04-26 | 广东外语外贸大学 | 一种多语种识别方法和系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998000773A1 (fr) * | 1996-07-02 | 1998-01-08 | Sha Liu | Procede et systeme informatique pour le codage semantique unifie et confine de differents langages naturels |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
CN106878805A (zh) * | 2017-02-06 | 2017-06-20 | 广东小天才科技有限公司 | 一种混合语种字幕文件生成方法及装置 |
CN107507630A (zh) * | 2017-07-17 | 2017-12-22 | 嘉兴开泽电子设备有限公司 | 一种非合作语音通信接收数据无用时间段识别方法 |
CN109147769A (zh) * | 2018-10-17 | 2019-01-04 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN109192192A (zh) * | 2018-08-10 | 2019-01-11 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
CN110491375A (zh) * | 2019-08-22 | 2019-11-22 | 新疆科大讯飞信息科技有限责任公司 | 一种目标语种检测的方法和装置 |
CN110674480A (zh) * | 2019-10-11 | 2020-01-10 | 同盾控股有限公司 | 行为数据处理方法、装置、设备及可读存储介质 |
CN110689875A (zh) * | 2019-10-28 | 2020-01-14 | 国家计算机网络与信息安全管理中心 | 一种语种识别方法、装置及可读存储介质 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
CN110827793A (zh) * | 2019-10-21 | 2020-02-21 | 成都大公博创信息技术有限公司 | 一种语种识别方法 |
CN110852277A (zh) * | 2019-11-12 | 2020-02-28 | 成都国翼电子技术有限公司 | 一种用于警务督察的玩手机识别系统及方法 |
CN110853617A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
-
2020
- 2020-03-10 CN CN202010161612.4A patent/CN111326139B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998000773A1 (fr) * | 1996-07-02 | 1998-01-08 | Sha Liu | Procede et systeme informatique pour le codage semantique unifie et confine de differents langages naturels |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
CN106878805A (zh) * | 2017-02-06 | 2017-06-20 | 广东小天才科技有限公司 | 一种混合语种字幕文件生成方法及装置 |
CN107507630A (zh) * | 2017-07-17 | 2017-12-22 | 嘉兴开泽电子设备有限公司 | 一种非合作语音通信接收数据无用时间段识别方法 |
CN109192192A (zh) * | 2018-08-10 | 2019-01-11 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN109147769A (zh) * | 2018-10-17 | 2019-01-04 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
CN110491375A (zh) * | 2019-08-22 | 2019-11-22 | 新疆科大讯飞信息科技有限责任公司 | 一种目标语种检测的方法和装置 |
CN110674480A (zh) * | 2019-10-11 | 2020-01-10 | 同盾控股有限公司 | 行为数据处理方法、装置、设备及可读存储介质 |
CN110827793A (zh) * | 2019-10-21 | 2020-02-21 | 成都大公博创信息技术有限公司 | 一种语种识别方法 |
CN110689875A (zh) * | 2019-10-28 | 2020-01-14 | 国家计算机网络与信息安全管理中心 | 一种语种识别方法、装置及可读存储介质 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
CN110852277A (zh) * | 2019-11-12 | 2020-02-28 | 成都国翼电子技术有限公司 | 一种用于警务督察的玩手机识别系统及方法 |
CN110853617A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111326139A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111326139B (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
WO2020248376A1 (zh) | 情绪检测方法、装置、电子设备及存储介质 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
US20040260550A1 (en) | Audio processing system and method for classifying speakers in audio data | |
Provost | Identifying salient sub-utterance emotion dynamics using flexible units and estimates of affective flow | |
WO2020253051A1 (zh) | 唇语的识别方法及其装置 | |
CN111461173B (zh) | 一种基于注意力机制的多说话人聚类系统及方法 | |
CN112700794B (zh) | 一种音频场景分类方法、装置、电子设备和存储介质 | |
CN111488487B (zh) | 一种面向全媒体数据的广告检测方法及检测系统 | |
WO2021196390A1 (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
US11017780B2 (en) | System and methods for neural network orchestration | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
WO2023088448A1 (zh) | 语音处理方法、设备及存储介质 | |
CN113066499A (zh) | 一种陆空通话说话人身份识别方法及装置 | |
Zuo et al. | Recognition of blue movies by fusion of audio and video | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN114639155A (zh) | 情感识别方法、装置、存储介质、及处理器 | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN111932056A (zh) | 客服质量评分方法、装置、计算机设备和存储介质 | |
EP3816996A1 (en) | Information processing device, control method, and program | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN115101077A (zh) | 一种声纹检测模型训练方法及声纹识别方法 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |