CN112489678B - 一种基于信道特征的场景识别方法及装置 - Google Patents

一种基于信道特征的场景识别方法及装置 Download PDF

Info

Publication number
CN112489678B
CN112489678B CN202011275286.6A CN202011275286A CN112489678B CN 112489678 B CN112489678 B CN 112489678B CN 202011275286 A CN202011275286 A CN 202011275286A CN 112489678 B CN112489678 B CN 112489678B
Authority
CN
China
Prior art keywords
audio
channel
space matrix
identified
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011275286.6A
Other languages
English (en)
Other versions
CN112489678A (zh
Inventor
荆伟
白二伟
包飞
倪合强
姚寿柏
黄华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yunwangwandian Technology Co ltd
Original Assignee
Shenzhen Yunwangwandian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yunwangwandian Technology Co ltd filed Critical Shenzhen Yunwangwandian Technology Co ltd
Priority to CN202011275286.6A priority Critical patent/CN112489678B/zh
Publication of CN112489678A publication Critical patent/CN112489678A/zh
Application granted granted Critical
Publication of CN112489678B publication Critical patent/CN112489678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于信道特征的场景识别方法、装置、计算机设备及存储介质,该方法包括:通过获取待识别音频,对待识别音频进行分帧处理,获取音频帧,提取每一音频帧的音频特征以及信道特征,分别构建每一音频帧的音频特征向量以及信道特征向量,将每一音频帧输入预先训练的识别模型,获取每一音频帧对应的超矢量,根据超矢量、音频特征向量以及信道特征向量使用预设方法进行迭代计算,获取待识别音频对应的信道空间矩阵,根据信道空间矩阵以及待匹配音频的信道空间矩阵分别计算待识别音频与待匹配音频的相似度,确定相似度符合预设条件的待匹配音频对应的场景为待识别音频的场景,有效避免说话人信息在场景识别过程中的干扰。

Description

一种基于信道特征的场景识别方法及装置
技术领域
本发明涉及语音处理技术领域,特别涉及一种基于信道特征的场景识别方法、装置、计算机设备及存储介质。
背景技术
声音场景分类是对不同场景环境的声音特征进行处理,从而做出场景判断的技术。
当今现在,互联网以及计算机技术每天都在发生着翻天覆地的变化,智能终端作为人与互联网或计算机交互的入口,语音识别无疑是人机交互最为便捷的方式。而智能终端可能处在各式各样的场景中,环境中的噪声会对人声产生极大的干扰。提前将音频中的环境信息分类,而有针对性的进行前端信号处理,可以极大的提高后期识别的准确率。
在现有的场景分类方法中,通常先采集不同场景下的声音作为训练语料,训练场景分类模型,在识别阶段,将未知场景的声音输入模型,即可得到此声音的分类。但是此方法在测试阶段,如遇到混有人声的声音,就会影响识别的精度。
因此,亟需提出一种新的场景识别方法。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于信道特征的场景识别方法、装置、计算机设备以及存储介质,以克服现有技术中存在的待识别音频中混有人声会影响声音场景的分类等问题。
为解决上述一个或多个技术问题,本发明采用的技术方案是:
第一方面,提供了一种基于信道特征的场景识别方法,该方法包括如下步骤:
获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
在一些实施例中,所述根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度包括:
分别计算所述信道空间矩阵与待匹配音频的信道空间矩阵之间的欧式距离;
所述确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景包括:
确定与所述信道空间矩阵的欧氏距离最小的信道空间矩阵对应的待匹配音频的场景为所述待识别音频的场景。
在一些实施例中,所述方法还包括识别模型的训练过程,包括:
利用预先准备的训练数据对预设的识别模型进行训练,得到经训练的识别模型。
在一些实施例中,所述方法还包括所述待匹配音频的信道空间矩阵的获取方法,包括:
利用所述经训练的识别模型获取每条训练数据的超矢量;
根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算,获取每条训练数据的信道空间矩阵,确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵。
在一些实施例中,所述预先准备的训练数据包括不同用户分别在不同的信道下录制的训练音频数据。
在一些实施例中,所述识别模型包括通用背景模型。
在一些实施例中,所述预设方法包括联合因子分析方法。
第二方面,提供了一种基于信道特征的场景识别装置,所述装置包括:
分帧处理模块,用于获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
向量构建模块,用于提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
超矢量获取模块,用于将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
矩阵获取模块,用于根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
相似度计算模块,用于根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
场景确定模块,用于确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:
获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的基于信道特征的场景识别方法、装置、计算机设备及存储介质,通过获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧,提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量,将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量,根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵,根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度,确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景,通过分离音频特征以及信道特征信息,用已知信道空间和待匹配信道空间相似度进行场景分类,可以有效避免说话人信息在识别过程中的干扰。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的基于信道特征的场景识别方法的流程图;
图2是根据一示例性实施例示出的基于信道特征的场景识别装置的结构示意图;
图3是根据一示例性实施例示出的计算机设备的内部结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术所述,当待识别音频中混有人声的声音时,就会影响待识别音频的场景识别的精度。
为解决上述问题,本发明实施例中创造性的提出了一种基于信道特征的场景识别方法,该方法利用不同信道中相同说话人的音频,和相同信道中不同说话人的音频,通过迭代合并联合因子分析(JFA)方法中的信道空间矩阵和说话人空间矩阵,较为精确地描述信道空间信息,有效避免在待识别音频中混有人声对场景识别过程的干扰,提高场景识别的精确度。
实施例一
具体的,上述方案可通过如下步骤实现:
步骤一、分别在不同的场景下录制训练音频数据
具体的,分别在不同的信道下录制训练音频数据,该训练音频数据包括不同用户分别在不同的信道下录制的音频数据。例如,包括I个不同的信道场景,K个不同的用户在每个信道场景下录制的J条不同的音频数据。作为一种较优的示例,每条音频数据的长度约10s,录制的声音大小保持不变,并对音频数据进行编号,例如:
A11表示A用户在信道场景1中的第1个音频,
Kij代表用户K在信道场景i中的第j条音频等。
步骤二、用所有采集到的音频训练识别模型
具体的,用所有采集到的训练音频数据训练一个稳定的识别模型,如高阶高斯模型--UBM模型(通用背景模型),将其各个高斯分量的均值、方差分别串联,形成超矢量mubm和Σ的估计值,其表示分别如下:
其中k是混合高斯的维度,μ,σ分别是每个高斯分量的均值和方差。
步骤三、分别对每条训练音频数据,使用联合因子分析方法(JFA)建模并迭代信道空间和音频空间
具体的,分别对每条训练音频数据,使用JFA(联合因子分析)建模,如下:
Mij=mi+Vijyij+Uijxij+Dijzij
其中,Mij为训练音频数据的均值高斯超矢量,它是基于UBM模型,用最大后验概率MAP去自适应当前音频数据而产生的GMM模型,在把GMM模型的每个高斯分量的均值矢量串接起来。Vij是用来描述说话人空间的音频空间矩阵,yij是音频特征向量(也可称为本征音特征向量),Uij是用来描述信道空间的信道空间矩阵,xij信道特征向量(也可称为本征信道特征向量),Dij是残差对角阵,用来描述语音中的残差特征,如噪声等,zij是此空间中的特征向。本发明实施例中,在进行迭代计算过程中,忽略Dijzij,迭代求解Uij和Vij矩阵,以及对应xij和yij向量。
步骤四、合并获取到的信道空间的信道空间矩阵,并重新迭代求解音频空间矩阵,音频特征向量以及信道特征向量
具体的,合并求得的信道空间i的本征信道矩阵,例如,可以采用如下方式:
用Ui*替换步骤三Uij,利用步骤三的方法,重新迭代每条音频数据对应的说话人空间的音频空间矩阵Vij矩,音频特征向量yij以及信道特征向量xij
步骤五、合并获取到的说话人空间的本征音矩阵,并重新迭代求解每条音频数据的信道空间矩阵,音频特征向量以及信道特征向量
具体的,合并求得的说话人空间j的本征音矩阵,
用V*j替换步骤三中的Vij,利用步骤三的方法,重新迭代求解每条音频数据的对应的信道空间矩阵Uij,音频特征向量yij以及信道特征向量xij
步骤六、循环执行步骤四至步骤五,直至满足终止条件
具体的,循环执行步骤四至步骤五,直到满足终止条件。作为一种较优的实施方式,终止条件可以为以下中的任意一种或多种:
1、信道空间矩阵Uij和说话人空间的音频空间矩阵Vij中的值变化范围小于预设数值;
2、迭代次数大于预设次数;
3、训练音频数据全部完成计算等。
若满足终止条件则跳到步骤七,若不满足终止条件则回到步骤四。
步骤七、获取最终的场景信道空间矩阵和音频空间矩阵
具体的,作为一种较优的示例,迭代结束后,可以按以下计算方式得到每一训练音频数据最终的信道空间矩阵Ui*_final、音频空间矩阵V*j_final
步骤八、在识别阶段,获取待识别音频,对其建模,提取待识别音频中的信道空间矩阵
具体的,在识别阶段,获取待识别音频,记为Otest,对音频进行分帧处理,获取的音频帧记为[o1,o2,...,oT],提取每一音频帧的音频特征以及信道特征,并根据该音频特征以及信道特征分别构建每一音频帧的音频特征向量ytest以及信道特征向量xtest,并利用UBM模型,获取每一音频帧对应的超矢量,然后同步骤三所述的方法,对其建模,如下:
O=mubm+Vtestytest+Utestxtest
使用联合因子分析方法迭代得到待识别音频的信道空间矩阵Utest
步骤九、用步骤八中的信道空间矩阵与步骤七中信道空间矩阵求欧氏距离
具体的,将待识别音频的信道空间矩阵Utest分别与步骤七中的训练得到的每一训练音频数据的信道空间矩阵Ui*_final求欧氏距离。
步骤十、挑选与步骤九中欧氏距离最小的信道空间矩阵所属场景为待识别音频的场景
具体的,挑选出步骤九中待识别音频的信道空间矩阵Utest的欧氏距离最小的训练音频数据的信道空间矩阵Uij_final,将Uij_final所属场景类型确定为待识别音频所在的场景。
实施例二
图1是根据一示例性实施例示出的基于信道特征的场景识别方法的流程图,参照图1所示,该方法包括如下步骤:
S1:获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧。
具体的,为了便于后续提取待识别音频的特征数据,在获取到待识别音频数据后,需要先对待识别音频进行分帧处理。本发明实施例中,分帧处理的方法包括但不限于采用matlab等方式。
S2:提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量。
具体的,本发明实施例中,音频特征包括但不限于说话人的声纹等特征,信道特征包括但不限于商场信道特征、办公室信道特征等。
S3:将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量。
具体的,本发明实施例中,会利用预先准备的训练数据对预设的识别模型进行训练,得到经训练的识别模型,通过该识别模型可获取每一音频帧对应的超矢量。
S4:根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵。
S5:根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
S6:确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
作为一种较优的实施方式,本发明实施例中,所述根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度包括:
分别计算所述信道空间矩阵与待匹配音频的信道空间矩阵之间的欧式距离;
所述确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景包括:
确定与所述信道空间矩阵的欧氏距离最小的信道空间矩阵对应的待匹配音频的场景为所述待识别音频的场景。
具体的,本发明实实施例中,待识别音频与待匹配音频之间的相似度包括但不限于欧氏距离等,这里不一一列举。
作为一种较优的实施方式,本发明实施例中,所述方法还包括识别模型的训练过程,包括:
利用预先准备的训练数据对预设的识别模型进行训练,得到经训练的识别模型。
作为一种较优的实施方式,本发明实施例中,所述方法还包括所述待匹配音频的信道空间矩阵的获取方法,包括:
利用所述经训练的识别模型获取每条训练数据的超矢量;
根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算,获取每条训练数据的信道空间矩阵,确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵。
作为一种较优的实施方式,本发明实施例中,所述预先准备的训练数据包括不同用户分别在不同的信道下录制的训练音频数据。
具体的,将不同信道中相同说话人的音频和相同信道中不同说话人的音频数据作为识别模型的训练数据,通过迭代合并JFA方法中的信道空间矩阵和音频空间矩阵,能够较为精确地描述信道空间信息。这里通过分离信道空间和说话人空间信息,用已知信道空间和待识别信道空间相似度进行场景分类,可以有效避免说话人信息在识别过程中的干扰。
作为一种较优的实施方式,本发明实施例中,所述识别模型包括通用背景模型。
作为一种较优的实施方式,本发明实施例中,所述预设方法包括联合因子分析方法。
图2是根据一示例性实施例示出的基于信道特征的场景识别装置的结构示意图,该装置包括:
分帧处理模块,用于获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
向量构建模块,用于提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
超矢量获取模块,用于将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
矩阵获取模块,用于根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
相似度计算模块,用于根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
场景确定模块,用于确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
作为一种较优的实施方式,本发明实施例中,所述相似度计算模块具体用于:
分别计算所述信道空间矩阵与待匹配音频的信道空间矩阵之间的欧式距离;
所述场景确定模块具体用于:
确定与所述信道空间矩阵的欧氏距离最小的信道空间矩阵对应的待匹配音频的场景为所述待识别音频的场景。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
模型训练模块,用于利用预先准备的训练数据对预设的识别模型进行训练,得到经训练的识别模型。
作为一种较优的实施方式,本发明实施例中,所述矩阵获取模块还用于:
利用所述经训练的识别模型获取每条训练数据的超矢量;
根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算,获取每条训练数据的信道空间矩阵,确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵。
作为一种较优的实施方式,本发明实施例中,所述预先准备的训练数据包括不同用户分别在不同的信道下录制的训练音频数据。
作为一种较优的实施方式,本发明实施例中,所述识别模型包括通用背景模型。
作为一种较优的实施方式,本发明实施例中,所述预设方法包括联合因子分析方法。
图3是根据一示例性实施例示出的计算机设备的内部结构示意图,参照图3所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种执行计划的优化方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
作为一种较优的实施方式,本发明实施例中,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:
分别计算所述信道空间矩阵与待匹配音频的信道空间矩阵之间的欧式距离;
确定与所述信道空间矩阵的欧氏距离最小的信道空间矩阵对应的待匹配音频的场景为所述待识别音频的场景。
作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:
利用预先准备的训练数据对预设的识别模型进行训练,得到经训练的识别模型。
作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:
利用所述经训练的识别模型获取每条训练数据的超矢量;
根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算,获取每条训练数据的信道空间矩阵,确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵。
本发明实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:
获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:
分别计算所述信道空间矩阵与待匹配音频的信道空间矩阵之间的欧式距离;
确定与所述信道空间矩阵的欧氏距离最小的信道空间矩阵对应的待匹配音频的场景为所述待识别音频的场景。
作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:
利用预先准备的训练数据对预设的识别模型进行训练,得到经训练的识别模型。
作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:
利用所述经训练的识别模型获取每条训练数据的超矢量;
根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算,获取每条训练数据的信道空间矩阵,确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵。
综上所述,本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的基于信道特征的场景识别方法、装置、计算机设备及存储介质,通过获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧,提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量,将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量,根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵,根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度,确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景,通过分离音频特征以及信道特征信息,用已知信道空间和待匹配信道空间相似度进行场景分类,可以有效避免说话人信息在识别过程中的干扰。
需要说明的是:上述实施例提供的基于信道特征的场景识别装置在触发场景识别业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于信道特征的场景识别装置与基于信道特征的场景识别方法实施例属于同一构思,即该装置是基于该基于信道特征的场景识别方法的,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于信道特征的场景识别方法,其特征在于,所述方法包括如下步骤:
获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
其中,待匹配音频的信道空间矩阵获取包括:利用所述经训练的识别模型获取每条训练数据的超矢量;根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算,获取每条训练数据的信道空间矩阵,确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵;
其中,所述预先训练的识别模型和所述经训练的识别模型均包括通用背景模型,所述预设方法包括联合因子分析方法;
确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
2.根据权利要求1所述的基于信道特征的场景识别方法,其特征在于,所述根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度包括:
分别计算所述信道空间矩阵与待匹配音频的信道空间矩阵之间的欧式距离;
所述确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景包括:
确定与所述信道空间矩阵的欧氏距离最小的信道空间矩阵对应的待匹配音频的场景为所述待识别音频的场景。
3.根据权利要求1或2所述的基于信道特征的场景识别方法,其特征在于,所述方法还包括识别模型的训练过程,包括:
利用预先准备的训练数据对预设的识别模型进行训练,得到经训练的识别模型。
4.根据权利要求3所述的基于信道特征的场景识别方法,其特征在于,所述预先准备的训练数据包括不同用户分别在不同的信道下录制的训练音频数据。
5.一种基于信道特征的场景识别装置,其特征在于,所述装置包括:
分帧处理模块,用于获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
向量构建模块,用于提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
超矢量获取模块,用于将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
矩阵获取模块,用于根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
相似度计算模块,用于根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;其中,待匹配音频的信道空间矩阵获取包括:利用所述经训练的识别模型获取每条训练数据的超矢量;根据每条训练数据的所述超矢量、音频特征向量以及信道特征向量使用所述预设方法进行迭代计算,获取每条训练数据的信道空间矩阵,确定每条训练数据的信道空间矩阵为待匹配音频的信道空间矩阵;其中,所述预先训练的识别模型和所述经训练的识别模型均包括通用背景模型,所述预设方法包括联合因子分析方法;
场景确定模块,用于确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202011275286.6A 2020-11-13 2020-11-13 一种基于信道特征的场景识别方法及装置 Active CN112489678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011275286.6A CN112489678B (zh) 2020-11-13 2020-11-13 一种基于信道特征的场景识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011275286.6A CN112489678B (zh) 2020-11-13 2020-11-13 一种基于信道特征的场景识别方法及装置

Publications (2)

Publication Number Publication Date
CN112489678A CN112489678A (zh) 2021-03-12
CN112489678B true CN112489678B (zh) 2023-12-05

Family

ID=74930629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011275286.6A Active CN112489678B (zh) 2020-11-13 2020-11-13 一种基于信道特征的场景识别方法及装置

Country Status (1)

Country Link
CN (1) CN112489678B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992153B (zh) * 2021-04-27 2021-08-17 太平金融科技服务(上海)有限公司 音频处理方法、声纹识别方法、装置、计算机设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN106941007A (zh) * 2017-05-12 2017-07-11 北京理工大学 一种音频事件模型合成信道自适应方法
CN107123432A (zh) * 2017-05-12 2017-09-01 北京理工大学 一种自匹配Top‑N音频事件识别信道自适应方法
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
CN107481723A (zh) * 2017-08-28 2017-12-15 清华大学 一种用于声纹识别的信道匹配方法及其装置
CN108615532A (zh) * 2018-05-03 2018-10-02 张晓雷 一种应用于声场景的分类方法及装置
WO2019100607A1 (zh) * 2017-11-21 2019-05-31 平安科技(深圳)有限公司 基于语音识别的交易方法、服务器及计算机可读存储介质
CN110176250A (zh) * 2019-05-30 2019-08-27 哈尔滨工业大学 一种基于局部学习的鲁棒声学场景识别方法
CN110265039A (zh) * 2019-06-03 2019-09-20 南京邮电大学 一种基于字典学习和低秩矩阵分解的说话人识别方法
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
CN106941007A (zh) * 2017-05-12 2017-07-11 北京理工大学 一种音频事件模型合成信道自适应方法
CN107123432A (zh) * 2017-05-12 2017-09-01 北京理工大学 一种自匹配Top‑N音频事件识别信道自适应方法
CN107481723A (zh) * 2017-08-28 2017-12-15 清华大学 一种用于声纹识别的信道匹配方法及其装置
WO2019100607A1 (zh) * 2017-11-21 2019-05-31 平安科技(深圳)有限公司 基于语音识别的交易方法、服务器及计算机可读存储介质
CN108615532A (zh) * 2018-05-03 2018-10-02 张晓雷 一种应用于声场景的分类方法及装置
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN110176250A (zh) * 2019-05-30 2019-08-27 哈尔滨工业大学 一种基于局部学习的鲁棒声学场景识别方法
CN110265039A (zh) * 2019-06-03 2019-09-20 南京邮电大学 一种基于字典学习和低秩矩阵分解的说话人识别方法

Also Published As

Publication number Publication date
CN112489678A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN107564513B (zh) 语音识别方法及装置
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
JP2018194828A (ja) マルチビューベクトルの処理方法及び装置
CN115116448B (zh) 语音提取方法、神经网络模型训练方法、装置及存储介质
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
CN111666996A (zh) 一种基于attention机制的高精度设备源识别方法
CN112489678B (zh) 一种基于信道特征的场景识别方法及装置
CN110867178B (zh) 一种多通道远场语音识别方法
CN112037813B (zh) 一种针对大功率目标信号的语音提取方法
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN113035176B (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN114218428A (zh) 音频数据聚类方法、装置、设备及存储介质
CN114937454A (zh) 一种声纹识别防语音合成攻击的方法、装置及存储介质
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
CN111508525B (zh) 一种全参考音频质量评价方法及装置
CN106373576A (zh) 一种基于vq和svm算法的说话人确认方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210510

Address after: 518002 unit 3510-130, Luohu business center, 2028 Shennan East Road, Chengdong community, Dongmen street, Luohu District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen yunwangwandian Technology Co.,Ltd.

Address before: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Applicant before: Suning Cloud Computing Co.,Ltd.

TA01 Transfer of patent application right
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045792

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant