CN113782033B - 一种声纹识别方法、装置、设备及存储介质 - Google Patents

一种声纹识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113782033B
CN113782033B CN202111129869.2A CN202111129869A CN113782033B CN 113782033 B CN113782033 B CN 113782033B CN 202111129869 A CN202111129869 A CN 202111129869A CN 113782033 B CN113782033 B CN 113782033B
Authority
CN
China
Prior art keywords
vector
voice
preset
time difference
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111129869.2A
Other languages
English (en)
Other versions
CN113782033A (zh
Inventor
吴丽贤
布力
宋才华
林钰杰
关兆雄
杨峰
杜家兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Foshan Power Supply Bureau of Guangdong Power Grid Corp
Original Assignee
Guangdong Power Grid Co Ltd
Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Foshan Power Supply Bureau of Guangdong Power Grid Corp filed Critical Guangdong Power Grid Co Ltd
Priority to CN202111129869.2A priority Critical patent/CN113782033B/zh
Publication of CN113782033A publication Critical patent/CN113782033A/zh
Application granted granted Critical
Publication of CN113782033B publication Critical patent/CN113782033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种声纹识别方法、装置、设备及存储介质,方法包括:将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,预置神经网络模型包括预置统计池化层和预置时间差分层;通过预置统计池化层计算语音特征向量的均值向量和标准差向量;通过预置时间差分层计算语音特征向量的时间差分向量;将均值向量、标准差向量和时间差分向量拼接为输出特征向量;将输出特征向量输入预置神经网络模型的输出层,得到声纹识别结果。本申请能解决现有的声纹识别神经网络仅能提取语音抽象特征信息,忽略了语音的时序特征,导致识别结果缺乏可靠性的技术问题。

Description

一种声纹识别方法、装置、设备及存储介质
技术领域
本申请涉及声纹识别技术领域,尤其涉及一种声纹识别方法、装置、设备及存储介质。
背景技术
近年来,越来越多的人工智能识别算法采用基于深度神经网络的方法,声纹识别也不例外。2016年以来,以x-vector[1,2]为代表的基于神经网络的方法逐渐取代传统的i-vector的方法,在众多的应用场景中获得最高的声纹识别准确率。采用x-vector的声纹识别方案首先通过神经网络将一个可变长度的语音输入,转换成一个固定长度的向量(称为x-vector),然后再比较不同向量(代表不同的输入语音)之间的距离,以确定两段输入的语音是否来自同一个人。
但是目前的神经网络中的池化层仅能关注到语音帧的抽象特征信息,忽略了语音的时序性,使得实际的声纹识别过程丢失语音帧的时间特性,导致识别结果缺乏可靠性。
发明内容
本申请提供了一种声纹识别方法、装置、设备及存储介质,用于解决现有的声纹识别神经网络仅能提取语音抽象特征信息,忽略了语音的时序特征,导致识别结果缺乏可靠性的技术问题。
有鉴于此,本申请第一方面提供了一种声纹识别方法,包括:
将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,所述预置神经网络模型包括预置统计池化层和预置时间差分层;
通过所述预置统计池化层计算所述语音特征向量的均值向量和标准差向量;
通过所述预置时间差分层计算所述语音特征向量的时间差分向量;
将所述均值向量、所述标准差向量和所述时间差分向量拼接为输出特征向量;
将所述输出特征向量输入所述预置神经网络模型的输出层,得到声纹识别结果。
优选地,所述将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,之前还包括:
通过大量历史语音帧对初始神经网络模型进行预训练,并将测试准确率高于阈值的所述初始神经网络模型作为预置神经网络模型。
优选地,所述将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,之前还包括:
采用语音采集器获取目标语音信息;
对所述目标语音信息进行多种预处理操作,得到预置语音帧,所述预处理操作包括去噪、语音帧选取和增强处理。
优选地,所述通过所述预置时间差分层计算所述语音特征向量的时间差分向量,包括:
基于s阶差分统计量,通过预置时间差分方程计算所述语音特征向量的时间差分向量。所述预置时间差分方程为:
其中,T为语音帧的总帧数,xt、xt+s分别为t阶和t+s阶的语音特征向量,δs为所述时间差分向量。
本申请第二方面提供了一种声纹识别装置,包括:
特征提取模块,用于将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,所述预置神经网络模型包括预置统计池化层和预置时间差分层;
第一计算模块,用于通过所述预置统计池化层计算所述语音特征向量的均值向量和标准差向量;
第二计算模块,用于通过所述预置时间差分层计算所述语音特征向量的时间差分向量;
特征拼接模块,用于将所述均值向量、所述标准差向量和所述时间差分向量拼接为输出特征向量;
声纹识别模块,用于将所述输出特征向量输入所述预置神经网络模型的输出层,得到声纹识别结果。
优选地,还包括:
模型训练模块,用于通过大量历史语音帧对初始神经网络模型进行预训练,并将测试准确率高于阈值的所述初始神经网络模型作为预置神经网络模型。
优选地,还包括:
语音采集模块,用于采用语音采集器获取目标语音信息;
预处理模块,用于对所述目标语音信息进行多种预处理操作,得到预置语音帧,所述预处理操作包括去噪、语音帧选取和增强处理。
优选地,所述第二计算模块,具体用于:
基于s阶差分统计量,通过预置时间差分方程计算所述语音特征向量的时间差分向量,所述预置时间差分方程为:
其中,T为语音帧的总帧数,xt、xt+s分别为t阶和t+s阶的语音特征向量,δs为所述时间差分向量。
本申请第三方面提供了一种声纹识别设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的声纹识别方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的声纹识别方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种声纹识别方法,包括:将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,预置神经网络模型包括预置统计池化层和预置时间差分层;通过预置统计池化层计算语音特征向量的均值向量和标准差向量;通过预置时间差分层计算语音特征向量的时间差分向量;将均值向量、标准差向量和时间差分向量拼接为输出特征向量;将输出特征向量输入预置神经网络模型的输出层,得到声纹识别结果。
本申请提供的声纹识别方法,不仅通过池化层提取了语音特征向量的均值和标准差特征,还设置了时间差分层提取语音特征向量的时间特征信息,使得拼接得到的输出特征向量既有抽象特征描述,也有时序特征表达,更加符合语音信息的特性,从而使得识别结果更加可靠。因此,本申请能够解决现有的声纹识别神经网络仅能提取语音抽象特征信息,忽略了语音的时序特征,导致识别结果缺乏可靠性的技术问题。
附图说明
图1为本申请实施例提供的一种声纹识别方法的流程示意图;
图2为本申请实施例提供的一种声纹识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种声纹识别方法的实施例,包括:
步骤101、将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,预置神经网络模型包括预置统计池化层和预置时间差分层。
预置语音帧是目标识别的语音信息,根据网络模型的输入需求进行处理后得到的。预置神经网络模型是针对语音识别或者声纹识别训练好的模型,可以直接用于语音的识别任务中,可以理解的是,本实施例中的声纹识别即为对语音的识别过程。具体神经网络类型可以根据实际情况选择,只要其中包括统计池化层,可以进行网络改进即可,在此不作赘述。
可以理解的是,此处的输入层除了传统意义上的单层输入层之外,还包括在池化层之前的一些卷积层,用于提取输入的语音帧的特征向量,整体的看作输入层处理。预置统计池化层和预置时间差分层均位于输入层之后,处理的是语音特征向量。
进一步地,步骤101,之前还包括:
通过大量历史语音帧对初始神经网络模型进行预训练,并将测试准确率高于阈值的初始神经网络模型作为预置神经网络模型。
模型的预训练需要采用大量的历史语音帧,这些历史语音帧的质量可以是参差不齐的,类别可以根据实际的识别任务而定;预训练的任务就是获取到具备一定准确率的声纹识别模型。可以理解的是,测试过程采用的是测试集,与预训练的训练集并没有数据交叉,准确率的阈值也可以根据情况设置,在此不作限定。
进一步地,步骤101,之前还包括:
采用语音采集器获取目标语音信息;
对目标语音信息进行多种预处理操作,得到预置语音帧,预处理操作包括去噪、语音帧选取和增强处理。
目标语音信息可能是长短不一的一些语音记录,需要根据模型输入需求进行基本处理,例如去噪;而语音帧选取则是语音片段式的选取过程,可以选择特征比较突出的语音段,或者特定的语音段;增强处理是为了突出语音信息中的有效信息,便于声纹识别。
步骤102、通过预置统计池化层计算语音特征向量的均值向量和标准差向量。
预置统计池化层输出的实质是一个向量,是在计算均值向量和标准差向量后进行向量拼接得到的一个总向量。假设在t时刻输入预置统计池化层中的是d维语音特征向量xt,预置语音帧共T帧,那么可以计算均值:
d维的标准差可以计算为:
不论是均值还是标准差,都是d维向量;拼接后得到的池化层输出向量为2d维。
步骤103、通过预置时间差分层计算语音特征向量的时间差分向量。
进一步地,步骤103,包括:
基于s阶差分统计量,通过预置时间差分方程计算语音特征向量的时间差分向量。预置时间差分方程为:
其中,T为语音帧的总帧数,xt、xt+s分别为t阶和t+s阶的语音特征向量,δs为时间差分向量。
按照预置时间差分方程可以计算一个或者多个s阶差分统计向量,也即时间差分向量。增加时间差分信息,确保语音信息中的时序特征被保留下来,在一定程度上能够提升声纹识别的准确率。
步骤104、将均值向量、标准差向量和时间差分向量拼接为输出特征向量。
输出特征向量是预置语音帧最完整的特征描述向量,如果仅仅是均值和方差的特征向量,那么不论预置语音帧是顺序输入网络,还是逆序输入网络,得到的特征表达向量是一样的,不会存在时序上的差别。但是,语音信息与时间密切相关,在时间上一种动态信息,忽略时间特性也会使得语音信息同时丢失一些关键特征信息。加入时间差分向量后,可以保持预置语音帧的时序特性,确保语音信息中的动态特性得以保留,从而提升声纹识别的准确性。
步骤105、将输出特征向量输入预置神经网络模型的输出层,得到声纹识别结果。
输出层可以将不同的语音帧对应的输出层特征向量进行距离计算,进而将计算的结果与预设值进行比较,以确认两种语音帧是否来自同一个人。这里的距离可以是欧拉距离、余弦距离、PLDA距离等,具体不作限定。
本申请实施例提供的声纹识别方法,不仅通过池化层提取了语音特征向量的均值和标准差特征,还设置了时间差分层提取语音特征向量的时间特征信息,使得拼接得到的输出特征向量既有抽象特征描述,也有时序特征表达,更加符合语音信息的特性,从而使得识别结果更加可靠。因此,本申请实施例能够解决现有的声纹识别神经网络仅能提取语音抽象特征信息,忽略了语音的时序特征,导致识别结果缺乏可靠性的技术问题。
为了便于理解,请参阅图2,本申请提供了一种声纹识别装置的实施例,包括:
特征提取模块201,用于将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,预置神经网络模型包括预置统计池化层和预置时间差分层;
第一计算模块202,用于通过预置统计池化层计算语音特征向量的均值向量和标准差向量;
第二计算模块203,用于通过预置时间差分层计算语音特征向量的时间差分向量;
特征拼接模块204,用于将均值向量、标准差向量和时间差分向量拼接为输出特征向量;
声纹识别模块205,用于将输出特征向量输入预置神经网络模型的输出层,得到声纹识别结果。
进一步地,还包括:
模型训练模块206,用于通过大量历史语音帧对初始神经网络模型进行预训练,并将测试准确率高于阈值的初始神经网络模型作为预置神经网络模型。
近一步地,还包括:
语音采集模块207,用于采用语音采集器获取目标语音信息;
预处理模块208,用于对目标语音信息进行多种预处理操作,得到预置语音帧,预处理操作包括去噪、语音帧选取和增强处理。
进一步地,第二计算模块203,具体用于:
基于s阶差分统计量,通过预置时间差分方程计算语音特征向量的时间差分向量。预置时间差分方程为:
其中,T为语音帧的总帧数,xt、xt+s分别为t阶和t+s阶的语音特征向量,δs为时间差分向量。
本申请还提供了一种声纹识别设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行上述方法实施例中的声纹识别方法。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行上述方法实施例中的声纹识别方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:RandomAccess Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种声纹识别方法,其特征在于,包括:
将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,所述预置神经网络模型包括预置统计池化层和预置时间差分层;
通过所述预置统计池化层计算所述语音特征向量的均值向量和标准差向量;
通过所述预置时间差分层计算所述语音特征向量的时间差分向量,计算过程为:
基于s阶差分统计量,通过预置时间差分方程计算所述语音特征向量的时间差分向量,所述预置时间差分方程为:
其中,T为语音帧的总帧数,xt、xt+s分别为t阶和t+s阶的语音特征向量,δs为所述时间差分向量;
将所述均值向量、所述标准差向量和所述时间差分向量拼接为输出特征向量;
将所述输出特征向量输入所述预置神经网络模型的输出层,得到声纹识别结果。
2.根据权利要求1所述的声纹识别方法,其特征在于,所述将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,之前还包括:
通过大量历史语音帧对初始神经网络模型进行预训练,并将测试准确率高于阈值的所述初始神经网络模型作为预置神经网络模型。
3.根据权利要求1所述的声纹识别方法,其特征在于,所述将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,之前还包括:
采用语音采集器获取目标语音信息;
对所述目标语音信息进行多种预处理操作,得到预置语音帧,所述预处理操作包括去噪、语音帧选取和增强处理。
4.一种声纹识别装置,其特征在于,包括:
特征提取模块,用于将预置语音帧输入预置神经网络模型的输入层,得到语音特征向量,所述预置神经网络模型包括预置统计池化层和预置时间差分层;
第一计算模块,用于通过所述预置统计池化层计算所述语音特征向量的均值向量和标准差向量;
第二计算模块,用于通过所述预置时间差分层计算所述语音特征向量的时间差分向量,所述第二计算模块,具体用于:
基于s阶差分统计量,通过预置时间差分方程计算所述语音特征向量的时间差分向量,所述预置时间差分方程为:
其中,T为语音帧的总帧数,xt、xt+s分别为t阶和t+s阶的语音特征向量,δs为所述时间差分向量;
特征拼接模块,用于将所述均值向量、所述标准差向量和所述时间差分向量拼接为输出特征向量;
声纹识别模块,用于将所述输出特征向量输入所述预置神经网络模型的输出层,得到声纹识别结果。
5.根据权利要求4所述的声纹识别装置,其特征在于,还包括:
模型训练模块,用于通过大量历史语音帧对初始神经网络模型进行预训练,并将测试准确率高于阈值的所述初始神经网络模型作为预置神经网络模型。
6.根据权利要求4所述的声纹识别装置,其特征在于,还包括:
语音采集模块,用于采用语音采集器获取目标语音信息;
预处理模块,用于对所述目标语音信息进行多种预处理操作,得到预置语音帧,所述预处理操作包括去噪、语音帧选取和增强处理。
7.一种声纹识别设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的声纹识别方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-3任一项所述的声纹识别方法。
CN202111129869.2A 2021-09-26 2021-09-26 一种声纹识别方法、装置、设备及存储介质 Active CN113782033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111129869.2A CN113782033B (zh) 2021-09-26 2021-09-26 一种声纹识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111129869.2A CN113782033B (zh) 2021-09-26 2021-09-26 一种声纹识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113782033A CN113782033A (zh) 2021-12-10
CN113782033B true CN113782033B (zh) 2023-11-24

Family

ID=78853550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111129869.2A Active CN113782033B (zh) 2021-09-26 2021-09-26 一种声纹识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113782033B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307596A (ja) * 1997-05-08 1998-11-17 Matsushita Electric Ind Co Ltd 音声認識装置
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN110570871A (zh) * 2019-09-20 2019-12-13 平安科技(深圳)有限公司 一种基于TristouNet的声纹识别方法、装置及设备
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111524526A (zh) * 2020-05-14 2020-08-11 中国工商银行股份有限公司 声纹识别方法及装置
CN112750441A (zh) * 2021-04-02 2021-05-04 北京远鉴信息技术有限公司 一种声纹的识别方法、装置、电子设备及存储介质
CN113129898A (zh) * 2021-04-08 2021-07-16 上海交通大学 一种机器辅助的会议记录系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307596A (ja) * 1997-05-08 1998-11-17 Matsushita Electric Ind Co Ltd 音声認識装置
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN110570871A (zh) * 2019-09-20 2019-12-13 平安科技(深圳)有限公司 一种基于TristouNet的声纹识别方法、装置及设备
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111524526A (zh) * 2020-05-14 2020-08-11 中国工商银行股份有限公司 声纹识别方法及装置
CN112750441A (zh) * 2021-04-02 2021-05-04 北京远鉴信息技术有限公司 一种声纹的识别方法、装置、电子设备及存储介质
CN113129898A (zh) * 2021-04-08 2021-07-16 上海交通大学 一种机器辅助的会议记录系统及方法

Also Published As

Publication number Publication date
CN113782033A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN107564513B (zh) 语音识别方法及装置
US20180158449A1 (en) Method and device for waking up via speech based on artificial intelligence
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
CN111161314B (zh) 目标对象的位置区域确定方法、装置、电子设备及存储介质
CN111144566B (zh) 神经网络权重参数的训练方法、特征分类方法及对应装置
EP4239585A1 (en) Video loop recognition method and apparatus, computer device, and storage medium
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN112163637B (zh) 基于非平衡数据的图像分类模型训练方法、装置
CN107545898B (zh) 一种区分说话人语音的处理方法及装置
CN110706710A (zh) 一种语音识别方法、装置、电子设备及存储介质
CN113361567B (zh) 图像处理方法、装置、电子设备和存储介质
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN111028847B (zh) 一种基于后端模型的声纹识别优化方法和相关装置
CN113782033B (zh) 一种声纹识别方法、装置、设备及存储介质
CN112101091A (zh) 视频分类方法、电子设备和存储介质
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
CN112071331B (zh) 语音文件修复方法、装置、计算机设备及存储介质
CN112669836B (zh) 命令的识别方法、装置及计算机可读存储介质
CN115240647A (zh) 声音事件检测方法、装置、电子设备及存储介质
CN113554685A (zh) 遥感卫星运动目标检测方法、装置、电子设备及存储介质
CN114333840A (zh) 语音鉴别方法及相关装置、电子设备和存储介质
CN115438158A (zh) 智能对话方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant