CN111326163B - 一种声纹识别方法和装置以及设备 - Google Patents
一种声纹识别方法和装置以及设备 Download PDFInfo
- Publication number
- CN111326163B CN111326163B CN202010293887.3A CN202010293887A CN111326163B CN 111326163 B CN111326163 B CN 111326163B CN 202010293887 A CN202010293887 A CN 202010293887A CN 111326163 B CN111326163 B CN 111326163B
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- feature
- personal
- features
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种声纹识别方法和装置以及设备。其中,所述方法包括:采集至少一个用户的语音数据和个人特征,和对该采集的每个用户的语音数据进行声纹特征提取,和根据该个人特征和该声纹特征,构建关联该个人特征的至少一个共性特征的声纹特征数据库,和对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记,以及根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户。通过上述方式,能够实现缩短待测声纹特征与声纹特征数据库中的声纹特征进行相似度比较过程的耗时,进而能够实现提高声纹识别效率。
Description
技术领域
本发明涉及声纹技术领域,尤其涉及一种声纹识别方法和装置以及设备。
背景技术
声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。成年以后,人的声音可保持长期相对稳定不变。实验证明,每个人的声纹各不相同,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不同。
声纹识别,是生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认。
现有的声纹识别方案,一般是采集至少一个用户的语音数据,并对每个用户的语音数据进行声纹特征提取,并根据该提取的声纹特征构建声纹特征数据库,之后,获取任意一个用户的语音数据作为待测语音,对该待测语音进行声纹特征提取,将该提取的声纹特征与该声纹特征数据库中的所有声纹特征进行相似度比较,比较出相似度最高的声纹特征所对应的用户,为该待测语音数据所对应的用户。但是,该现有的声纹识别方案,在声纹识别过程中,由于需要将提取的声纹特征与声纹特征数据库中的所有声纹特征进行相似度比较,该相似度比较过程耗时较长,导致声纹识别效率一般。
发明内容
有鉴于此,本发明的目的在于提出一种声纹识别方法和装置以及设备,能够实现提高声纹识别效率。
根据本发明的一个方面,提供一种声纹识别方法,包括:采集至少一个用户的语音数据和个人特征;其中,所述个人特征包括性别和/或年龄和/或民族和/或籍贯;对所述采集的每个用户的语音数据进行声纹特征提取;根据所述个人特征和所述声纹特征,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库;对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记;根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户。
其中,所述根据所述个人特征和所述声纹特征,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库,包括:根据所述个人特征和所述声纹特征,筛选出关联所述个人特征的共性特征的声纹特征数据的集合,根据所述筛选出的声纹特征数据的集合,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库。
其中,所述对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记,包括:采用三维数组形式,对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记;其中,所述三维数组中的其中一个数组用于表示共性特征,其中另一个数组用于表示所述个人特征,其中第三个数组用于表示所述声纹特征。
其中,所述根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户,包括:根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的最多共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户。
其中,在所述根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户之后,还包括:对所述构建的关联所述个人特征的至少一个共性特征的声纹特征数据库进行压缩。
根据本发明的另一个方面,提供一种声纹识别装置,包括:采集模块、提取模块、构建模块、标记模块和识别模块;所述采集模块,用于采集至少一个用户的语音数据和个人特征;其中,所述个人特征包括性别和/或年龄和/或民族和/或籍贯;所述提取模块,用于对所述采集的每个用户的语音数据进行声纹特征提取;所述构建模块,用于根据所述个人特征和所述声纹特征,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库;所述标记模块,用于对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记;所述识别模块,用于根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户。
其中,所述构建模块,具体用于:根据所述个人特征和所述声纹特征,筛选出关联所述个人特征的共性特征的声纹特征数据的集合,根据所述筛选出的声纹特征数据的集合,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库。
其中,所述标记模块,具体用于:采用三维数组形式,对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记;其中,所述三维数组中的其中一个数组用于表示共性特征,其中另一个数组用于表示所述个人特征,其中第三个数组用于表示所述声纹特征。
其中,所述识别模块,具体用于:根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的最多共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户。
其中,所述声纹识别装置,还包括:压缩模块;所述压缩模块,用于对所述构建的关联所述个人特征的至少一个共性特征的声纹特征数据库进行压缩。
根据本发明的又一个方面,提供一种声纹识别设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的声纹识别方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的声纹识别方法。
可以发现,以上方案,可以采集至少一个用户的语音数据和个人特征,其中,该个人特征包括性别和/或年龄和/或民族和/或籍贯等,和可以对该采集的每个用户的语音数据进行声纹特征提取,和可以根据该个人特征和该声纹特征,构建关联该个人特征的至少一个共性特征的声纹特征数据库,其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库,和可以对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记,以及可以根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户,其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户,能够实现缩短待测声纹特征与声纹特征数据库中的声纹特征进行相似度比较过程的耗时,进而能够实现提高声纹识别效率。
进一步的,以上方案,可以根据该个人特征和该声纹特征,筛选出关联该个人特征的共性特征的声纹特征数据的集合,根据该筛选出的声纹特征数据的集合,构建关联该个人特征的至少一个共性特征的声纹特征数据库,其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库,这样的好处是能够实现通过构建关联该个人特征的至少一个共性特征的声纹特征数据库,能够缩短需识别的声纹特征与声纹特征数据库中的声纹特征进行相似度比较过程的耗时,进而能够提高声纹识别效率。
进一步的,以上方案,可以采用三维数组形式,对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记,其中,该三维数组中的其中一个数组用于表示共性特征,其中另一个数组用于表示该个人特征,其中第三个数组用于表示该声纹特征,该三维数组不会出现重复,具有唯一性,能够方便的对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行管理。
进一步的,以上方案,可以根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的最多共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户;其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户,这样的好处是由于通过关联该用户的个人特征的最多共性特征且经标记后的声纹特征数据库来进行声纹特征的相似度比较,能够将待测声纹特征与对应的声纹特征数据库中的声纹特征进行相似度比较过程的耗时缩小到最短,进而能够进一步提高声纹识别效率。
进一步的,以上方案,可以对该构建的关联该个人特征的至少一个共性特征的声纹特征数据库进行压缩,这样的好处是能够节省该构建的声纹特征数据库的存储资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明声纹识别方法一实施例的流程示意图;
图2是本发明声纹识别方法另一实施例的流程示意图;
图3是本发明声纹识别装置一实施例的结构示意图;
图4是本发明声纹识别装置另一实施例的结构示意图;
图5是本发明声纹识别设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种声纹识别方法,能够实现提高声纹识别效率。
请参见图1,图1是本发明声纹识别方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:采集至少一个用户的语音数据和个人特征;其中,该个人特征包括性别和/或年龄和/或民族和/或籍贯等。
在本实施例中,可以一次性采集多个用户的语音数据,也可以分多次采集多个用户的语音数据,还可以逐一逐个用户的采集用户的语音数据等,本发明不加以限定。
在本实施例中,可以是采集同一用户的多个语音数据,也可以是采集同一用户的单个语音数据,还可以是采集多个用户的多个语音数据等,本发明不加以限定。
S102:对该采集的每个用户的语音数据进行声纹特征提取。
在本实施例中,可以一次性对该采集的每个用户的语音数据进行声纹特征提取,也可以分多次对该采集的每个用户的语音数据进行声纹特征提取,还可以逐一逐个用户的对该采集的每个用户的语音数据进行声纹特征提取等,本发明不加以限定。
S103:根据该个人特征和该声纹特征,构建关联该个人特征的至少一个共性特征的声纹特征数据库;其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库。
其中,该根据该个人特征和该声纹特征,构建关联该个人特征的至少一个共性特征的声纹特征数据库;其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库,可以包括:
根据该个人特征和该声纹特征,筛选出关联该个人特征的共性特征的声纹特征数据的集合,根据该筛选出的声纹特征数据的集合,构建关联该个人特征的至少一个共性特征的声纹特征数据库;其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库,这样的好处是能够实现通过构建关联该个人特征的至少一个共性特征的声纹特征数据库,能够缩短需识别的声纹特征与声纹特征数据库中的声纹特征进行相似度比较过程的耗时,进而能够提高声纹识别效率。
S104:对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记。
其中,该对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记,可以包括:
采用三维数组形式,对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记;其中,该三维数组中的其中一个数组用于表示共性特征,其中另一个数组用于表示该个人特征,其中第三个数组用于表示该声纹特征,该三维数组不会出现重复,具有唯一性,能够方便的对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行管理。
S105:根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户;其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户。
其中,该根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户;其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户,可以包括:
根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的最多共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户;其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户,这样的好处是由于通过关联该用户的个人特征的最多共性特征且经标记后的声纹特征数据库来进行声纹特征的相似度比较,能够将待测声纹特征与对应的声纹特征数据库中的声纹特征进行相似度比较过程的耗时缩小到最短,进而能够进一步提高声纹识别效率。
其中,在该根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户之后,还可以包括:
对该构建的关联该个人特征的至少一个共性特征的声纹特征数据库进行压缩,这样的好处是能够节省该构建的声纹特征数据库的存储资源。
可以发现,在本实施例中,可以采集至少一个用户的语音数据和个人特征,其中,该个人特征包括性别和/或年龄和/或民族和/或籍贯等,和可以对该采集的每个用户的语音数据进行声纹特征提取,和可以根据该个人特征和该声纹特征,构建关联该个人特征的至少一个共性特征的声纹特征数据库,其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库,和可以对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记,以及可以根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户,其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户,能够实现缩短待测声纹特征与声纹特征数据库中的声纹特征进行相似度比较过程的耗时,进而能够实现提高声纹识别效率。
进一步的,在本实施例中,可以根据该个人特征和该声纹特征,筛选出关联该个人特征的共性特征的声纹特征数据的集合,根据该筛选出的声纹特征数据的集合,构建关联该个人特征的至少一个共性特征的声纹特征数据库,其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库,这样的好处是能够实现通过构建关联该个人特征的至少一个共性特征的声纹特征数据库,能够缩短需识别的声纹特征与声纹特征数据库中的声纹特征进行相似度比较过程的耗时,进而能够提高声纹识别效率。
进一步的,在本实施例中,可以采用三维数组形式,对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记,其中,该三维数组中的其中一个数组用于表示共性特征,其中另一个数组用于表示该个人特征,其中第三个数组用于表示该声纹特征,该三维数组不会出现重复,具有唯一性,能够方便的对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行管理。
进一步的,在本实施例中,可以根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的最多共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户;其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户,这样的好处是由于通过关联该用户的个人特征的最多共性特征且经标记后的声纹特征数据库来进行声纹特征的相似度比较,能够将待测声纹特征与对应的声纹特征数据库中的声纹特征进行相似度比较过程的耗时缩小到最短,进而能够进一步提高声纹识别效率。
请参见图2,图2是本发明声纹识别方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:采集至少一个用户的语音数据和个人特征;其中,该个人特征包括性别和/或年龄和/或民族和/或籍贯等。
可如上S101所述,在此不作赘述。
S202:对该采集的每个用户的语音数据进行声纹特征提取。
可如上S102所述,在此不作赘述。
S203:根据该个人特征和该声纹特征,构建关联该个人特征的至少一个共性特征的声纹特征数据库;其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库。
可如上S103所述,在此不作赘述。
S204:对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记。
可如上S104所述,在此不作赘述。
S205:根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户;其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户。
可如上S105所述,在此不作赘述。
S206:对该构建的关联该个人特征的至少一个共性特征的声纹特征数据库进行压缩。
可以发现,在本实施例中,可以对该构建的关联该个人特征的至少一个共性特征的声纹特征数据库进行压缩,这样的好处是能够节省该构建的声纹特征数据库的存储资源。
本发明还提供一种声纹识别装置,能够实现提高声纹识别效率。
请参见图3,图3是本发明声纹识别装置一实施例的结构示意图。本实施例中,该声纹识别装置30包括采集模块31、提取模块32、构建模块33、标记模块34和识别模块35。
该采集模块31,用于采集至少一个用户的语音数据和个人特征;其中,该个人特征包括性别和/或年龄和/或民族和/或籍贯等。
该提取模块32,用于对该采集的每个用户的语音数据进行声纹特征提取。
该构建模块33,用于根据该个人特征和该声纹特征,构建关联该个人特征的至少一个共性特征的声纹特征数据库;其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库。
该标记模块34,用于对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记。
该识别模块35,用于根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户;其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户。
可选地,该构建模块33,可以具体用于:
根据该个人特征和该声纹特征,筛选出关联该个人特征的共性特征的声纹特征数据的集合,根据该筛选出的声纹特征数据的集合,构建关联该个人特征的至少一个共性特征的声纹特征数据库;其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库。
可选地,该标记模块34,可以具体用于:
采用三维数组形式,对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记;其中,该三维数组中的其中一个数组用于表示共性特征,其中另一个数组用于表示该个人特征,其中第三个数组用于表示该声纹特征。
可选地,该识别模块35,可以具体用于:
根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的最多共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户;其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户。
请参见图4,图4是本发明声纹识别装置另一实施例的结构示意图。区别于上一实施例,本实施例所述声纹识别装置40还包括压缩模块41。
该压缩模块41,用于对该构建的关联该个人特征的至少一个共性特征的声纹特征数据库进行压缩。
该声纹识别装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种声纹识别设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的声纹识别方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以采集至少一个用户的语音数据和个人特征,其中,该个人特征包括性别和/或年龄和/或民族和/或籍贯等,和可以对该采集的每个用户的语音数据进行声纹特征提取,和可以根据该个人特征和该声纹特征,构建关联该个人特征的至少一个共性特征的声纹特征数据库,其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库,和可以对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记,以及可以根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户,其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户,能够实现缩短待测声纹特征与声纹特征数据库中的声纹特征进行相似度比较过程的耗时,进而能够实现提高声纹识别效率。
进一步的,以上方案,可以根据该个人特征和该声纹特征,筛选出关联该个人特征的共性特征的声纹特征数据的集合,根据该筛选出的声纹特征数据的集合,构建关联该个人特征的至少一个共性特征的声纹特征数据库,其中,该共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯等的声纹特征数据库,这样的好处是能够实现通过构建关联该个人特征的至少一个共性特征的声纹特征数据库,能够缩短需识别的声纹特征与声纹特征数据库中的声纹特征进行相似度比较过程的耗时,进而能够提高声纹识别效率。
进一步的,以上方案,可以采用三维数组形式,对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记,其中,该三维数组中的其中一个数组用于表示共性特征,其中另一个数组用于表示该个人特征,其中第三个数组用于表示该声纹特征,该三维数组不会出现重复,具有唯一性,能够方便的对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行管理。
进一步的,以上方案,可以根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的最多共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户;其中,该待测声纹特征对应的用户为该标记后的声纹特征数据库中的用户,这样的好处是由于通过关联该用户的个人特征的最多共性特征且经标记后的声纹特征数据库来进行声纹特征的相似度比较,能够将待测声纹特征与对应的声纹特征数据库中的声纹特征进行相似度比较过程的耗时缩小到最短,进而能够进一步提高声纹识别效率。
进一步的,以上方案,可以对该构建的关联该个人特征的至少一个共性特征的声纹特征数据库进行压缩,这样的好处是能够节省该构建的声纹特征数据库的存储资源。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种声纹识别方法,其特征在于,包括:
采集至少一个用户的语音数据和个人特征;其中,所述个人特征包括性别和/或年龄和/或民族和/或籍贯;采用一次性采集多个用户的语音数据,或是分多次采集多个用户的语音数据,或是逐一逐个用户的采集用户的语音数据;
对所述采集的每个用户的语音数据进行声纹特征提取;
根据所述个人特征和所述声纹特征,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库;
对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记;
根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户。
2.如权利要求1所述的声纹识别方法,其特征在于,所述根据所述个人特征和所述声纹特征,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库,包括:
根据所述个人特征和所述声纹特征,筛选出关联所述个人特征的共性特征的声纹特征数据的集合,根据所述筛选出的声纹特征数据的集合,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库。
3.如权利要求1所述的声纹识别方法,其特征在于,所述对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记,包括:
采用三维数组形式,对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记;其中,所述三维数组中的其中一个数组用于表示共性特征,其中另一个数组用于表示所述个人特征,其中第三个数组用于表示所述声纹特征。
4.如权利要求1所述的声纹识别方法,其特征在于,所述根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户,包括:
根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的最多共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户。
5.如权利要求1所述的声纹识别方法,其特征在于,在所述根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户之后,还包括:
对所述构建的关联所述个人特征的至少一个共性特征的声纹特征数据库进行压缩。
6.一种声纹识别装置,其特征在于,包括:
采集模块、提取模块、构建模块、标记模块和识别模块;
所述采集模块,用于采集至少一个用户的语音数据和个人特征;其中,所述个人特征包括性别和/或年龄和/或民族和/或籍贯;采用一次性采集多个用户的语音数据,或是分多次采集多个用户的语音数据,或是逐一逐个用户的采集用户的语音数据;
所述提取模块,用于对所述采集的每个用户的语音数据进行声纹特征提取;
所述构建模块,用于根据所述个人特征和所述声纹特征,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库;
所述标记模块,用于对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记;
所述识别模块,用于根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户。
7.如权利要求6所述的声纹识别装置,其特征在于,所述构建模块,具体用于:
根据所述个人特征和所述声纹特征,筛选出关联所述个人特征的共性特征的声纹特征数据的集合,根据所述筛选出的声纹特征数据的集合,构建关联所述个人特征的至少一个共性特征的声纹特征数据库;其中,所述共性特征的声纹特征数据库包括相同性别和/或相同年龄和/或相同民族和/或相同籍贯的声纹特征数据库。
8.如权利要求6所述的声纹识别装置,其特征在于,所述标记模块,具体用于:
采用三维数组形式,对所述构建的声纹特征数据库中的共性特征、所述个人特征和所述声纹特征进行标记;其中,所述三维数组中的其中一个数组用于表示共性特征,其中另一个数组用于表示所述个人特征,其中第三个数组用于表示所述声纹特征。
9.如权利要求6所述的声纹识别装置,其特征在于,所述识别模块,具体用于:
根据待测声纹特征对应的用户的个人特征,从关联所述用户的个人特征的最多共性特征且经标记后的声纹特征数据库中,识别出与所述待测声纹特征相似度最高的声纹特征对应的用户;其中,所述待测声纹特征对应的用户为所述标记后的声纹特征数据库中的用户。
10.如权利要求6所述的声纹识别装置,其特征在于,所述声纹识别装置,还包括:
压缩模块;
所述压缩模块,用于对所述构建的关联所述个人特征的至少一个共性特征的声纹特征数据库进行压缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293887.3A CN111326163B (zh) | 2020-04-15 | 2020-04-15 | 一种声纹识别方法和装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293887.3A CN111326163B (zh) | 2020-04-15 | 2020-04-15 | 一种声纹识别方法和装置以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111326163A CN111326163A (zh) | 2020-06-23 |
CN111326163B true CN111326163B (zh) | 2023-02-14 |
Family
ID=71173535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010293887.3A Active CN111326163B (zh) | 2020-04-15 | 2020-04-15 | 一种声纹识别方法和装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111326163B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113555022A (zh) * | 2021-07-23 | 2021-10-26 | 平安科技(深圳)有限公司 | 基于语音的同人识别方法、装置、设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951774B (zh) * | 2015-07-10 | 2019-11-05 | 浙江工业大学 | 基于两种子空间相融合的掌静脉特征提取和匹配方法 |
CN106209786A (zh) * | 2016-06-27 | 2016-12-07 | 四川阿泰因机器人智能装备有限公司 | 一种大数据并行化声纹认证方法 |
CN107507612B (zh) * | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN107483445A (zh) * | 2017-08-23 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种静默声纹识别注册方法、装置、服务器和存储介质 |
CN109036436A (zh) * | 2018-09-18 | 2018-12-18 | 广州势必可赢网络科技有限公司 | 一种声纹数据库建立方法、声纹识别方法、装置及系统 |
CN109473108A (zh) * | 2018-12-15 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 基于声纹识别的身份验证方法、装置、设备及存储介质 |
CN110010133A (zh) * | 2019-03-06 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于短文本的声纹检测方法、装置、设备及存储介质 |
CN110246503A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 黑名单声纹库构建方法、装置、计算机设备和存储介质 |
CN110956966B (zh) * | 2019-11-01 | 2023-09-19 | 平安科技(深圳)有限公司 | 声纹认证方法、装置、介质及电子设备 |
-
2020
- 2020-04-15 CN CN202010293887.3A patent/CN111326163B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111326163A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6429945B2 (ja) | 音声データを処理するための方法及び装置 | |
CN108766418B (zh) | 语音端点识别方法、装置及设备 | |
CN105489221B (zh) | 一种语音识别方法及装置 | |
CN113168836A (zh) | 计算机系统、语音识别方法以及程序 | |
CN110265037B (zh) | 身份验证方法、装置、电子设备及计算机可读存储介质 | |
CN105869641A (zh) | 语音识别装置及语音识别方法 | |
CN111445903B (zh) | 企业名称识别方法及装置 | |
CN110970018A (zh) | 语音识别方法和装置 | |
CN113129927B (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
CN111326163B (zh) | 一种声纹识别方法和装置以及设备 | |
CN112287082A (zh) | 结合rpa与ai的数据的处理方法、装置、设备及存储介质 | |
CN112711939A (zh) | 基于自然语言的断句方法、装置、设备及存储介质 | |
CN111444377A (zh) | 一种声纹识别的认证方法和装置以及设备 | |
CN111210840A (zh) | 一种年龄预测方法和装置以及设备 | |
CN109817223A (zh) | 基于音频指纹的音素标记方法及装置 | |
CN111415669B (zh) | 一种声纹模型构建方法和装置以及设备 | |
CN111583932A (zh) | 一种基于人声模型的声音分离方法和装置以及设备 | |
CN112115248B (zh) | 一种从对话语料中抽取对话策略结构的方法及系统 | |
CN115248843A (zh) | 辅助生成笔录的方法、装置和笔录生成系统 | |
CN111985231B (zh) | 无监督角色识别方法、装置、电子设备及存储介质 | |
CN111444375A (zh) | 一种声纹识别的验证方法和装置以及设备 | |
CN116486789A (zh) | 语音识别模型的生成方法、语音识别方法、装置及设备 | |
CN111128234B (zh) | 一种拼接语音的识别检测方法和装置以及设备 | |
CN111477235B (zh) | 一种声纹采集方法和装置以及设备 | |
CN111583953A (zh) | 一种基于声纹特征的人声分离方法和装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |