CN112351047B - 基于双引擎的声纹身份认证方法、装置、设备及存储介质 - Google Patents
基于双引擎的声纹身份认证方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112351047B CN112351047B CN202110015558.7A CN202110015558A CN112351047B CN 112351047 B CN112351047 B CN 112351047B CN 202110015558 A CN202110015558 A CN 202110015558A CN 112351047 B CN112351047 B CN 112351047B
- Authority
- CN
- China
- Prior art keywords
- voice
- verified
- verification
- threshold
- voiceprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012795 verification Methods 0.000 claims abstract description 184
- 238000001514 detection method Methods 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000009977 dual effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000151 deposition Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Collating Specific Patterns (AREA)
Abstract
本申请实施例提供了一种基于双引擎的声纹身份认证方法、装置、设备及存储介质,涉及身份识别领域。该基于双引擎的声纹身份认证方法,包括:将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;若第一验证分数小于第一阈值、且大于第二阈值,则将待验证语音输入第二声纹识别引擎,获取输出的第二验证分数;比较第二验证分数与第三阈值,若第二验证分数大于或等于所述第三阈值,则确定验证通过。本申请实施例中,结合双引擎对待验证语音进行身份验证,即在第一声纹识别引擎验证不通过的情况下,利用第二声纹识别引擎,获取输出的第二验证分数,最终以第二验证分数作为是否通过身份认证的判断依据,提高了声纹识别结果的准确度。
Description
技术领域
本申请涉及身份识别领域,具体而言,涉及基于双引擎的声纹身份认证方法、装置、设备及存储介质。
背景技术
随着人工智能技术的飞速发展,除了身份证件能够作为人的身份标识之外,人们本身自带的生物特征信息,由于其唯一性的存在,逐步成为判别人们身份的标识之一。如第三代身份证中的指纹、人脸识别、声纹识别以及多种生物特征技术的融合等。
目前,对于声纹的识别,一般采用单一引擎,只要满足引擎中的阈值即识别成功或不成功。
可见,现有的声纹识别过程较为简单,识别结果不够准确。
发明内容
为了解决现有技术中存在的问题,本申请提供了一种基于双引擎的声纹身份认证方法、装置、设备及存储介质。
本申请第一方面提供一种基于双引擎的声纹身份认证方法,包括:
将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;
若所述第一验证分数小于第一阈值、且大于第二阈值,则将所述待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,其中,所述第一阈值用于指示验证通过阈值、所述第二阈值用于指示验证不通过阈值;
比较所述第二验证分数与第三阈值,若所述第二验证分数大于或等于所述第三阈值,则确定验证通过。
可选地,所述将所述待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,包括:
将所述待验证语音输入第二声纹识别引擎,获取输出的初始分数;
根据所述第一验证分数、所述初始分数以及预设权重,采用预设融合算法,计算获取所述第二验证分数。
可选地,所述将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数之前,还包括:
生成预设个数的随机数字序列,所述随机数字序列用于引导用户读出所述随机数字序列,其中,随机数字序列包括预设数字;
采集获取读出所述随机数字序列的所述待验证语音。
可选地,所述第一声纹识别引擎通过预设声纹匹配模型、预设声纹库获取所述待验证语音与目标语音的第一相似度,根据所述第一相似度获取所述第一验证分数;
所述第二声纹识别引擎通过预设声纹匹配模型、预设声纹库获取所述待验证语音与目标语音的第二相似度,根据所述第二相似度获取所述第二验证分数。
可选地,所述将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数之后,还包括:
若所述第一验证分数小于所述第二阈值,则确定验证失败;或者,若所述第一验证分数大于所述第一阈值,则确定验证通过。
可选地,所述采集获取读出所述随机数字序列的所述待验证语音,包括:
采集获取读出所述随机数字序列的初始语音;
采用活体检测模型检测所述初始语音是否为活体语音;
若所述初始语音是活体语音,则将所述初始语音作为所述待验证语音。
可选地,所述采集获取读出所述随机数字序列的所述待验证语音之后,还包括:
将所述待验证语音识别转换为对应的文本信息;
根据所述文本信息与所述随机数字序列进行文本检测,获取检测结果;
所述将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数,包括:
若所述检测结果为检测通过,则将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数。
本申请第二方面提供一种基于双引擎的声纹身份认证装置,包括:获取单元、处理单元、确定单元;
所述获取单元,用于将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;
所述处理单元,用于若所述第一验证分数小于第一阈值、且大于第二阈值,则将所述待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,其中,所述第一阈值用于指示验证通过阈值、所述第二阈值用于指示验证不通过阈值;
所述确定单元,用于比较所述第二验证分数与第三阈值,若所述第二验证分数大于或等于所述第三阈值,则确定验证通过。
可选地,所述处理单元,用于将所述待验证语音输入第二声纹识别引擎,获取输出的初始分数;
根据所述第一验证分数、所述初始分数以及预设权重,采用预设融合算法,计算获取所述第二验证分数。
可选地,所述装置还包括:生成单元;
所述生成单元,用于生成预设个数的随机数字序列,所述随机数字序列用于引导用户读出所述随机数字序列,其中,随机数字序列包括预设数字;
所述获取单元,还用于采集获取读出所述随机数字序列的所述待验证语音。
可选地,所述第一声纹识别引擎通过预设声纹匹配模型、预设声纹库获取所述待验证语音与目标语音的第一相似度,根据所述第一相似度获取所述第一验证分数;
所述第二声纹识别引擎通过预设声纹匹配模型、预设声纹库获取所述待验证语音与目标语音的第二相似度,根据所述第二相似度获取所述第二验证分数。
可选地,所述确定单元,用于若所述第一验证分数小于所述第二阈值,则确定验证失败;或者,若所述第一验证分数大于所述第一阈值,则确定验证通过。
可选地,所述获取单元,用于采集获取读出所述随机数字序列的初始语音;
采用活体检测模型检测所述初始语音是否为活体语音;
若所述初始语音是活体语音,则将所述初始语音作为所述待验证语音。
可选地,所述装置还包括:转换单元;
所述转换单元,用于将所述待验证语音识别转换为对应的文本信息;
所述获取单元,还用于根据所述文本信息与所述随机数字序列进行文本检测,获取检测结果;
若所述检测结果为检测通过,则将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数。
本申请第三方面提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述第一方面所述方法的步骤。
本申请第四方面提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,执行如上述第一方面所述方法的步骤。
本申请实施例提供一种基于双引擎的声纹身份认证方法、装置、设备及存储介质,其中,该基于双引擎的声纹身份认证方法中,将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;若所述第一验证分数小于第一阈值、且大于第二阈值,则将所述待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,其中,所述第一阈值用于指示验证通过阈值、所述第二阈值用于指示验证不通过阈值;比较所述第二验证分数与第三阈值,若所述第二验证分数大于或等于所述第三阈值,则确定验证通过。可见,本申请实施例中,结合双引擎对待验证语音进行身份验证,即在第一声纹识别引擎验证存在不确定的情况下,利用第二声纹识别引擎,获取输出的第二验证分数,最终以第二验证分数作为是否通过身份认证的判断依据,提高了声纹识别结果的准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的基于双引擎的声纹身份认证方法的流程示意图;
图2为本申请另一实施例提供的基于双引擎的声纹身份认证方法的流程示意图;
图3为本申请另一实施例提供的基于双引擎的声纹身份认证方法的流程示意图;
图4为本申请另一实施例提供的基于双引擎的声纹身份认证方法的流程示意图;
图5为本申请一实施例提供的基于双引擎的声纹身份认证装置的示意图;
图6为本申请另一实施例提供的基于双引擎的声纹身份认证装置的示意图;
图7为本申请另一实施例提供的基于双引擎的声纹身份认证装置的示意图;
图8为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
随着人工智能技术的飞速发展,除了身份证件能够作为人的身份标识之外,人们本身自带的生物特征信息,由于其唯一性的存在,逐步成为判别人们身份的标识之一。如第三代身份证中的指纹、人脸识别、声纹识别以及多种生物特征技术的融合等。目前,对于声纹的识别,一般采用单一引擎,只要满足引擎中的阈值即识别成功或不成功。
为了解决上述现有技术中存在的技术问题,本申请提供一种发明构思:结合双引擎对待验证语音进行身份验证,即在第一声纹识别引擎验证不通过的情况下,利用第二声纹识别引擎,获取输出的第二验证分数,最终以第二验证分数作为是否通过身份认证的判断依据,提高了声纹识别结果的准确度。
下面通过可能的实现方式对本申请所提供的具体技术方案进行说明。
图1为本申请一实施例提供的基于双引擎的声纹身份认证方法的流程示意图,该方法的执行主体可以是计算机、服务器等具有处理功能的设备。如图1所示,该方法包括:
S101、将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数。
其中,本申请实施例中的第一声纹识别引擎可以安装于具有身份验证功能的设备上,例如该设备可以包括:考勤打卡设备、存取款设备、在线支付设备等。
待验证语音可以是待验证用户根据读取规则所读取的一串数字、一段古诗的语音信息。可选地,第一验证分数用于指示待验证用户的声纹与数据库中预存储的声纹的相似程度,可以理解的是,第一验证分数越高表明待验证用户的身份与目标用户的身份越接近。
在一种可能的实现方式中,当第一验证分数大于第一阈值,可以直接确定用户身份验证成功;当第一验证得分小于第二阈值时,可以直接确定用户身份验证失败。在另一种可能的实现方式中,当第一验证分数小于第一阈值、且大于第二阈值时,还可以将待验证语音输入第二声纹识别引擎进行进一步身份验证,具体如下。
S102、若第一验证分数小于第一阈值、且大于第二阈值,则将待验证语音输入第二声纹识别引擎,获取输出的第二验证分数。
其中,第一阈值用于指示验证通过阈值、第二阈值用于指示验证不通过阈值。另外,第一阈值大于第二阈值的数。若第一验证分数小于第一阈值、且大于第二阈值,说明根据第一声纹识别引擎获取的结果,不能准确确定到底验证通过还是不通过,那么采用第二声纹识别引擎进行二次验证。
第二声纹识别引擎与第一声纹识别引擎类似,均安装于具有身份验证功能的设备上。第二声纹识别引擎可以是与第一声纹识别引擎相同的识别引擎,也可以是与第一声纹识别引擎不同的识别引擎,对此本实施例不做限定。
在一种可能的实现方案中,可以直接通过第二声纹识别引擎获取得到第二验证分数;在另一种可能的实现方式中,还可以将第二声纹识别引擎得到的初始分数与第一声纹识别引擎的识别结果进行融合,得到第二验证分数。
S103、比较第二验证分数与第三阈值,若第二验证分数大于或等于第三阈值,则确定验证通过。
需要说明的是,第一阈值为系统判定为此次认证是本人/不确定为本人的界限值;第二阈值为系统判定此次认证为非本人/不确定为本人的界限值;第三阈值为系统利用第二声纹识别引擎进行二次补充认证时,确定是否为本人的界限值。其中,第一阈值、第二阈值、第三阈值可以根据具体的场景需求或者经验进行设置,在此不作限制。
本申请实施例提供一种基于双引擎的声纹身份认证方法中,将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;若所述第一验证分数小于第一阈值、且大于第二阈值,则将所述待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,其中,所述第一阈值用于指示验证通过阈值、所述第二阈值用于指示验证不通过阈值;比较所述第二验证分数与第三阈值,若所述第二验证分数大于或等于所述第三阈值,则确定验证通过。本申请实施例中,结合双引擎对待验证语音进行身份验证,即在第一声纹识别引擎验证存在不确定的情况下,利用第二声纹识别引擎,获取输出的第二验证分数,最终以第二验证分数作为是否通过身份认证的判断依据,提高了声纹识别结果的准确度。
图2为本申请另一实施例提供的基于双引擎的声纹身份认证方法的流程示意图,如图2所示,可选地一种实施方式中,将待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,包括:
S201、将待验证语音输入第二声纹识别引擎,获取输出的初始分数。
S202、根据第一验证分数、初始分数以及预设权重,采用预设融合算法,计算获取第二验证分数。
在本申请实施例中,第一验证分数与初始分数可以对应不同的权重系数,也可以对应相同的权重系数,对此本实施例不做限定。权重系数的设定可以根据识别引擎的识别精度进行设定,此外,还可以根据经验算法进行适应性调整。
预设融合算法可以采用预设权重与相应验证分数相乘,并将所有结果相加的实现策略获取第二验证分数。
示例性地,当第一验证分数为0.8、初始分数为0.7、第一验证分数对应权重为0.7、初始分数对应权重为0.3,则第二验证分数可以为:0.8*0.7+0.7*0.3=0.77。
另一种可选地实现方式中,也可以将初始分数直接作为第二验证分数,在此不作限制。
图3为本申请另一实施例提供的基于双引擎的声纹身份认证方法的流程示意图,如图3所示,步骤S101之前还包括:
S301、生成预设个数的随机数字序列。
S302、采集获取读出随机数字序列的待验证语音。
在本申请实施例中,采集用户的语音时,可以引导用户去读指示的数字,以便进行验证。
可选地,若待验证语音为用户读取一串数字的语音数据,则在将待验证语音输入第一声纹识别引擎之前,生成预设个数的随机数字序列。
随机数字序列用于引导用户读出随机数字序列,其中,随机数字序列包括预设数字。
需要说明的是,在本申请实施例中,为了保证生成的预设个数的随机数字序列之间具有明显的区别特征,可以使得生成的随机数字序列之间互不重复。此外,还可以使得生成的每个数字序列中有预设位数的数据(例如4位或3位)从内容和顺序上保持不变,其余几位数据从剩余的数字中随机挑选。
进一步地,随机数字序列的个数可以设置为6个、8个及以上,具体可以根据预设的声音录制时间进行设置,随机数字序列的显示可以设置为逐个显示,即当获取到待验证用户的声音信息后,再显示下一个数字,也可以设置为整体显示,对此本申请实施例不做限定。
可选地,第一声纹识别引擎通过预设声纹匹配模型、预设声纹库获取待验证语音与目标语音的第一相似度,根据第一相似度获取第一验证分数;第二声纹识别引擎通过预设声纹匹配模型、预设声纹库获取待验证语音与目标语音的第二相似度,根据第二相似度获取第二验证分数。
需要说明的是,在本申请实施例中,第一声纹识别引擎首先通过预设声纹匹配模型提取待验证语音中的声纹信息,利用提取的声纹信息与预设声纹库中预存的声纹信息进行比对,获取待验证语音与预设声纹库中目标语音的第一相似度,根据第一相似度得到第一验证分数。第二验证分数的获取规则与第一验证分数的获取规则类似,本申请实施例不再赘述。
可选地,将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数之后,还包括:若第一验证分数小于第二阈值,则确定验证失败;或者,若第一验证分数大于第一阈值,则确定验证通过。
在本申请实施例中,如果采用第一声纹识别引擎获取的第一验证分数,可以明确区分验证结果,即当第一验证分数小于第二阈值,则直接确定身份验证失败,当第一验证分数大于第一阈值,则确定身份验证通过。那么,可以不需要再使用第二声纹识别引擎,直接输出结果即可。
可选地,为了避免合成音频、拼接音频、回放音频等语音数据对身份验证系统的攻击,在本申请实施例中,在获取到待验证语音之后,还可以对待验证语音进行活体检测,具体如下述实施例所述。
图4为本申请另一实施例提供的基于双引擎的声纹身份认证方法的流程示意图,如图4所示,采集获取读出随机数字序列的待验证语音,包括:
S401、采集获取读出随机数字序列的初始语音。
S402、采用活体检测模型检测初始语音是否为活体语音。
S403、若初始语音是活体语音,则将初始语音作为待验证语音。
在本申请实施例中,可以通过活体检测模型对初始语音进行检测,当活体检测模型确定出初始语音为“非活体”,则可以在检测设备的界面上显示“语音疑似为非活体”,并引导待验证用户重新进行语音数据采集。当活体检测模型确定出初始语音是活体语音,则将初始语音作为待验证语音。
此外,为了提高识别的准确性,在本申请实施例中,在将初始语音作为待验证语音之前,还可以对初始语音进行“截幅超限”判断。具体地,可以将初始语音与预设音频值进行比较,当初始语音大于预设音频值时,则在检测设备的界面上显示“语音截幅超限”的提示信息,并引导待验证用户重新进行语音数据采集。当初始语音小于等于预设音频值时,还可以对初始语音进行噪声检测,例如信噪比(Signal to Noise Ratio,SNR)检测,当初始语音未通过噪声检测时,则可以在检测设备的界面上显示“噪声过大”的提示信息,以引导待验证用户到噪声较小的地方。当初始语音通过噪声检测时,则将初始语音作为待验证语音。
在本申请实施例中,为了避免录音方式的语音攻击,还可以将待验证语音识别转换为对应的文本信息,以进行语音内容的判断。
可选地,采集获取读出随机数字序列的待验证语音之后,还包括:将待验证语音识别转换为对应的文本信息;根据文本信息与随机数字序列进行文本检测,获取检测结果;将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数,包括:若检测结果为检测通过,则将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数。
在一种实现方式中,可以通过语音转换技术对待验证语音进行文本转换,获取文本信息。将文本信息与随机数字序列进行文本检测,即将二者进行匹配处理,获取匹配结果。当文本信息与随机数字序列匹配,则将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数。当文本信息与随机数字序列不匹配,则可以在检测设备的界面上显示“语音内容不符”的提示信息,并引导待验证用户重新进行语音数据采集。
为了清楚描述本申请实施例的基于双引擎的声纹身份认证方法,本申请实施例提供一种基于双引擎的声纹身份认证方法的完整实现,可选地,流程如下:
步骤1:获取麦克风的启动信号、录音功能的启动信号。
步骤2:生成预设个数的随机数字序列,随机数字序列用于引导用户读出随机数字序列,其中,随机数字序列包括预设数字。
步骤3:采集获取读出随机数字序列的待验证语音。
步骤4:采用活体检测模型检测初始语音是否为活体语音。
若初始语音为活体语音,则执行步骤5,若否,则重新回到步骤1。
步骤5:对初始语音进行音频大小判断。
若初始语音超过预设音频值,则验证失败,重新回到步骤1,若初始语音未超过预设音频值,则继续执行步骤6。
步骤6:对初始语音进行噪声检测。
若初始语音未通过噪声检测,则验证失败,重新回到步骤1,若初始语音通过噪声检测,则继续执行步骤7。
步骤7:将待验证语音识别转换为对应的文本信息。
步骤8:根据文本信息与随机数字序列进行文本检测,获取检测结果。
若检测结果为不通过,则验证失败,重新回到步骤1,若检测结果为通过,则继续执行步骤9。
步骤9:若检测结果为检测通过,则将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数。
步骤10:若第一验证分数小于第一阈值、且大于第二阈值,则将待验证语音输入第二声纹识别引擎,获取输出的第二验证分数。
步骤11:比较第二验证分数与第三阈值,若第二验证分数大于或等于第三阈值,则确定验证通过。
当然,上述步骤可以根据具体场景需求进行顺序调整和删减,在此不作具体限制。
可以理解的是,在本申请实施例中,如果采用第一声纹识别引擎获取的第一验证分数,可以明确区分验证结果,即当第一验证分数小于第二阈值,则直接确定身份验证失败,当第一验证分数大于第一阈值,则确定身份验证通过。那么,可以不需要再使用第二声纹识别引擎,直接输出结果即可。只有当第一验证分数小于第一阈值、且大于第二阈值,才将待验证语音输入第二声纹识别引擎。通过结合双引擎对待验证语音进行身份验证,提高了声纹识别结果的准确度。
下述对用以执行本申请所提供的基于双引擎的声纹身份认证方法所对应的装置及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图5为本申请一实施例提供的基于双引擎的声纹身份认证装置的示意图,如图5所示,该装置可以包括:获取单元501、处理单元502、确定单元503;
获取单元501,用于将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;
处理单元502,用于若第一验证分数小于第一阈值、且大于第二阈值,则将待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,其中,第一阈值用于指示验证通过阈值、第二阈值用于指示验证不通过阈值;
确定单元503,用于比较第二验证分数与第三阈值,若第二验证分数大于或等于第三阈值,则确定验证通过。
可选地,处理单元502,用于将待验证语音输入第二声纹识别引擎,获取输出的初始分数;
根据第一验证分数、初始分数以及预设权重,采用预设融合算法,计算获取第二验证分数。
图6为本申请另一实施例提供的基于双引擎的声纹身份认证装置的示意图,如图6所示,该装置还包括:生成单元504;
生成单元504,用于生成预设个数的随机数字序列,随机数字序列用于引导用户读出随机数字序列,其中,随机数字序列包括预设数字;
获取单元501,还用于采集获取读出随机数字序列的待验证语音。
可选地,第一声纹识别引擎通过预设声纹匹配模型、预设声纹库获取待验证语音与目标语音的第一相似度,根据第一相似度获取第一验证分数;
第二声纹识别引擎通过预设声纹匹配模型、预设声纹库获取待验证语音与目标语音的第二相似度,根据第二相似度获取第二验证分数。
可选地,确定单元503,用于若第一验证分数小于第二阈值,则确定验证失败;或者,若第一验证分数大于第一阈值,则确定验证通过。
可选地,获取单元501,用于采集获取读出随机数字序列的初始语音;
采用活体检测模型检测初始语音是否为活体语音;
若初始语音是活体语音,则将初始语音作为待验证语音。
图7为本申请另一实施例提供的基于双引擎的声纹身份认证装置的示意图,如图7所示,该装置还包括:转换单元505;
转换单元505,用于将待验证语音识别转换为对应的文本信息;
获取单元501,还用于根据文本信息与随机数字序列进行文本检测,获取检测结果;
若检测结果为检测通过,则将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数。
图8为本申请实施例提供的电子设备的结构示意图,包括:处理器710、存储介质720和总线730,存储介质720存储有处理器710可执行的机器可读指令,当电子设备运行时,处理器710与存储介质720之间通过总线730通信,处理器710执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种基于双引擎的声纹身份认证方法,其特征在于,包括:
将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;
若所述第一验证分数小于第一阈值、且大于第二阈值,则将所述待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,其中,所述第一阈值用于指示验证通过阈值、所述第二阈值用于指示验证不通过阈值;
比较所述第二验证分数与第三阈值,若所述第二验证分数大于或等于所述第三阈值,则确定验证通过;
所述将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数之前,还包括:
生成预设个数的随机数字序列,所述随机数字序列用于引导用户读出所述随机数字序列,其中,随机数字序列包括预设数字;
采集获取读出所述随机数字序列的所述待验证语音;
所述采集获取读出所述随机数字序列的所述待验证语音之后,还包括:
将所述待验证语音识别转换为对应的文本信息;
根据所述文本信息与所述随机数字序列进行文本检测,获取检测结果;
所述将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数,包括:
若所述检测结果为检测通过,则将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;
所述采集获取读出所述随机数字序列的所述待验证语音,包括:
采集获取读出所述随机数字序列的初始语音;
采用活体检测模型检测所述初始语音是否为活体语音;
若所述初始语音是活体语音,则将所述初始语音作为所述待验证语音;
所述将所述初始语音作为所述待验证语音之前,还包括:
将初始语音与预设音频值进行比较,若所述初始语音大于所述预设音频值时,显示语音截幅超限的提示信息;
若所述初始语音小于或等于所述预设音频值时,对所述初始语音进行噪声检测,若所述初始语音未通过噪声检测,显示噪声过大的提示信息。
2.根据权利要求1所述的方法,其特征在于,将所述待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,包括:
将所述待验证语音输入第二声纹识别引擎,获取输出的初始分数;
根据所述第一验证分数、所述初始分数以及预设权重,采用预设融合算法,计算获取所述第二验证分数。
3.根据权利要求1或2所述的方法,其特征在于,所述第一声纹识别引擎通过预设声纹匹配模型、预设声纹库获取所述待验证语音与目标语音的第一相似度,根据所述第一相似度获取所述第一验证分数;
所述第二声纹识别引擎通过预设声纹匹配模型、预设声纹库获取所述待验证语音与目标语音的第二相似度,根据所述第二相似度获取所述第二验证分数。
4.根据权利要求1或2所述的方法,其特征在于,所述将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数之后,还包括:
若所述第一验证分数小于所述第二阈值,则确定验证失败;或者,
若所述第一验证分数大于所述第一阈值,则确定验证通过。
5.一种基于双引擎的声纹身份认证装置,其特征在于,包括:获取单元、处理单元、确定单元;
所述获取单元,用于将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;
所述处理单元,用于若所述第一验证分数小于第一阈值、且大于第二阈值,则将所述待验证语音输入第二声纹识别引擎,获取输出的第二验证分数,其中,所述第一阈值用于指示验证通过阈值、所述第二阈值用于指示验证不通过阈值;
所述确定单元,用于比较所述第二验证分数与第三阈值,若所述第二验证分数大于或等于所述第三阈值,则确定验证通过;
所述声纹身份认证装置还包括:生成单元;
所述生成单元,用于生成预设个数的随机数字序列,所述随机数字序列用于引导用户读出所述随机数字序列,其中,随机数字序列包括预设数字;
所述获取单元,还用于采集获取读出所述随机数字序列的所述待验证语音;
所述声纹身份认证装置还包括:转换单元;
所述转换单元,用于将所述待验证语音识别转换为对应的文本信息;
所述获取单元,还用于根据所述文本信息与所述随机数字序列进行文本检测,获取检测结果;
若所述检测结果为检测通过,则将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数;
所述获取单元,具体用于采集获取读出所述随机数字序列的初始语音;
采用活体检测模型检测所述初始语音是否为活体语音;
若所述初始语音是活体语音,则将所述初始语音作为所述待验证语音;
所述获取单元,具体还用于将初始语音与预设音频值进行比较,若所述初始语音大于所述预设音频值时,显示语音截幅超限的提示信息;
若所述初始语音小于或等于所述预设音频值时,对所述初始语音进行噪声检测,若所述初始语音未通过噪声检测,显示噪声过大的提示信息。
6.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-4任一项所述方法的步骤。
7.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110015558.7A CN112351047B (zh) | 2021-01-07 | 2021-01-07 | 基于双引擎的声纹身份认证方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110015558.7A CN112351047B (zh) | 2021-01-07 | 2021-01-07 | 基于双引擎的声纹身份认证方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112351047A CN112351047A (zh) | 2021-02-09 |
CN112351047B true CN112351047B (zh) | 2021-08-24 |
Family
ID=74427707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110015558.7A Active CN112351047B (zh) | 2021-01-07 | 2021-01-07 | 基于双引擎的声纹身份认证方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112351047B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284508B (zh) | 2021-07-21 | 2021-11-09 | 中国科学院自动化研究所 | 基于层级区分的生成音频检测系统 |
CN115331673B (zh) * | 2022-10-14 | 2023-01-03 | 北京师范大学 | 一种复杂声音场景下的声纹识别家电控制方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708867A (zh) * | 2012-05-30 | 2012-10-03 | 北京正鹰科技有限责任公司 | 一种基于声纹和语音的防录音假冒身份识别方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077718B (zh) * | 2013-01-09 | 2015-11-25 | 华为终端有限公司 | 语音处理方法、系统和终端 |
CN103903623B (zh) * | 2014-03-31 | 2017-09-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106601257B (zh) * | 2016-12-31 | 2020-05-26 | 联想(北京)有限公司 | 一种声音识别方法、设备和第一电子设备 |
CN107864121A (zh) * | 2017-09-30 | 2018-03-30 | 上海壹账通金融科技有限公司 | 用户身份验证方法及应用服务器 |
CN109960910B (zh) * | 2017-12-14 | 2021-06-08 | Oppo广东移动通信有限公司 | 语音处理方法、装置、存储介质及终端设备 |
CN108447489B (zh) * | 2018-04-17 | 2020-05-22 | 清华大学 | 一种带反馈的连续声纹认证方法及系统 |
CN111131601B (zh) * | 2018-10-31 | 2021-08-27 | 华为技术有限公司 | 一种音频控制方法、电子设备、芯片及计算机存储介质 |
CN109858213B (zh) * | 2019-01-31 | 2020-09-04 | 北京蓦然认知科技有限公司 | 一种快速身份认证的方法及装置 |
-
2021
- 2021-01-07 CN CN202110015558.7A patent/CN112351047B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708867A (zh) * | 2012-05-30 | 2012-10-03 | 北京正鹰科技有限责任公司 | 一种基于声纹和语音的防录音假冒身份识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112351047A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
WO2017197953A1 (zh) | 基于声纹的身份识别方法及装置 | |
WO2019210796A1 (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
CN113327620B (zh) | 声纹识别的方法和装置 | |
CN104821934A (zh) | 基于人工智能的声纹登录方法和装置 | |
CN112351047B (zh) | 基于双引擎的声纹身份认证方法、装置、设备及存储介质 | |
CN103635962A (zh) | 声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置 | |
CN109117622B (zh) | 一种基于音频指纹的身份认证方法 | |
CN109947971B (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN110311788A (zh) | 身份验证方法、装置、电子设备及可读介质 | |
CN112329750B (zh) | 基于数字序列的身份识别方法、装置、电子设备及介质 | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 | |
US10008206B2 (en) | Verifying a user | |
CN111899718A (zh) | 用于识别合成语音的方法、装置、设备和介质 | |
EP4170526A1 (en) | An authentication system and method | |
KR101705228B1 (ko) | 전자문서생성장치 및 그 동작 방법 | |
CN110931020B (zh) | 一种语音检测方法及装置 | |
CN116486789A (zh) | 语音识别模型的生成方法、语音识别方法、装置及设备 | |
CN114023331A (zh) | 声纹识别系统的性能检测方法、装置、设备和存储介质 | |
CN113035230A (zh) | 认证模型的训练方法、装置及电子设备 | |
CN113113051A (zh) | 音频指纹提取方法、装置、计算机设备和存储介质 | |
CN113255361B (zh) | 语音内容的自动检测方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |