CN112509586A - 电话信道声纹识别方法及装置 - Google Patents
电话信道声纹识别方法及装置 Download PDFInfo
- Publication number
- CN112509586A CN112509586A CN202011496601.8A CN202011496601A CN112509586A CN 112509586 A CN112509586 A CN 112509586A CN 202011496601 A CN202011496601 A CN 202011496601A CN 112509586 A CN112509586 A CN 112509586A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- voice
- user
- target
- unique identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000001514 detection method Methods 0.000 claims description 54
- 238000007781 pre-processing Methods 0.000 claims description 19
- 230000007547 defect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000001755 vocal effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 22
- 230000005540 biological transmission Effects 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 238000010845 search algorithm Methods 0.000 description 7
- 238000012216 screening Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000013475 authorization Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例提供一种电话信道声纹识别方法及装置,可用于金融技术领域,方法包括:接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,唯一标识预先基于用户电话号码生成,每个唯一标识对应的用户声纹模板特征的数量上限等于或大于两个;判断各个用户声纹模板特征中是否包含有目标有效语音对应的声纹特征,若是,则将目标有效语音的唯一标识对应的预存储身份信息确认为目标有效语音的用户身份识别结果。本申请能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性。
Description
技术领域
本申请涉及生物识别技术领域,特别涉及金融技术领域,具体涉及电话信道声纹识别方法及装置。
背景技术
随着人工智能技术的发展,电话信道声纹识别技术已被应用到金融行业身份校验,公共安防等领域。各种层出不穷的声纹攻击手段,以及采集的声纹质量问题,严重影响了电话信道声纹识别系统的识别准确率。
目前,大部分的电话信道声纹识别方法会有对采集到的声纹进行活体检测来判断通过当前电话信道获取的语言是否为人类有效语音,而后对其进行身份验证来确定通过当前电话信道获取的人类有效语音否为与该电话信道唯一对应的用户身份相匹配。
然而,由于现有的电话信道声纹识别方式中,预先存储的一个用户电话号码只对应一个用户声纹特征,因此无法适用于一个电话常被多个用户合法使用的情形,易出现电话信道声纹合法性误判或用户身份漏识的情况,因此无法保证电话信道声纹识别的准确性,也制约了电话系统声纹识别技术的应用广泛性。
发明内容
针对现有技术中的问题,本申请提供一种电话信道声纹识别方法及装置,能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种电话信道声纹识别方法,包括:
接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,其中,所述唯一标识预先基于用户电话号码生成,且每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个;
判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果。
进一步地,还包括:
接收声纹注册请求,其中,该声纹注册请求中包括待注册有效语音及对应的唯一标识;
若在预设的数据库中查找到所述待注册有效语音的唯一标识,则自所述数据库中获取该唯一标识对应的用户声纹模板特征的当前数量是否小于所述数量上限,若是,将基于所述唯一标识将所述待注册有效语音对应的声纹特征存储至所述数据库中,其中,所述数据库用于存储各个所述唯一标识和各个所述用户声纹模板特征之间的一对一或一对多关系。
进一步地,在所述接收基于电话信道获取的目标有效语音及对应的唯一标识之前,还包括:
基于电话信道采集目标语音,并对目标语音进行预处理以确定该目标语音是否为有效语音,若是,则判断所述有效语音的当前时长是否已达到识别长度阈值;
若经判断获知所述有效语音的当前时长已达到所述识别长度阈值,则将该有效语音确定为目标有效语音并获取该目标有效语音对应的唯一标识;
其中,所述预处理包括:活体检测、变声攻击和声纹质量检测中的至少一项。
进一步地,所述基于电话信道采集目标语音,并对目标语音进行预处理以确定该目标语音是否为有效语音,包括:
对所述目标语音进行活体检测以确定该目标语音是否为人声;
若经所述活体检测确定所述目标语音为人声,则对该目标语音进行变声攻击检测以确定该目标语音是否为变声声纹;
若经所述变声攻击检测获知所述目标语音对应的声纹为非变声声纹,则对该目标语音进行声纹质量检测以确定该目标语音的声纹质量是否存在质量缺陷,其中,所述质量缺陷包括:环境噪声、幅度超过幅度阈值的声段和长度小于语音长度阈值的语音中的至少一项;
若经所述声纹质量检测获知所述目标语音中存在所述质量缺陷,则对所述目标语音中的质量缺陷进行过滤处理,并对应的过滤处理结果确定为所述目标语音对应的有效语音。
进一步地,所述判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果,包括:
根据所述目标有效语音的唯一标识,分别获取该唯一标识对应的至少一个所述用户声纹模板特征分别与所述目标有效语音的声纹特征的相似度识别结果;
在当前获取的至少一个所述相似度识别结果中,判断是否包含有等于或大于相似度阈值的相似度识别结果,若有,则获取所述目标有效语音的唯一标识对应的预存储身份信息,并将该预存储身份信息确认为所述目标有效语音的用户身份识别结果。
进一步地,还包括:
接收声纹搜索请求,其中,该声纹搜索请求中包括待搜索有效语音及对应的唯一标识;
在预设的黑名单中查找所述待搜索有效语音的唯一标识,若所述黑名单中未包含有该待搜索有效语音的唯一标识,则将所述待搜索有效语音的对应的用户信息确定为可执行用户信息。
第二方面,本申请提供一种电话信道声纹识别装置,包括:
特征提取模块,用于接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,其中,所述唯一标识预先基于用户电话号码生成,且每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个;
声纹辨认模块,用于判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果。
进一步地,还包括:
请求接收模块,用于接收声纹注册请求,其中,该声纹注册请求中包括待注册有效语音及对应的唯一标识;
声纹注册模块,用于若在预设的数据库中查找到所述待注册有效语音的唯一标识,则自所述数据库中获取该唯一标识对应的用户声纹模板特征的当前数量是否小于所述数量上限,若是,将基于所述唯一标识将所述待注册有效语音对应的声纹特征存储至所述数据库中,其中,所述数据库用于存储各个所述唯一标识和各个所述用户声纹模板特征之间的一对一或一对多关系。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的电话信道声纹识别方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的电话信道声纹识别方法。
由上述技术方案可知,本申请提供的一种电话信道声纹识别方法及装置,方法通过接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,其中,所述唯一标识预先基于用户电话号码生成,且每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个;判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果通过预先存储一个用户唯一标识与至少一个用户声纹模板特征之间的对应关系,能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,因此能够有效避免电话信道声纹合法性误判或用户身份漏识的情形出现,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性,进而能够有效提高根据电话信道声纹识别结果对用户诉求进行处理的效率及可靠性,能够有效提高通过拨打电话进行操作的用户体验。本申请提及的一个电话号码日常被一个或者多个用户合法使用的情形,尤其针对以多人家庭为单元的座机号码、老年人与直系亲属共同合法使用的手机号码,或者未来可能出现的其他通信形式下的一个通信标识对应多个合法用户的情形等等,均能够有效提高电话信道声纹的识别全面性及准确性,有效避免声纹合法性误判或用户身份漏识,进而能够有效推进电话信道声纹技术的广泛应用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的电话信道声纹识别方法中步骤110和步骤120的流程示意图。
图2是本申请实施例中的电话信道声纹识别方法中步骤210和步骤220的流程示意图。
图3是本申请实施例中的电话信道声纹识别方法中步骤310和步骤320的流程示意图。
图4是本申请实施例中的电话信道声纹识别方法中步骤311至步骤314的具体流程示意图。
图5是本申请实施例中的电话信道声纹识别方法中步骤121和步骤122的流程示意图。
图6是本申请实施例中的电话信道声纹识别方法中步骤610和步骤620的流程示意图。
图7是本申请实施例中的电话信道声纹识别装置的第一种结构示意图。
图8是本申请实施例中的电话信道声纹识别装置的第二种结构示意图。
图9是本申请应用实例中的电话信道声纹识别系统的结构示意图。
图10是本申请应用实例中的电话信道声纹识别系统中数据采集及预处理模块的逻辑结构示意图。
图11是本申请应用实例中的电话信道声纹识别系统中数据传输模块的逻辑结构示意图。
图12是本申请应用实例中的电话信道声纹识别系统中识别模块的逻辑结构示意图。
图13是本申请应用实例中的电话信道声纹识别系统中识别结果处理模块的逻辑结构示意图。
图14是本申请应用实例中的电话信道声纹识别系统中多模板注册模块的逻辑结构示意图。
图15是本申请应用实例中的数据采集及预处理模块实现的数据采集流程示意图。
图16是本申请应用实例中的数据传输模块实现的数据处理及传输流程示意图。
图17是本申请应用实例中的识别模块和识别结果处理模块实现的数据识别流程示意图。
图18是本申请应用实例中的多模板注册模块实现的多模板注册流程示意图。
图19是本申请实施例中的电子设备的结构示意图。
其中,图15至图18中的Y代表的含义为:是;N代表的含义为:否。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请公开的电话信道声纹识别方法和装置可用于金融技术领域,也可用于除金融之外的任意领域,本申请公开的电话信道声纹识别方法和装置的应用领域不做限定。
现有的电话信道声纹识别系统都有对采集到的声纹进行活体检测,并未对声纹进行变声攻击检测。变声攻击是一种人通过变声器来模拟他人的声音,进而攻破电话信道声纹识别系统的攻击手段。同时,大部分电话信道声纹识别场景声纹模板注册都是单模板注册,即一个用户(电话)ID只有一个声纹模板,针对于一个电话多个人接的场景,有可能会造成声纹误识。声纹攻击,声纹质量,声纹注册方式单一,这些都影响着电话信道声纹识别系统的识别准确率,同时也制约这电话系统声纹识别技术的广泛应用。
基于此,针对现有的电话信道声纹识别方法存在的无法适用于一个电话常被多个用户合法使用的情形,易出现电话信道声纹合法性误判或用户身份漏识的情况,因此无法保证电话信道声纹识别的准确性的问题,本申请提供一种电话信道声纹识别方法、电话信道声纹识别装置、电子设备和计算机可读存储介质,通过预先存储一个用户唯一标识与至少一个用户声纹模板特征之间的对应关系,能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,因此能够有效避免电话信道声纹合法性误判或用户身份漏识的情形出现,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性,进而能够有效提高根据电话信道声纹识别结果对用户诉求进行处理的效率及可靠性,能够有效提高通过拨打电话进行操作的用户体验。
本申请提及的一个电话号码日常被一个或者多个用户合法使用的情形,尤其针对以多人家庭为单元的座机号码、老年人与直系亲属共同合法使用的手机号码,或者未来可能出现的其他通信形式下的一个通信标识对应多个合法用户的情形等等,均能够有效提高电话信道声纹的识别全面性及准确性,有效避免声纹合法性误判或用户身份漏识,进而能够有效推进电话信道声纹技术的广泛应用。
具体通过下述各个实施例及应用实例分别进行详细说明。
为了解决现有的电话信道声纹识别方法存在的无法适用于一个电话常被多个用户合法使用的情形,易出现电话信道声纹合法性误判或用户身份漏识情况等问题,本申请提供一种电话信道声纹识别方法的实施例,参见图1,所述电话信道声纹识别方法具体包含有如下内容:
步骤110:接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,其中,所述唯一标识预先基于用户电话号码生成,且每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个。
在本申请的一个或多个实施例中,基于电话信道获取的目标有效语音是指目标企业可以通过与用户之间的电话实时语音采集或录音等获取的语音数据,并在对其进行与处理等安全性判别方式后,将该语音数据确认为有效语音数据,其中,目标有效语音是指当前正在处理的有效语音数据。
在本申请的一个或多个实施例中,唯一标识是指用于唯一表示用户电话号码的标识,预先基于用户电话号码生成,例如,唯一标识可以根据用户电话号码基于预设的编码规则进行编写,也可以使用用户的手机号码或者带有区号的座机号码来直接标识。
另外,声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱,也就是说,在本申请的一个或多个实施例中,用户声纹模板特征或者声纹特征的数据形式均为声波频谱数据。
在步骤110中,至少一个预存储的用户声纹模板特征是指一个或多个预存储的用户声纹模板特征,每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个,优选可以设置为3至5个,也可以基于用户偏好对每一个用户分别进行设置,例如,共用座机号码的一个家庭根据其家庭成员设置用户偏好为4个人,则该座机号码对应的唯一标识最多可以预先对应存储4个用户声纹模板特征,当然,在家庭成员发送变化后,在对用户请求进行验证后,也可以根据变更前的用户授权信息或其他验证信息等,将唯一标识对应的用户声纹模板特征进行替换更新,具体可以根据实际应用情形灵活设置。
步骤120:判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果。
从上述描述可知,本申请实施例提供的电话信道声纹识别方法,通过预先存储一个用户唯一标识与至少一个用户声纹模板特征之间的对应关系,能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,因此能够有效避免电话信道声纹合法性误判或用户身份漏识的情形出现,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性,进而能够有效提高根据电话信道声纹识别结果对用户诉求进行处理的效率及可靠性,能够有效提高通过拨打电话进行操作的用户体验。
为了提供一种多模板注册方式,在本申请提供的电话信道声纹识别方法的一个实施例中,参见图2,所述电话信道声纹识别方法还具体包含有如下内容:
步骤210:接收声纹注册请求,其中,该声纹注册请求中包括待注册有效语音及对应的唯一标识。
步骤220:若在预设的数据库中查找到所述待注册有效语音的唯一标识,则自所述数据库中获取该唯一标识对应的用户声纹模板特征的当前数量是否小于所述数量上限,若是,将基于所述唯一标识将所述待注册有效语音对应的声纹特征存储至所述数据库中,其中,所述数据库用于存储各个所述唯一标识和各个所述用户声纹模板特征之间的一对一或一对多关系。
具体来说,可以接收数据上送及多模板注册请求;将上送数据发送至模板数判断单元,根据上送用户ID,云端数据库搜索该ID对应的声纹模板数;判断该用户声纹是否超过模板数限制;当判断该用户声纹未超过模板数限制时,调用声纹多模板注册算法,进行声纹注册;声纹模板注册完成;若该用户声纹超过模板数限制,则拒绝注册请求。
从上述描述可知,本申请实施例提供的电话信道声纹识别方法,能够对一个电话号码注册一个或多个用户声纹模板特征,进而能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,因此能够有效避免电话信道声纹合法性误判或用户身份漏识的情形出现,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性。
为了提供一种有效语音采集方式,在本申请提供的电话信道声纹识别方法的一个实施例中,参见图3,所述电话信道声纹识别方法中的步骤110或210之前还具体包含有如下内容:
步骤310:基于电话信道采集目标语音,并对目标语音进行预处理以确定该目标语音是否为有效语音,若是,则判断所述有效语音的当前时长是否已达到识别长度阈值。
步骤320:若经判断获知所述有效语音的当前时长已达到所述识别长度阈值,则将该有效语音确定为目标有效语音并获取该目标有效语音对应的唯一标识;其中,所述预处理包括:活体检测、变声攻击和声纹质量检测中的至少一项。
从上述描述可知,本申请实施例提供的电话信道声纹识别方法,能够有效提高有效语音采集的准确性及可靠性,以提高电话信道声纹的识别安全性。
在一种步骤310的一种具体实现方式中,参见图4,所述电话信道声纹识别方法中的步骤310具体可以包含有如下内容:
步骤311:对所述目标语音进行活体检测以确定该目标语音是否为人声。
步骤312:若经所述活体检测确定所述目标语音为人声,则对该目标语音进行变声攻击检测以确定该目标语音是否为变声声纹。
步骤313:若经所述变声攻击检测获知所述目标语音对应的声纹为非变声声纹,则对该目标语音进行声纹质量检测以确定该目标语音的声纹质量是否存在质量缺陷,其中,所述质量缺陷包括:环境噪声、幅度超过幅度阈值的声段和长度小于语音长度阈值的语音中的至少一项。
步骤314:若经所述声纹质量检测获知所述目标语音中存在所述质量缺陷,则对所述目标语音中的质量缺陷进行过滤处理,并对应的过滤处理结果确定为所述目标语音对应的有效语音。
具体来说,在采集数据阶段,可以通过活体检测算法判定采集的声纹是人声还是机器声,若是机器声,则反馈根据应用方提供的声纹质量标准,将无效语音过滤,无效语音包括:短语音、幅度过高的语音和环境噪声。判断收集的有效语音是否达到规定时长,若收集到的语音时长未达到规定时长,则继续收集语音;若达到时长标准,则停止语音采集,并将采集的语音数据进行上送。
从上述描述可知,本申请实施例提供的电话信道声纹识别方法,通过顺序执行活体检测、变声攻击和声纹质量检测过程,能够进一步有效提高有效语音采集的准确性及可靠性,进而进一步提高电话信道声纹的识别安全性。
在一种步骤120的一种具体实现方式中,参见图5,所述电话信道声纹识别方法中的步骤120具体可以包含有如下内容:
步骤121:根据所述目标有效语音的唯一标识,分别获取该唯一标识对应的至少一个所述用户声纹模板特征分别与所述目标有效语音的声纹特征的相似度识别结果。
步骤122:在当前获取的至少一个所述相似度识别结果中,判断是否包含有等于或大于相似度阈值的相似度识别结果,若有,则获取所述目标有效语音的唯一标识对应的预存储身份信息,并将该预存储身份信息确认为所述目标有效语音的用户身份识别结果。
具体来说,可以辨认结果进行解析;判断辨认结果中是否存在超过阈值的识别相似度;当判断辨认结果中不存在超过阈值的识别相似度时,则说明云端数据库中不存在该声纹特征;当判断辨认结果中存在超过阈值的识别相似度时,则说明云端数据库中存在该声纹特征。
从上述描述可知,本申请实施例提供的电话信道声纹识别方法,通过应用相似度计算的方式,能够有效提高在各个所述用户声纹模板特征中判断是否包含有所述目标有效语音对应的声纹特征的效率及准确性。
为了提供一种黑名单识别方式,在本申请提供的电话信道声纹识别方法的一个实施例中,参见图6,所述电话信道声纹识别方法还具体包含有如下内容:
步骤610:接收声纹搜索请求,其中,该声纹搜索请求中包括待搜索有效语音及对应的唯一标识。
步骤620:在预设的黑名单中查找所述待搜索有效语音的唯一标识,若所述黑名单中未包含有该待搜索有效语音的唯一标识,则将所述待搜索有效语音的对应的用户信息确定为可执行用户信息。
具体可以判别上传数据中的分库ID是否为黑库ID;判别为黑库ID时,调用声纹搜索算法进行黑声纹库搜索;若搜索结果是包含用户及识别相似度的列表,对搜索结果进行解析;判断黑库搜索结果中是否存在超过阈值的识别相似度;当判断黑库搜索结果中存在超过阈值的识别相似度,则该声纹为黑库人员声纹,并将该结果反馈给前端交互界面,特征库中存在该声纹特征。
从上述描述可知,本申请实施例提供的电话信道声纹识别方法,通过黑名单识别的方式,能够进一步有效提高有效语音处理的准确性及可靠性,进而进一步提高电话信道声纹的识别安全性。
从软件层面来说,为了解决现有的电话信道声纹识别方法存在的无法适用于一个电话常被多个用户合法使用的情形,易出现电话信道声纹合法性误判或用户身份漏识情况等问题,本申请提供一种用于执行所述电话信道声纹识别方法中全部或部分内容的电话信道声纹识别装置的实施例,参见图7,所述电话信道声纹识别装置具体包含有如下内容:
特征提取模块11,用于接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,其中,所述唯一标识预先基于用户电话号码生成,且每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个。
在特征提取模块11中,至少一个预存储的用户声纹模板特征是指一个或多个预存储的用户声纹模板特征,每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个,优选可以设置为3至5个,也可以基于用户偏好对每一个用户分别进行设置,例如,共用座机号码的一个家庭根据其家庭成员设置用户偏好为4个人,则该座机号码对应的唯一标识最多可以预先对应存储4个用户声纹模板特征,当然,在家庭成员发送变化后,在对用户请求进行验证后,也可以根据变更前的用户授权信息或其他验证信息等,将唯一标识对应的用户声纹模板特征进行替换更新,具体可以根据实际应用情形灵活设置。
声纹辨认模块12,用于判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果。
本申请提供的电话信道声纹识别装置的实施例具体可以用于执行上述实施例中的电话信道声纹识别方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本申请实施例提供的电话信道声纹识别装置,通过预先存储一个用户唯一标识与至少一个用户声纹模板特征之间的对应关系,能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,因此能够有效避免电话信道声纹合法性误判或用户身份漏识的情形出现,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性,进而能够有效提高根据电话信道声纹识别结果对用户诉求进行处理的效率及可靠性,能够有效提高通过拨打电话进行操作的用户体验。
为了提供一种多模板注册方式,在本申请提供的电话信道声纹识别装置的一个实施例中,参见图8,所述电话信道声纹识别装置还具体包含有如下内容:
请求接收模块21,用于接收声纹注册请求,其中,该声纹注册请求中包括待注册有效语音及对应的唯一标识。
声纹注册模块22,用于若在预设的数据库中查找到所述待注册有效语音的唯一标识,则自所述数据库中获取该唯一标识对应的用户声纹模板特征的当前数量是否小于所述数量上限,若是,将基于所述唯一标识将所述待注册有效语音对应的声纹特征存储至所述数据库中,其中,所述数据库用于存储各个所述唯一标识和各个所述用户声纹模板特征之间的一对一或一对多关系。
具体来说,可以接收数据上送及多模板注册请求;将上送数据发送至模板数判断单元,根据上送用户ID,云端数据库搜索该ID对应的声纹模板数;判断该用户声纹是否超过模板数限制;当判断该用户声纹未超过模板数限制时,调用声纹多模板注册算法,进行声纹注册;声纹模板注册完成;若该用户声纹超过模板数限制,则拒绝注册请求。
从上述描述可知,本申请实施例提供的电话信道声纹识别装置,能够对一个电话号码注册一个或多个用户声纹模板特征,进而能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,因此能够有效避免电话信道声纹合法性误判或用户身份漏识的情形出现,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性。
为了提供一种有效语音采集方式,在本申请提供的电话信道声纹识别装置的一个实施例中,所述电话信道声纹识别装置还用于执行下述内容:
步骤310:基于电话信道采集目标语音,并对目标语音进行预处理以确定该目标语音是否为有效语音,若是,则判断所述有效语音的当前时长是否已达到识别长度阈值。
步骤320:若经判断获知所述有效语音的当前时长已达到所述识别长度阈值,则将该有效语音确定为目标有效语音并获取该目标有效语音对应的唯一标识;其中,所述预处理包括:活体检测、变声攻击和声纹质量检测中的至少一项。
从上述描述可知,本申请实施例提供的电话信道声纹识别装置,能够有效提高有效语音采集的准确性及可靠性,以提高电话信道声纹的识别安全性。
在一种步骤310的一种具体实现方式中,在本申请提供的电话信道声纹识别装置的一个实施例中,所述电话信道声纹识别装置还用于执行下述内容:
步骤311:对所述目标语音进行活体检测以确定该目标语音是否为人声。
步骤312:若经所述活体检测确定所述目标语音为人声,则对该目标语音进行变声攻击检测以确定该目标语音是否为变声声纹。
步骤313:若经所述变声攻击检测获知所述目标语音对应的声纹为非变声声纹,则对该目标语音进行声纹质量检测以确定该目标语音的声纹质量是否存在质量缺陷,其中,所述质量缺陷包括:环境噪声、幅度超过幅度阈值的声段和长度小于语音长度阈值的语音中的至少一项。
步骤314:若经所述声纹质量检测获知所述目标语音中存在所述质量缺陷,则对所述目标语音中的质量缺陷进行过滤处理,并对应的过滤处理结果确定为所述目标语音对应的有效语音。
具体来说,在采集数据阶段,可以通过活体检测算法判定采集的声纹是人声还是机器声,若是机器声,则反馈根据应用方提供的声纹质量标准,将无效语音过滤,无效语音包括:短语音、幅度过高的语音和环境噪声。判断收集的有效语音是否达到规定时长,若收集到的语音时长未达到规定时长,则继续收集语音;若达到时长标准,则停止语音采集,并将采集的语音数据进行上送。
从上述描述可知,本申请实施例提供的电话信道声纹识别装置,通过顺序执行活体检测、变声攻击和声纹质量检测过程,能够进一步有效提高有效语音采集的准确性及可靠性,进而进一步提高电话信道声纹的识别安全性。
在一种步骤120的一种具体实现方式中,在本申请提供的电话信道声纹识别装置的一个实施例中,所述电话信道声纹识别装置还用于执行下述内容:
步骤121:根据所述目标有效语音的唯一标识,分别获取该唯一标识对应的至少一个所述用户声纹模板特征分别与所述目标有效语音的声纹特征的相似度识别结果。
步骤122:在当前获取的至少一个所述相似度识别结果中,判断是否包含有等于或大于相似度阈值的相似度识别结果,若有,则获取所述目标有效语音的唯一标识对应的预存储身份信息,并将该预存储身份信息确认为所述目标有效语音的用户身份识别结果。
具体来说,可以辨认结果进行解析;判断辨认结果中是否存在超过阈值的识别相似度;当判断辨认结果中不存在超过阈值的识别相似度时,则说明云端数据库中不存在该声纹特征;当判断辨认结果中存在超过阈值的识别相似度时,则说明云端数据库中存在该声纹特征。
从上述描述可知,本申请实施例提供的电话信道声纹识别装置,通过应用相似度计算的方式,能够有效提高在各个所述用户声纹模板特征中判断是否包含有所述目标有效语音对应的声纹特征的效率及准确性。
为了提供一种黑名单识别方式,在本申请提供的电话信道声纹识别装置的一个实施例中,所述电话信道声纹识别装置还用于执行下述内容:
步骤610:接收声纹搜索请求,其中,该声纹搜索请求中包括待搜索有效语音及对应的唯一标识。
步骤620:在预设的黑名单中查找所述待搜索有效语音的唯一标识,若所述黑名单中未包含有该待搜索有效语音的唯一标识,则将所述待搜索有效语音的对应的用户信息确定为可执行用户信息。
具体可以判别上传数据中的分库ID是否为黑库ID;判别为黑库ID时,调用声纹搜索算法进行黑声纹库搜索;若搜索结果是包含用户及识别相似度的列表,对搜索结果进行解析;判断黑库搜索结果中是否存在超过阈值的识别相似度;当判断黑库搜索结果中存在超过阈值的识别相似度,则该声纹为黑库人员声纹,并将该结果反馈给前端交互界面,特征库中存在该声纹特征。
从上述描述可知,本申请实施例提供的电话信道声纹识别装置,通过黑名单识别的方式,能够进一步有效提高有效语音处理的准确性及可靠性,进而进一步提高电话信道声纹的识别安全性。
为了进一步说明本方案,本申请还提供一种应用电话信道声纹识别系统实现的电话信道声纹识别方法的具体应用实例,通过设计一种支持活体检测,变声攻击检测,声纹质量检测,并支持多模板注册的电话信道声纹识别系统,能有效提升电话信道声纹识别系统的识别准确率,继而保证电话信道声纹识别系统的安全性,推进电话信道声纹技术的广泛应用。
本申请应用实例提供了提升电话信道声纹识别场景识别准确率的电话信道声纹识别系统及方法,基于活体检测算法及变声攻击算法,能够保证电话信道声纹识别的安全性,基于质量检测算法,能确保采集的声纹质量。为覆盖一个电话多人使用的场景,提出了多模板注册方法及1:N辨认方法,通过声纹算法的有效结合,该申请应用实例一方面能够涵盖更多的电话信道声纹识别场景,一方面能够有效提升声纹识别准确率。
本申请应用实例提供了一种提升电话信道声纹识别场景识别准确率的电话信道声纹识别系统及方法。参见图9,所述电话信道声纹识别系统具体包含有数据采集及预处理模块1、数据传输模块2、识别模块3、识别结果处理模块4、多模板注册模块5。数据采集及预处理模块1、数据传输模块2、识别模块3、识别结果处理模块4和多模板注册模块5之间可使用socket/http方式进行数据通信。具体说明如下:
(1)数据采集及预处理模块1
参见图10,数据采集及预处理模块1用于有效语音的采集,功能包括:电话系统外呼电话、采集用户有效语音、语音活体检测、语音质量检测、有效语音时长判断,数据采集模块主要部署在电话外呼系统。
数据采集及预处理模块1主要完成声纹有效语音的采集功能。该数据采集及预处理模块1由语音收集模块及语音有效时长判断模块组成,语音收集模块及语音有效时长判断模块的功能是同时进行的。在采集数据阶段,语音收集模块通过活体检测算法,能够判定采集的声纹是人声还是机器声,若是机器声,则反馈根据应用方提供的声纹质量标准,通过声纹质量检测单元,将无效语音过滤,无效语音包括:短语音,幅度过高的语音,环境噪声。语音有效时长模块负责判断收集的有效语音是否达到规定时长,若语音收集模块收集到的语音时长未达到规定时长,则继续收集语音;若达到时长标准,则停止语音采集,并将采集的语音数据上送至数据传输模块2。
(2)数据传输模块2
参见图11,数据传输模块2负责有效语音存储,变声攻击检测,有效语音声纹特征提取,声纹特征数据上传,功能包括:当接收到声纹特征数据上传请求,调用变声攻击算法先对有效语音进行变声攻击检测,检测成功后,对有效语音进行特征提取,将声纹特征数据以http/socket方式上传至识别模块3,数据传输模块2主要部署在后端计算节点。
数据传输模块2主要完成有效语音的存储,有效语音声纹特征提取及声纹特征上传功能。将采集到的有效语音进行特征提取,并将提取到的特征上传至识别模块3进行声纹识别进行声纹辨认及声纹搜索处理。
(3)识别模块3
参见图12,识别模块3用于进行声纹特征辨认与搜索,功能包括:当接收到声纹特征识别请求时,根据用户ID,从云端数据库中筛选出该ID对应的特征列表,调用声纹识别算法将上送的声纹特征与筛选出的声纹特征列表,进行1:N辨认,即将上送特征与特征列表中的特征进行1:1认证,获取由用户id及识别相似度组成的列表,最后将列表信息发送至识别结果处理模块4;声纹辨认功能完成后,进行声纹辨认。根据上送的黑库ID(可信库ID)和声纹特征,调用搜索算法,进行黑声纹(可信声纹)搜索,获取识别相似度列表,最后将列表信息发送至识别结果处理模块4。识别模块3主要部署在后端计算节点。
识别模块3主要完成声纹特征辨认及声纹特征搜索功能。该模块由声纹1:N辨认模块和声纹搜索模块组成。当接收到声纹特征识别请求时,上送该用户ID及该用户的声纹特征,根据上送的用户ID,从云端声纹特征库中筛选出该用户ID对应的特征列表,然后将上送的特征与筛选出来的特征进行1:N辨认,也就是进行多次1:1认证,并将辨认结果下发至识别结果处理模块4。在完成声纹特征辨认功能后,进行声纹特征搜索,其中包括黑声纹库搜索及可信库搜索。首先,上送黑声纹库ID及声纹特征,将上送的声纹特征与云端特征库特征进行黑声纹搜索识别,并将搜索结果下发至识别结果处理模块4。其次,上送可信库ID及声纹特征,将上送的声纹特征与云端特征库特征进行黑声纹搜索识别,并将搜索结果下发至识别结果处理模块4。
(4)识别结果处理模块4
参见图13,识别结果处理模块4负责解析声纹特征识别结果,并将是否进行注册的请求发送至多模板注册模块5。当收到声纹辨认结果后,解析辨认结果,判断云端数据库是否存在该用户特征,如果不存在,则将需进行多模板注册请求下发至多模板注册模块5。当收到黑库声纹搜索结果后,解析搜索结果,判断该用户声纹是否为黑库声纹,若该声纹为黑库声纹,则无需下发注册请求至多模板注册模块,同理,对解析可信声纹搜索结果。识别结果处理模块4主要部署在后端计算节点。
识别结果处理模块4主要完成声纹辨认及声纹搜索结果的处理功能。该模块由声纹辨认结果处理模块及声纹搜索结果处理模块组成。声纹辨认结果是一个由用户ID及识别相似度组成的列表,当收到声纹辨认结果时,对声纹辨认结果进行解析,若该列表中存在超过阈值的相似度,则该模块就会发出不进行多模板注册的请求。若无超过阈值的相似度,则该模块就会发出用户需进行多模板注册的请求。声纹搜索结果是一个由识别相似度组成的列表,当黑声纹搜索结果中有超过阈值的识别相似度时,则发出黑声纹注册请求至多模板注册模块5;可信库搜索结果中有超过阈值的识别相似度时,则发出可信声纹注册请求至多模板注册模块5。
(5)多模板注册模块5
参见图14,多模板注册模块5负责多模板注册功能。当收到注册请求后,首先判断该用户对应的声纹是否超过模板数,若超过,则无需注册。否则,则进行声纹模板注册。
多模板注册模块5主要完成一个用户ID(电话ID)的多模板注册功能。即一个电话ID可注册多个不同人的声纹特征。当接收到注册请求时,将该用户ID及声纹信息注册到云端声纹特征库。
基于上述内容,参见图15,本申请应用实例的数据采集及预处理模块1实现的数据采集流程如下:
步骤S101:电话系统电话呼出;
步骤S102:发起声纹采集请求;
步骤S103:采集设备开始采集语音,并将采集到的语音送入活体检测单元;
步骤S104:活体检测单元将对收集到的语音进行活体检测,判断该声纹是人声还是机器声。
步骤S105:判断采集到的声纹是否为人声;
步骤S106:当判断采集到的声纹是人声时,将该声纹送入变声攻击算法检测单元;
步骤S107:判断该声纹是否为变声声纹;
步骤S108:当判断声纹不是变声声纹时,将声纹送入声纹质量检测单元;
步骤S109:判断该声纹中是否存在环境噪声,或者是否存在幅度过高的声段,或者是否存在短语音;
步骤S110:当判断存在环境噪声,或者存在幅度过高的声段,或者存在短语音,过滤声纹中的无效语音;
步骤S111:采集有效语音;
步骤S112:判断采集的有效语音时长是否达到规定时长
步骤S113:当有效语音时长达到规定时长时,有效语音采集完成;当未达到规定时长时,则返回步骤S111,绩效采集有效语音。
步骤S114:声纹有效语音采集流程结束。
步骤S115:当判断语音不是人声或者语音为变声语音时,则反馈后台,语音为非正常语音。
步骤S116:声纹有效语音采集流程结束。
参见图16,本申请应用实例的数据传输模块2实现的数据处理及传输流程如下:
步骤S201:声纹有效语音上送请求;
步骤S202:判断是否为注册请求;
步骤S203:若判断为注册请求,则将该声纹送入声纹注册算法单元,该单元调用声纹注册算法,对声纹进行特征提取;
步骤S204:注册声纹特征提取完成;
步骤S205:向后续模块发送注册声纹特征下发请求;
步骤S206:注册声纹数据处理及传输流程结束;
步骤S207:当判断非注册请求时,判断是否为1:N辨认请求;
步骤S208:若判断为1:N辨认请求,则将声纹送入声纹1:N辨认算法单元,该单元调用声纹1:N辨认算法,对声纹进行特征提取;
步骤S209:辨认声纹特提取完成;
步骤S210:向后续模块发送辨认声纹特征下发请求;
步骤S211:辨认声纹数据处理及传输流程结束;
步骤S212:当判断即不是注册请求,也不是1:N辨认请求时,判断是否为搜索请求。
步骤S213:当判断为搜索请求时,则将声纹送入声纹搜索算法单元,该单元调用声纹搜索算法,对声纹进行特征提取;
步骤S214:搜索声纹特征提取完成;
步骤S215:向后续模块发送搜索声纹特征下发请求;
步骤S216:搜索声纹数据处理及传输流程结束;
步骤S217:当判断即不是注册请求,也不是1:N辨认请求,也不是声纹搜索请求时,声纹特征上送请求拒绝;
步骤S218:声纹数据处理及传输流程结束。
参见图17,本申请应用实例的识别模块3和识别结果处理模块4实现的数据识别流程如下:
步骤S301:收到声纹数据上送请求;
步骤S302:判断是否为数据处理及传输模块下发的声纹辨认请求;
步骤S303:当判断为数据处理及传输模块下发的声纹辨认请求时,根据上送数据中的用户ID,在云端数据库筛选该ID对应的用户模板特征;
步骤S304:筛选结束后,判断是否特征筛选结果中是否有用户特征信息;
步骤S305:当判断特征筛选结果中有用户特征信息,则调用辨认算法,进行声纹辨认;
步骤S306:辨认结果是包含用户及识别相似度的列表,将辨认结果下发至识别结果处理模块;
步骤S307:当收到辨认结果后,对辨认结果进行解析;
步骤S308:判断辨认结果中是否存在超过阈值的识别相似度;
步骤S309:当判断辨认结果中不存在超过阈值的识别相似度时,则说明云端数据库中不存在该声纹特征,下发注册请求至多模板注册模块;
步骤S310:当判断辨认结果中存在超过阈值的识别相似度时,则说明云端数据库中存在该声纹特征,无需下发注册请求至多模板注册模块;
步骤S311:由步骤S302判别不是数据处理及传输模块下发的声纹辨认请求,判别上传数据中的分库ID是否为黑库ID;
步骤S312:由上一步骤判别为黑库ID时,调用声纹搜索算法,进行黑声纹库搜索;
步骤S313:搜索结果是包含用户及识别相似度的列表,将搜索结果下发至识别结果处理模块;
步骤S314:当收到黑库搜索结果后,对搜索结果进行解析;
步骤S315:判断黑库搜索结果中是否存在超过阈值的识别相似度;
步骤S316:当判断黑库搜索结果中存在超过阈值的识别相似度,则该声纹为黑库人员声纹,并将该结果反馈给前端交互界面,特征库中存在该声纹特征,无需下发多模板注册请求;
步骤S317:由步骤S311判断上送数据中分库ID不是黑库ID时,调用声纹搜索算法,进行可信声纹库搜索;
步骤S318:搜索结果是包含用户及识别相似度的列表,将搜索结果下发至识别结果处理模块;
步骤S319:当收到可信库搜索结果后,对搜索结果进行解析;
步骤S320:判断可信库搜索结果中是否存在超过阈值的识别相似度;
步骤S321:当判断可信库搜索结果中存在超过阈值的识别相似度,则该声纹为可信库人员声纹,并将该结果反馈给前端交互界面,特征库中存在该声纹特征,无需下发多模板注册请求;
步骤S322:由步骤S315及步骤S320判断搜索结果中不存在超过阈值的识别相似度,以及步骤S309和步骤S310完成后,识别及识别结果解析流程结束。
参见图18,本申请应用实例的多模板注册模块5实现的多模板注册流程如下:
步骤S401:接收数据上送及多模板注册请求;
步骤S402:将上送数据发送至模板数判断单元,根据上送用户ID,云端数据库搜索该ID对应的声纹模板数;
步骤S403:判断该用户声纹是否超过模板数限制;
步骤S404:当判断该用户声纹未超过模板数限制时,调用声纹多模板注册算法,进行声纹注册;
步骤S405:声纹模板注册完成;
步骤S406:由步骤S403判读的该用户声纹超过模板数限制,拒绝注册请求;
步骤S407:声纹多模板注册流程结束。
综上所述,本申请应用实例提供了一种提升电话信道声纹识别场景识别准确率的系统和方法,通过该系统及方法能够有效抵御各种声纹攻击,保证了电话信道声纹识别系统的安全性,提升了采集声纹的质量,能够有效提升电话信道声纹系统的识别准确率,涵盖了更多的电话信道声纹识别场景,有利于电话信道声纹识别技术的广泛应用。
从硬件层面来说,为了解决现有的电话信道声纹识别方法存在的无法适用于一个电话常被多个用户合法使用的情形,易出现电话信道声纹合法性误判或用户身份漏识情况等问题,本申请提供一种用于实现所述电话信道声纹识别方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
图19为本申请实施例的电子设备9600的系统构成的示意框图。如图19所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图19是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,电话信道声纹识别功能可以被集成到中央处理器中。其中,中央处理器可以被配置为进行如下控制:
步骤110:接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,其中,所述唯一标识预先基于用户电话号码生成,且每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个。
在步骤110中,至少一个预存储的用户声纹模板特征是指一个或多个预存储的用户声纹模板特征,每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个,优选可以设置为3至5个,也可以基于用户偏好对每一个用户分别进行设置,例如,共用座机号码的一个家庭根据其家庭成员设置用户偏好为4个人,则该座机号码对应的唯一标识最多可以预先对应存储4个用户声纹模板特征,当然,在家庭成员发送变化后,在对用户请求进行验证后,也可以根据变更前的用户授权信息或其他验证信息等,将唯一标识对应的用户声纹模板特征进行替换更新,具体可以根据实际应用情形灵活设置。
步骤120:判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果。
从上述描述可知,本申请实施例提供的电子设备,通过预先存储一个用户唯一标识与至少一个用户声纹模板特征之间的对应关系,能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,因此能够有效避免电话信道声纹合法性误判或用户身份漏识的情形出现,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性,进而能够有效提高根据电话信道声纹识别结果对用户诉求进行处理的效率及可靠性,能够有效提高通过拨打电话进行操作的用户体验。
在另一个实施方式中,电话信道声纹识别装置可以与中央处理器9100分开配置,例如可以将电话信道声纹识别装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现电话信道声纹识别功能。
如图19所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图19中所示的所有部件;此外,电子设备9600还可以包括图19中没有示出的部件,可以参考现有技术。
如图19所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的电话信道声纹识别方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的电话信道声纹识别方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤110:接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,其中,所述唯一标识预先基于用户电话号码生成,且每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个。
在步骤110中,至少一个预存储的用户声纹模板特征是指一个或多个预存储的用户声纹模板特征,每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个,优选可以设置为3至5个,也可以基于用户偏好对每一个用户分别进行设置,例如,共用座机号码的一个家庭根据其家庭成员设置用户偏好为4个人,则该座机号码对应的唯一标识最多可以预先对应存储4个用户声纹模板特征,当然,在家庭成员发送变化后,在对用户请求进行验证后,也可以根据变更前的用户授权信息或其他验证信息等,将唯一标识对应的用户声纹模板特征进行替换更新,具体可以根据实际应用情形灵活设置。
步骤120:判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过预先存储一个用户唯一标识与至少一个用户声纹模板特征之间的对应关系,能够有效适用于一个电话号码日常被一个或者多个用户合法使用的情形,因此能够有效避免电话信道声纹合法性误判或用户身份漏识的情形出现,进而能够在保证电话信道声纹识别安全性的同时,有效提高电话信道声纹的识别全面性及准确性,进而能够有效提高根据电话信道声纹识别结果对用户诉求进行处理的效率及可靠性,能够有效提高通过拨打电话进行操作的用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种电话信道声纹识别方法,其特征在于,包括:
接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,其中,所述唯一标识预先基于用户电话号码生成,且每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个;
判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果。
2.根据权利要求1所述的电话信道声纹识别方法,其特征在于,还包括:
接收声纹注册请求,其中,该声纹注册请求中包括待注册有效语音及对应的唯一标识;
若在预设的数据库中查找到所述待注册有效语音的唯一标识,则自所述数据库中获取该唯一标识对应的用户声纹模板特征的当前数量是否小于所述数量上限,若是,将基于所述唯一标识将所述待注册有效语音对应的声纹特征存储至所述数据库中,其中,所述数据库用于存储各个所述唯一标识和各个所述用户声纹模板特征之间的一对一或一对多关系。
3.根据权利要求1所述的电话信道声纹识别方法,其特征在于,在所述接收基于电话信道获取的目标有效语音及对应的唯一标识之前,还包括:
基于电话信道采集目标语音,并对目标语音进行预处理以确定该目标语音是否为有效语音,若是,则判断所述有效语音的当前时长是否已达到识别长度阈值;
若经判断获知所述有效语音的当前时长已达到所述识别长度阈值,则将该有效语音确定为目标有效语音并获取该目标有效语音对应的唯一标识;
其中,所述预处理包括:活体检测、变声攻击和声纹质量检测中的至少一项。
4.根据权利要求3所述的电话信道声纹识别方法,其特征在于,所述基于电话信道采集目标语音,并对目标语音进行预处理以确定该目标语音是否为有效语音,包括:
对所述目标语音进行活体检测以确定该目标语音是否为人声;
若经所述活体检测确定所述目标语音为人声,则对该目标语音进行变声攻击检测以确定该目标语音是否为变声声纹;
若经所述变声攻击检测获知所述目标语音对应的声纹为非变声声纹,则对该目标语音进行声纹质量检测以确定该目标语音的声纹质量是否存在质量缺陷,其中,所述质量缺陷包括:环境噪声、幅度超过幅度阈值的声段和长度小于语音长度阈值的语音中的至少一项;
若经所述声纹质量检测获知所述目标语音中存在所述质量缺陷,则对所述目标语音中的质量缺陷进行过滤处理,并对应的过滤处理结果确定为所述目标语音对应的有效语音。
5.根据权利要求1所述的电话信道声纹识别方法,其特征在于,所述判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果,包括:
根据所述目标有效语音的唯一标识,分别获取该唯一标识对应的至少一个所述用户声纹模板特征分别与所述目标有效语音的声纹特征的相似度识别结果;
在当前获取的至少一个所述相似度识别结果中,判断是否包含有等于或大于相似度阈值的相似度识别结果,若有,则获取所述目标有效语音的唯一标识对应的预存储身份信息,并将该预存储身份信息确认为所述目标有效语音的用户身份识别结果。
6.根据权利要求1至5任一项所述的电话信道声纹识别方法,其特征在于,还包括:
接收声纹搜索请求,其中,该声纹搜索请求中包括待搜索有效语音及对应的唯一标识;
在预设的黑名单中查找所述待搜索有效语音的唯一标识,若所述黑名单中未包含有该待搜索有效语音的唯一标识,则将所述待搜索有效语音的对应的用户信息确定为可执行用户信息。
7.一种电话信道声纹识别装置,其特征在于,包括:
特征提取模块,用于接收基于电话信道获取的目标有效语音及对应的唯一标识,并查找该唯一标识对应的至少一个预存储的用户声纹模板特征,其中,所述唯一标识预先基于用户电话号码生成,且每个所述唯一标识对应的用户声纹模板特征的数量上限等于或大于两个;
声纹辨认模块,用于判断各个所述用户声纹模板特征中是否包含有所述目标有效语音对应的声纹特征,若是,则将所述目标有效语音的唯一标识对应的预存储身份信息确认为所述目标有效语音的用户身份识别结果。
8.根据权利要求7所述的电话信道声纹识别装置,其特征在于,还包括:
请求接收模块,用于接收声纹注册请求,其中,该声纹注册请求中包括待注册有效语音及对应的唯一标识;
声纹注册模块,用于若在预设的数据库中查找到所述待注册有效语音的唯一标识,则自所述数据库中获取该唯一标识对应的用户声纹模板特征的当前数量是否小于所述数量上限,若是,将基于所述唯一标识将所述待注册有效语音对应的声纹特征存储至所述数据库中,其中,所述数据库用于存储各个所述唯一标识和各个所述用户声纹模板特征之间的一对一或一对多关系。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的电话信道声纹识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述的电话信道声纹识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011496601.8A CN112509586A (zh) | 2020-12-17 | 2020-12-17 | 电话信道声纹识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011496601.8A CN112509586A (zh) | 2020-12-17 | 2020-12-17 | 电话信道声纹识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112509586A true CN112509586A (zh) | 2021-03-16 |
Family
ID=74922095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011496601.8A Pending CN112509586A (zh) | 2020-12-17 | 2020-12-17 | 电话信道声纹识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112509586A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113506577A (zh) * | 2021-06-25 | 2021-10-15 | 贵州电网有限责任公司 | 一种基于增量采集电话录音完善声纹库的方法 |
CN113873088A (zh) * | 2021-10-29 | 2021-12-31 | 平安科技(深圳)有限公司 | 语音通话的交互方法、装置、计算机设备和存储介质 |
CN113948092A (zh) * | 2021-09-01 | 2022-01-18 | 联通(广东)产业互联网有限公司 | 基于声纹的目标人物识别方法、系统、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006130958A1 (en) * | 2005-06-06 | 2006-12-14 | Edward Tomes | Voice authentication system and methods therefor |
JP2007052496A (ja) * | 2005-08-15 | 2007-03-01 | Advanced Media Inc | ユーザ認証システム及びユーザ認証方法 |
CN108766444A (zh) * | 2018-04-09 | 2018-11-06 | 平安科技(深圳)有限公司 | 用户身份验证方法、服务器及存储介质 |
CN109450850A (zh) * | 2018-09-26 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 身份验证方法、装置、计算机设备和存储介质 |
CN109493494A (zh) * | 2018-12-15 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 基于智能锁的开锁方法、装置、设备及介质 |
CN110300086A (zh) * | 2018-03-22 | 2019-10-01 | 北京语智科技有限公司 | 身份识别方法、装置、系统及设备 |
CN110459242A (zh) * | 2019-08-21 | 2019-11-15 | 广州国音智能科技有限公司 | 变声检测方法、终端及计算机可读存储介质 |
-
2020
- 2020-12-17 CN CN202011496601.8A patent/CN112509586A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006130958A1 (en) * | 2005-06-06 | 2006-12-14 | Edward Tomes | Voice authentication system and methods therefor |
JP2007052496A (ja) * | 2005-08-15 | 2007-03-01 | Advanced Media Inc | ユーザ認証システム及びユーザ認証方法 |
CN110300086A (zh) * | 2018-03-22 | 2019-10-01 | 北京语智科技有限公司 | 身份识别方法、装置、系统及设备 |
CN108766444A (zh) * | 2018-04-09 | 2018-11-06 | 平安科技(深圳)有限公司 | 用户身份验证方法、服务器及存储介质 |
CN109450850A (zh) * | 2018-09-26 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 身份验证方法、装置、计算机设备和存储介质 |
CN109493494A (zh) * | 2018-12-15 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 基于智能锁的开锁方法、装置、设备及介质 |
CN110459242A (zh) * | 2019-08-21 | 2019-11-15 | 广州国音智能科技有限公司 | 变声检测方法、终端及计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113506577A (zh) * | 2021-06-25 | 2021-10-15 | 贵州电网有限责任公司 | 一种基于增量采集电话录音完善声纹库的方法 |
CN113948092A (zh) * | 2021-09-01 | 2022-01-18 | 联通(广东)产业互联网有限公司 | 基于声纹的目标人物识别方法、系统、装置及存储介质 |
CN113873088A (zh) * | 2021-10-29 | 2021-12-31 | 平安科技(深圳)有限公司 | 语音通话的交互方法、装置、计算机设备和存储介质 |
CN113873088B (zh) * | 2021-10-29 | 2023-08-15 | 平安科技(深圳)有限公司 | 语音通话的交互方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112509586A (zh) | 电话信道声纹识别方法及装置 | |
CN104270404B (zh) | 一种基于终端标识的登录方法及装置 | |
EP3327720A1 (en) | User voiceprint model construction method, apparatus, and system | |
WO2016169095A1 (zh) | 终端的报警方法及装置 | |
CN111583907B (zh) | 信息处理方法、装置及存储介质 | |
CN109542216B (zh) | 人机交互方法、系统、计算机设备及存储介质 | |
CN107205097B (zh) | 移动终端查找方法、装置以及计算机可读存储介质 | |
CN112148922A (zh) | 会议记录方法、装置、数据处理设备及可读存储介质 | |
CN109086276B (zh) | 数据翻译方法、装置、终端及存储介质 | |
CN109065051B (zh) | 一种语音识别处理方法及装置 | |
CN111583919B (zh) | 信息处理方法、装置及存储介质 | |
CN108920640B (zh) | 基于语音交互的上下文获取方法及设备 | |
CN111312283B (zh) | 跨信道声纹处理方法及装置 | |
CN104980580A (zh) | 短信息查看方法及装置 | |
CN109785834B (zh) | 一种基于验证码的语音数据样本采集系统及其方法 | |
CN111883140A (zh) | 基于知识图谱和声纹识别的认证方法、装置、设备及介质 | |
CN111507256A (zh) | 一种用于柜台信息采集的人脸识别系统 | |
CN111611437A (zh) | 一种防止人脸声纹验证替换攻击的方法及装置 | |
CN111626061A (zh) | 会议记录生成方法、装置、设备及可读存储介质 | |
KR20190119521A (ko) | 전자 장치 및 그 동작 방법 | |
CN110767229B (zh) | 基于声纹的音频输出方法、装置、设备及可读存储介质 | |
CN111161710A (zh) | 同声传译方法、装置、电子设备及存储介质 | |
CN108153568B (zh) | 一种信息处理方法及电子设备 | |
CN111988426B (zh) | 基于声纹识别的通信方法、装置、智能终端及存储介质 | |
CN113839852B (zh) | 邮件账号异常检测方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |