CN111312258A - 用户的身份认证方法、装置、服务器及存储介质 - Google Patents

用户的身份认证方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111312258A
CN111312258A CN201911293590.0A CN201911293590A CN111312258A CN 111312258 A CN111312258 A CN 111312258A CN 201911293590 A CN201911293590 A CN 201911293590A CN 111312258 A CN111312258 A CN 111312258A
Authority
CN
China
Prior art keywords
user
spectrogram
blacklist
identity
code vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911293590.0A
Other languages
English (en)
Inventor
杨楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suishou Beijing Information Technology Co ltd
Original Assignee
Suishou Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suishou Beijing Information Technology Co ltd filed Critical Suishou Beijing Information Technology Co ltd
Priority to CN201911293590.0A priority Critical patent/CN111312258A/zh
Publication of CN111312258A publication Critical patent/CN111312258A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明公开了一种用户的身份认证方法、装置、服务器及存储介质。用户的身份认证方法,包括:获取用户的语音信号的谱图,所述谱图为频谱图或能量谱图;将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量;判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量;若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。本发明通过判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量达到了降低根据用户的语音信号识别黑名单用户的计算难度和耗资源占空间的效果。还达到了减轻人工信审的工作压力,提高办公效率,帮助服务方避开黑名单用户,减少不必要的损失的效果。

Description

用户的身份认证方法、装置、服务器及存储介质
技术领域
本发明实施例涉及身份识别技术,尤其涉及一种用户的身份认证方法、装置、服务器及存储介质。
背景技术
在金融相关业务中,为了避免损失,需要准确识别用户是否为失信的黑名单用户,而人的声纹(用于表达声音特征)如同人脸、指纹、虹膜等生物特征一样,具有独特性,一个人的声纹一旦被采集建库,无论此人冒用谁的身份,都将会被识别出来。现有的声纹识别通常的方法是在语音信号中提取MFCC特征,再训练GMM-UBM模型来识别语音信号中的声纹信息,需要为每一个注册用户生成一个GMM-UBM模型。从存储的角度出发,一个用户对应一个GMM-UBM模型,而每个模型消耗的存储空间又相对较大;另一方面,认证阶段,每一次都要将待识别用户和黑名单中的千万个模型作比对,计算量也非常的大,对于服务器集群来说,占用的资源也较多;并且数量较多的模型的维护成本也很高,此外MFCC特征提取过程中还筛掉很多有效信息,使其对声纹描述的准确性降低,导致金融业务信审中识别用户身份的准确性降低。
发明内容
本发明提供一种用户的身份认证方法、装置、服务器及存储介质,以实现降低识别黑名单用户的计算难度和耗资源占空间,提升信审工作的提高办公效率和准确性。
第一方面,本发明实施例提供了一种用户的身份认证方法,包括:
获取用户的语音信号的谱图,所述谱图为频谱图或能量谱图;
将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量;
判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量;
若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。
可选的,所述获取用户的语音信号的谱图包括:
根据所述语音信号获取所述语音信号的谐波信号和冲击波信号;
分别获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图;
将所述原始声音谱图、所述谐波谱图和所述冲击波谱图堆叠为所述谱图。可选的,所述谱图为能量谱图,所述获取用户的语音信号的谱图包括:
根据所述语音信号获取所述语音信号的谐波信号和冲击波信号;
分别获取所述语音信号的原始声音梅尔能量谱图、所述谐波信号的谐波梅尔能量谱图和所述冲击波信号的冲击波梅尔能量谱图;
将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为谱图。
可选的,所述获取用户的语音信号的谱图之前,还包括:
根据采集到的所述用户录入的声音片段获取声音信号;
滤除所述声音信号的静音片段以获得所述用户的所述语音信号。
可选的,所述根据采集到的所述用户的声音片段获取声音信号之前,还包括:
接收所述用户提供的身份认证资料,所述身份认证资料包括所述用户录入的所述声音片段及个人照片、证件图片、银行账号、手机号码、姓名和身份证账号的一种或多种。
可选的,所述判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量之时,还包括:
判断所述身份编码向量是否命中用户白名单数据库中的白名单编码向量;
若所述身份编码向量命中所述用户白名单数据库中的所述白名单编码向量,则确认所述用户为白名单用户。
可选的,所述判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量和判断所述身份编码向量是否命中用户白名单数据库中的白名单编码向量之后,还包括:
若所述身份编码向量既未命中用户黑名单数据库中的黑名单编码向量,又未命中用户黑名单数据库中的黑名单编码向量,则建立人工审核工单以提示工作人员审查所述用户的身份认证资料。
第二方面,本发明实施例还提供了一种用户的身份认证装置,包括:
谱图获取模块,用于获取用户的语音信号的谱图;
身份编码向量获取模块,用于将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量;
第一判断模块,用于判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量;
黑名单用户确认模块,用于若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。
第三方面,本发明实施例还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述中任一所述的用户的身份认证方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述中任一所述的用户的身份认证方法。
本发明通过将语音信号转化为谱图,将谱图输入身份编码模型中以获得所述谱图的身份编码向量,再通过判断身份编码向量是否命中黑名单数据库中的黑名单编码向量来识别用户是否为黑名单用户,即将用户的语音信号转化为谱图对应的身份编码向量,由于身份编码向量维度低,但个体表征性强,易于存储、易于计算的特点,解决了根据用户的语音信号识别黑名单用户计算复杂且耗资源占用大的问题,达到了降低根据用户的语音信号识别黑名单用户的计算难度和耗资源占空间的效果。还达到了减轻人工信审的工作压力,提高办公效率,帮助服务方避开黑名单用户,减少不必要的损失的效果。
附图说明
下面将通过参照附图详细描述本发明的示例性实施例,使本领域的普通技术人员更清楚本发明实施例的上述及其他特征和优点,附图中:
图1是本发明实施例一中的用户的身份认证方法的流程图;
图2是本发明实施例一中的用户的身份认证方法的流程图;
图3是本发明实施例一中替代实施例的用户的身份认证方法的流程图;
图4是本发明实施例二中的用户的身份认证方法的流程图;
图5是本发明实施例二中的用户的身份认证方法的流程图;
图6是本发明实施例三中的用户的身份认证方法的流程图;
图7是本发明实施例四中的用户的身份认证装置的示意图;
图8是本发明实施例四中替代实施例的用户的身份认证装置的示意图;
图9是本发明实施例四中替代实施例的用户的身份认证装置的示意图;
图10是本发明实施例四中替代实施例的用户的身份认证装置的示意图;
图11是本发明实施例四中替代实施例的用户的身份认证装置的示意图;
图12是本发明实施例四中替代实施例的用户的身份认证装置的示意图;
图13是本发明实施例五中的服务器的示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对发明的限定。另外还需要说明的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本发明的范围的情况下,可以将第二判断模块为第二判断模块,且类似地,可将第二判断模块称为第二判断模块。第二判断模块和第二判断模块两者都是判断模块,但其不是同一判断模块。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的用户的身份认证方法的流程图,具体包括如下步骤:
步骤110、获取用户的语音信号的谱图,所述谱图为频谱图或能量谱图。
示例性的,当谱图为语音频谱图时,具体的,可以先获得语音信号的时域函数,将时域函数进行傅里叶变换或者拉普拉斯变换得到频域函数,优选的,将时域函数进行短时傅里叶变换(STFT)得到频域函数,再根据频域函数画出的波形图即为语音频谱图。
示例性的,当谱图为语音能量谱图时,本实施例中以能量谱图为梅尔能量谱图为例,可以先获得语音信号的时域函数,将时域函数进行傅里叶变换或者拉普拉斯变换得到频域函数,将频域函数输入通过梅尔标度滤波器组以获得语音信号的原始声音梅尔能量谱图。
本实施例中,在获取用户的语音信号的谱图之前还需要获取用户的语音信号,参见图2,本实施例中获取用户的语音信号包括步骤101和步骤102,具体的:
步骤101、根据采集到的所述用户录入的声音片段获取声音信号。
本实施例中,用户录入的语音信号可以是用户在注册账户或请求更高权限的功能时按照服务方要求录入的说话的声音片段,示例性的,声音片段可以是用户说出朗读指定的文字的录音片段。
步骤102、滤除所述声音信号的静音片段以获得所述用户的所述语音信号。
本实施例中,用户在录入的自己说话的声音片段时,可能会存在停顿间隙,将用户停顿的间隙滤除之后获得语音信号主要为用户说话时的语音信号,可以更加准确的表达用户的声纹。
在一些实施例中,在滤除所述声音信号的静音片段之前或之后还包括:采用低通滤波器处理声音信号去除背景噪音的影响,以使语音信号更加准确的表达用户的声纹。
步骤120、将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量。
本实施例中,身份编码模型为CNN、RNN、LSTM、GRU等模型结构结合模型,具体的模型训练方式为:以交叉熵为损失函数,采用至少一个千人的谱图训练分类模型,这至少一个千人的谱图都包含特有的特征向量;在分类模型收敛后,舍弃分类层,并将倒数第二层的全连接层作为输出层,最终,获得的模型即可作为身份编码模型,将谱图输入身份编码模型即可获得身份编码向量。
步骤130、判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量。
本实施例中,黑名单编码向量为事先被人工标记为黑名单用户的身份编码向量。身份编码向量是否命中用户黑名单数据库中的黑名单编码向量具体为当前身份编码向量与黑名单数据库中的其中一个黑名单编码向量相同。具体的,黑名单用户为标记为黑中介、诈骗团伙的用户。
步骤140、若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。
本实施例的技术方案,通过将语音信号转化为谱图,将谱图输入身份编码模型中以获得所述谱图的身份编码向量,再通过判断身份编码向量是否命中黑名单数据库中的黑名单编码向量来识别用户是否为黑名单用户,即将用户的语音信号转化为谱图对应的身份编码向量,由于身份编码向量维度低,但个体表征性强,易于存储、易于计算的特点,解决了根据用户语音信号识别黑名单用户计算复杂且耗资源占用大的问题,达到了降低根据用户的语音信号识别黑名单用户的计算难度和耗资源占空间的效果。还达到了减轻人工信审的工作压力,提高办公效率,帮助服务方避开黑名单用户,减少不必要的损失的效果。
替代实施例中,参见图3,所述谱图为谱图,所述获取用户的语音信号的谱图包括:
步骤111、根据所述语音信号获取所述语音信号的谐波信号和冲击波信号;
本替代实施例中,语音信号通过HPSS(谐波冲击波源分离)算法将语音信号分离为谐波信号和冲击波信号。
步骤112、分别获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图。
本替代实施例中原始声音谱图为原始声音频谱图或原始声音能量谱图,谐波谱图为谐波频谱图或谐波能量谱图,冲击波谱图为冲击波频谱图或冲击波能量谱图。
步骤113、将所述原始声音谱图、所述谐波谱图和所述冲击波谱图堆叠为所述谱图。
本替代实施例的技术方案通过语音信号获取所述语音信号的谐波信号和冲击波信号,再获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图,并分别将原始声音谱图、谐波谱图和冲击波谱图堆叠为谱图,本方案解决了单种谱图识别准确度较低问题,相比于单种的谱图,堆叠的谱图的提高了对用户的声音特性描述的准确性和完整性,进一步提高了后续判断身份编码向量是否命中黑名单数据库中的黑名单编码向量来识别用户是否为黑名单用户的准确率的效果。
实施例二
图4为本发明实施例二提供的用户的身份认证方法的流程图,具体包括如下步骤:
步骤210、获取用户的语音信号的谱图。
本实施例中,参见图5,步骤210还包括步骤211至步骤213,具体的:
步骤211、根据所述语音信号获取所述语音信号的谐波信号和冲击波信号;
本实施例中,语音信号通过HPSS(谐波冲击波源分离)算法将语音信号分离为谐波信号和冲击波信号。
步骤212、分别获取所述语音信号的原始声音梅尔能量谱图、所述谐波信号的谐波梅尔能量谱图和所述冲击波信号的冲击波梅尔能量谱图;
本实施例中,梅尔能量谱图是模拟人的听觉系统对声音的描述。梅尔能量谱图更加适合用来表征人的声音特性,并且可以更加全面展示人说话的声音特性。
示例性的,获取语音信号的原始声音梅尔能量谱图包括:可以先获得语音信号的时域函数,将时域函数进行傅里叶变换或者拉普拉斯变换得到频域函数,优选的,将时域函数进行短时傅里叶变换(STFT)得到频域函数,再根据频域函数,将频域函数输入通过梅尔滤波器组以获得语音信号的原始声音梅尔能量图。前述原始声音梅尔能量谱图的获取方法中,将语音信号替换为谐波信号或冲击波信号还可以用来获取谐波梅尔能量谱图或冲击波梅尔能量谱图。
步骤213、将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为谱图。
本实施例中,将将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为谱图进行堆叠为谱图,堆叠后而成的谱图相比于单张能量谱图通道更多,携带的信息也更加全面。
本实施例中,将语音信号、谐波信号和冲击波信号转化为原始声音梅尔能量谱图、谐波梅尔能量谱图和冲击波梅尔能量谱图之后,语音信号、谐波信号和冲击波信号就转变成了携带用户声纹的图像,将原始声音梅尔能量谱图、谐波梅尔能量谱图和冲击波梅尔能量谱图堆叠形成的谱图相当于一个具有三通道的图像,原始声音梅尔能量谱图、谐波梅尔能量谱图和冲击波梅尔能量谱图依次对应一个通道。
步骤220、将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量。
本实施例中,身份编码模型为CNN、RNN、LSTM、GRU等模型结构结合模型,具体的模型训练方式为:以交叉熵为损失函数,采用至少一个千人的谱图训练分类模型,这至少一个千人的谱图都包含特有的特征向量;在分类模型收敛后,舍弃分类层,并将倒数第二层的全连接层作为输出层,最终,获得的模型即可作为身份编码模型,将谱图输入身份编码模型即可获得身份编码向量。
本实施例中,在步骤210中形成的堆叠形成的谱图相当于一个具有三通道的图像,在本步骤中,将图像输入身份编码模型后,需要依次对每个通道的进行卷积并求和。
步骤230、判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量。
本实施例中,黑名单编码向量为事先被人工标记为黑名单用户的身份编码向量。身份编码向量是否命中用户黑名单数据库中的黑名单编码向量具体为当前身份编码向量与黑名单数据库中的其中一个黑名单编码向量相同。具体的,黑名单用户为标记为黑中介、诈骗团伙的用户。
步骤240、若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。
本实施例的技术方案,通过语音信号获取所述语音信号的谐波信号和冲击波信号,再获取所述语音信号的原始声音梅尔能量谱图、所述谐波信号的谐波梅尔能量谱图和所述冲击波信号的冲击波梅尔能量谱图,并分别将原始声音梅尔能量谱图、谐波梅尔能量谱图和冲击波梅尔能量谱图堆叠为谱图,本方案解决了单种谱图识别准确度较低问题,相比于单种的谱图,堆叠的谱图的提高了对用户的声音特性描述的准确性和完整性,进一步提高了后续判断身份编码向量是否命中黑名单数据库中的黑名单编码向量来识别用户是否为黑名单用户的准确率的效果。
实施例三
图6为本发明实施例三提供的用户的身份认证方法的流程图,具体包括如下步骤:
步骤310、接收所述用户提供的身份认证资料,所述身份认证资料包括所述用户录入的所述声音片段及个人照片、证件图片、银行账号、手机号码、姓名和身份证账号的一种或多种。
本实施例中,在用户在注册账户或请求更高权限的功能时,服务方会向用户请求获取身份认证资料,用户如果需要进行下一步操作,则需向服务方提供身份认证资料。
步骤320、根据采集到的所述用户录入的声音片段获取声音信号。
本实施例中,用户录入的语音信号可以是用户在注册账户或请求更高权限的功能时按照服务方要求录入的说话的声音片段,示例性的,声音片段可以是用户说出朗读指定的文字的录音片段。
步骤330、滤除所述声音信号的静音片段以获得所述用户的所述语音信号。
本实施例中,用户在录入的自己说话的声音片段时,可能会存在停顿间隙,将用户停顿的间隙滤除之后获得语音信号主要为用户说话时的语音信号,可以更加准确的表达用户的声纹。
在一些实施例中,在滤除所述声音信号的静音片段还包括:采用低通滤波器处理声音信号去除背景噪音的影响,以使语音信号更加准确的表达用户的声纹。
步骤340、获取用户的语音信号的谱图。
本实施例中,示例性的,谱图为语音频谱图,具体的,可以先获得语音信号的时域函数,将时域函数进行傅里叶变换或者拉普拉斯变换得到频域函数,优选的,将时域函数进行短时傅里叶变换(STFT)得到频域函数,再根据频域函数画出的波形图即为语音频谱图。
在一些实施例中,谱图多张频谱图或多张能量谱图堆叠的,具体的获取方式可以参照步骤111-步骤113的方法或步骤210的方法。
步骤350、将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量。
本实施例中,身份编码模型为CNN、RNN、LSTM、GRU等模型结构结合模型,具体的模型训练方式为:以交叉熵为损失函数,采用至少一个千人的谱图训练分类模型,这至少一个千人的谱图都包含特有的特征向量;在分类模型收敛后,舍弃分类层,并将倒数第二层的全连接层作为输出层,最终,获得的模型即可作为身份编码模型,将谱图输入身份编码模型即可获得身份编码向量。
步骤360、判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量。
本实施例中,黑名单编码向量为事先被人工标记为黑名单用户的身份编码向量。身份编码向量是否命中用户黑名单数据库中的黑名单编码向量具体为当前身份编码向量与黑名单数据库中的其中一个黑名单编码向量相同。具体的,黑名单用户为标记为黑中介、诈骗团伙的用户。
步骤370、若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。
步骤380、判断所述身份编码向量是否命中用户白名单数据库中的白名单编码向量。
本实施例中,白名单编码向量为事先被人工标记为白名单用户的身份编码向量。身份编码向量是否命中用户白名单数据库中的白名单编码向量具体为当前身份编码向量与白名单数据库中的其中一个白名单编码向量相同。具体的,白名单用户为信用较好,按时履约的用户。
步骤390、若所述身份编码向量命中所述用户白名单数据库中的所述白名单编码向量,则确认所述用户为白名单用户。
本实施例中,在步骤360和/或步骤380之后,还包括:
步骤3010、若所述身份编码向量既未命中用户黑名单数据库中的黑名单编码向量,又未命中用户黑名单数据库中的黑名单编码向量,则建立人工审核工单以提示工作人员审查所述用户的身份认证资料。
本实施例中,若当前用户既不是黑命单用户,也不是白名单用户,说明该用户为新用户,系统内并未标注该用户的信息,需要人工审核该用户的信息。
本实施例中,步骤370中,若确认所述用户为黑名单用户之后,还会告知用户已被标记为黑命单,用户还可以相服务方请求人工审核身份认证资料。
本实施例的技术方案,通过将语音信号转化为谱图,将谱图输入身份编码模型中以获得所述谱图的身份编码向量,再通过判断身份编码向量是否命中黑名单编码向量或白名单编码向量来识别用户是否为黑名单用户或白名单用户,即将用户的语音信号中转化为谱图对应的身份编码向量,由于身份编码向量维度低,但个体表征性强,易于存储、易于计算的特点,解决了根据用户的语音信号识别黑名单用户计算复杂且耗资源占用大的问题,达到了降低根据用户的语音信号识别黑名单用户的计算难度和耗资源占空间的效果。还达到了减轻人工信审的工作压力,提高办公效率,帮助服务方避开黑名单用户,减少不必要的损失的效果。由于身份编码向量维度低,但个体表征性强,易于存储、易于计算的特点,本方案解决了语音信号的特征识别认证用户计算复杂且耗资源占用大的问题,达到了降低语音信号的特征识别认证用户的计算难度和耗资源占空间的效果。并且本实施例在用户的身份编码向量未命中黑名单编码向量和白名单编码向量时,启用人工审核用户身份认证资料,以避免服务方的损失。
实施例四
图7为本发明实施例所提供的用户的身份认证装置可执行本发明任意实施例所提供的用户的身份认证方法,用户的身份认证装置4具体包括:
谱图获取模块41,用于获取用户的语音信号的谱图;
身份编码向量获取模块42,用于将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量;
第一判断模块43,用于判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量;
黑名单用户确认模块44,用于若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。
替代实施例中,参见图8,所述谱图获取模块41还包括:
信号获取单元411,用于根据所述语音信号获取所述语音信号的谐波信号和冲击波信号;
谱图获取单元412,用于分别获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图;
堆叠单元413,用于将所述原始声音谱图、所述谐波谱图和所述冲击波谱图堆叠为所述谱图。
替代实施例中,参见图8,所述谱图获取模块41还包括:
所述信号获取单元411,用于根据所述语音信号获取所述语音信号的谐波信号和冲击波信号;
所述谱图获取单元412,用于分别获取所述语音信号的原始声音梅尔能量谱图、所述谐波信号的谐波梅尔能量谱图和所述冲击波信号的冲击波梅尔能量谱图;
所述堆叠单元413,用于将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为谱图。
替代实施例中,参见图9,所述用户的身份认证装置4还包括:
声音信号获取模块45,用于根据采集到的所述用户录入的声音片段获取声音信号;
语音信号获取模块46,用于滤除所述声音信号的静音片段以获得所述用户的所述语音信号。
替代实施例中,参见图10,所述用户的身份认证装置4还包括:
身份认证资料接收模块47,用于接收所述用户提供的身份认证资料,所述身份认证资料包括所述用户录入的所述声音片段及个人照片、证件图片、银行账号、手机号码、姓名和身份证账号的一种或多种。
替代实施例中,参见图11,所述用户的身份认证装置4还包括:
第二判断模块48,用于判断所述身份编码向量是否命中用户白名单数据库中的白名单编码向量;
白名单用户确认模块49,用于若所述身份编码向量命中所述用户白名单数据库中的所述白名单编码向量,则确认所述用户为白名单用户。
替代实施例中,参见图12,所述用户的身份认证装置还包括:
人工审核模块410,用于若所述身份编码向量既未命中用户黑名单数据库中的黑名单编码向量,又未命中用户黑名单数据库中的黑名单编码向量,则建立人工审核工单以提示工作人员审查所述用户的身份认证资料。
本发明实施例所提供的用户的身份认证装置可执行本发明任意实施例所提供的用户的身份认证方法,具备执行方法相应的功能模块和有益效果。
实施例五
图13为本发明实施例五提供的一种服务器的结构示意图,如图13所示,该服务器包括处理器51、存储器52;服务器中处理器51的数量可以是一个或多个,图13中以一个处理器51为例;服务器中的处理器51、存储器52可以通过总线或其他方式连接,图13中以通过总线连接为例。
存储器52作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的用户的身份认证方法对应的程序指令/模块(例如,谱图获取模块、身份编码向量获取模块、第一判断模块、黑名单用户确认模块)。处理器51通过运行存储在存储器52中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的用户的身份认证方法。
存储器52可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器52可进一步包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例六
本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种用户的身份认证方法,该方法包括:
获取用户的语音信号的谱图;
将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量;
判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量;
若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的用户的身份认证方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种用户的身份认证方法,其特征在于,包括:
获取用户的语音信号的谱图,所述谱图为频谱图或能量谱图;
将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量;
判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量;
若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。
2.根据权利要求1所述的用户的身份认证方法,其特征在于,所述获取用户的语音信号的谱图包括:
根据所述语音信号获取所述语音信号的谐波信号和冲击波信号;
分别获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图;
将所述原始声音谱图、所述谐波谱图和所述冲击波谱图堆叠为所述谱图。
3.根据权利要求1所述的用户的身份认证方法,其特征在于,所述能量谱图为梅尔能量谱图,所述获取用户的语音信号的谱图包括:
根据所述语音信号获取所述语音信号的谐波信号和冲击波信号;
分别获取所述语音信号的原始声音梅尔能量谱图、所述谐波信号的谐波梅尔能量谱图和所述冲击波信号的冲击波梅尔能量谱图;
将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为所述谱图。
4.根据权利要求1所述的用户的身份认证方法,其特征在于,所述获取用户的语音信号的谱图之前,还包括:
根据采集到的所述用户录入的声音片段获取声音信号;
滤除所述声音信号的静音片段以获得所述用户的所述语音信号。
5.根据权利要求4所述的用户的身份认证方法,其特征在于,所述根据采集到的所述用户的声音片段获取声音信号之前,还包括:
接收所述用户提供的身份认证资料,所述身份认证资料包括所述用户录入的所述声音片段及个人照片、证件图片、银行账号、手机号码、姓名和身份证账号的一种或多种。
6.根据权利要求5所述的用户的身份认证方法,其特征在于,所述判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量之时,还包括:
判断所述身份编码向量是否命中用户白名单数据库中的白名单编码向量;
若所述身份编码向量命中所述用户白名单数据库中的所述白名单编码向量,则确认所述用户为白名单用户。
7.根据权利要求6所述的用户的身份认证方法,其特征在于,所述判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量和判断所述身份编码向量是否命中用户白名单数据库中的白名单编码向量之后,还包括:
若所述身份编码向量既未命中用户黑名单数据库中的黑名单编码向量,又未命中用户黑名单数据库中的黑名单编码向量,则建立人工审核工单以提示工作人员审查所述用户的身份认证资料。
8.一种用户的身份认证装置,其特征在于,包括:
谱图获取模块,用于获取用户的语音信号的谱图;
身份编码向量获取模块,用于将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量;
第一判断模块,用于判断所述身份编码向量是否命中用户黑名单数据库中的黑名单编码向量;
黑名单用户确认模块,用于若所述身份编码向量命中所述用户黑名单数据库中的所述黑名单编码向量,则确认所述用户为黑名单用户。
9.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的用户的身份认证方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的用户的身份认证方法。
CN201911293590.0A 2019-12-16 2019-12-16 用户的身份认证方法、装置、服务器及存储介质 Pending CN111312258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911293590.0A CN111312258A (zh) 2019-12-16 2019-12-16 用户的身份认证方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911293590.0A CN111312258A (zh) 2019-12-16 2019-12-16 用户的身份认证方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN111312258A true CN111312258A (zh) 2020-06-19

Family

ID=71146804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911293590.0A Pending CN111312258A (zh) 2019-12-16 2019-12-16 用户的身份认证方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111312258A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002346A (zh) * 2020-08-20 2020-11-27 深圳市卡牛科技有限公司 基于语音的性别年龄识别方法、装置、设备和存储介质
CN113506577A (zh) * 2021-06-25 2021-10-15 贵州电网有限责任公司 一种基于增量采集电话录音完善声纹库的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2339894A1 (en) * 2000-04-01 2001-10-01 Chun Huang Authentication technology of digital barcode & numerical coding system
CN105469807A (zh) * 2015-12-30 2016-04-06 中国科学院自动化研究所 一种多基频提取方法及装置
WO2017158105A1 (en) * 2016-03-18 2017-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding by reconstructing phase information using a structure tensor on audio spectrograms
US10129392B1 (en) * 2017-08-25 2018-11-13 Global Tel*Link Corporation Systems and methods for detecting inmate to inmate conference calls
CN108848507A (zh) * 2018-05-31 2018-11-20 厦门快商通信息技术有限公司 一种不良电信用户信息采集方法
US20190035407A1 (en) * 2017-07-26 2019-01-31 Nice Ltd. Seamless text-dependent enrollment
CN110188235A (zh) * 2019-05-05 2019-08-30 平安科技(深圳)有限公司 音乐风格分类方法、装置、计算机设备及存储介质
CN110246503A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 黑名单声纹库构建方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2339894A1 (en) * 2000-04-01 2001-10-01 Chun Huang Authentication technology of digital barcode & numerical coding system
CN105469807A (zh) * 2015-12-30 2016-04-06 中国科学院自动化研究所 一种多基频提取方法及装置
WO2017158105A1 (en) * 2016-03-18 2017-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding by reconstructing phase information using a structure tensor on audio spectrograms
US20190035407A1 (en) * 2017-07-26 2019-01-31 Nice Ltd. Seamless text-dependent enrollment
US10129392B1 (en) * 2017-08-25 2018-11-13 Global Tel*Link Corporation Systems and methods for detecting inmate to inmate conference calls
CN108848507A (zh) * 2018-05-31 2018-11-20 厦门快商通信息技术有限公司 一种不良电信用户信息采集方法
CN110188235A (zh) * 2019-05-05 2019-08-30 平安科技(深圳)有限公司 音乐风格分类方法、装置、计算机设备及存储介质
CN110246503A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 黑名单声纹库构建方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002346A (zh) * 2020-08-20 2020-11-27 深圳市卡牛科技有限公司 基于语音的性别年龄识别方法、装置、设备和存储介质
CN113506577A (zh) * 2021-06-25 2021-10-15 贵州电网有限责任公司 一种基于增量采集电话录音完善声纹库的方法

Similar Documents

Publication Publication Date Title
EP3327720B1 (en) User voiceprint model construction method and apparatus
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
Liu et al. An MFCC‐based text‐independent speaker identification system for access control
CN108429619A (zh) 身份认证方法和系统
CN111048099A (zh) 声音源的识别方法、装置、服务器及存储介质
WO2008083571A1 (fr) Système de certification de cryptage aléatoire d'empreinte vocale, verrou de cryptage aléatoire d'empreinte vocale, et procédé de création associé à ceux-ci
CN112382300A (zh) 声纹鉴定方法、模型训练方法、装置、设备及存储介质
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
CN111312258A (zh) 用户的身份认证方法、装置、服务器及存储介质
Ling et al. Attention-Based Convolutional Neural Network for ASV Spoofing Detection.
Chakrabarty et al. Development and evaluation of online text-independent speaker verification system for remote person authentication
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
JP7259981B2 (ja) 話者認証システム、方法およびプログラム
Yudin et al. Speaker’s voice recognition methods in high-level interference conditions
Dimaunahan et al. MFCC and VQ voice recognition based ATM security for the visually disabled
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN110232927B (zh) 说话人验证反欺骗方法和装置
Gupta et al. Replay spoof detection using energy separation based instantaneous frequency estimation from quadrature and in-phase components
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
Revathi et al. Person authentication using speech as a biometric against play back attacks
Koolagudi et al. Speaker recognition in the case of emotional environment using transformation of speech features
Kekre et al. Speaker identification using row mean vector of spectrogram
Nagakrishnan et al. Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models
Alam On the use of fisher vector encoding for voice spoofing detection
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200619

RJ01 Rejection of invention patent application after publication