CN116562878A

CN116562878A - 身份验证方法、装置、计算机设备和存储介质

Info

Publication number: CN116562878A
Application number: CN202310546696.7A
Authority: CN
Inventors: 宁顺宇; 罗伟; 吴延生; 曾光
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-08

Abstract

本申请涉及一种身份验证方法、装置、计算机设备和存储介质，应用于生物识别领域，也可用于金融科技领域，包括：获取待验证用户使用电话银行系统进行业务办理时的通话语音和通话语音对应的文字信息，以及待验证用户的待验证身份信息；基于待验证身份信息和文字信息查询预设的语料库，得到目标词汇；从通话语音中剪切出目标词汇对应的语音片段，拼接得到待验证语音；对目标词汇对应的真实语音进行拼接得到验证语音；获取验证语音与待验证语音之间的相似度，基于相似度确定待验证用户的身份的真实性。采用本方法能够实现在用户正常办理业务的过程中的身份验证，做到无感识别，提高用户的办理体验，解决电话银行发送文本的繁琐问题。

Description

身份验证方法、装置、计算机设备和存储介质

技术领域

本申请涉及生物识别技术领域，特别是涉及一种身份验证方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

声纹识别是利用计算机系统自动完成说话人身份识别的一项智能语音核心技术。按照待识别语音的文本内容，一般将声纹识别划分为三种：文本无关、文本相关和文本限定。

目前银行常用的声纹识别技术主要是文本相关和文本限定。其中，文本相关是指说话人识别系统，要求用户必须按照事先指定的内容进行发音。文本限定是指识别的时候，从限定的文本库中随机提取若干词汇组合后提示用户反应。

然而，这两种识别方法都需要电话银行发送文本信息给用户，使用户按照文本进行通读后，再进行身份认证，操作较为繁琐。

发明内容

基于此，有必要针对上述身份验证方法存在的操作繁琐的技术问题，提供一种身份验证方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种身份验证方法。所述方法包括：

获取待验证用户使用电话银行系统进行业务办理时的通话语音和所述通话语音对应的文字信息，以及获取所述待验证用户的待验证身份信息；

基于所述待验证身份信息和所述文字信息查询预设的语料库，得到与所述待验证身份信息和所述文字信息均匹配的目标词汇；所述语料库中存储有所述待验证身份信息对应的真实用户在历史办理业务时录制的多个词汇的真实语音和所述多个词汇；

从所述通话语音中剪切出所述目标词汇对应的语音片段，并拼接所述语音片段，得到待验证语音；以及对所述目标词汇对应的真实语音进行拼接，得到验证语音；

获取所述验证语音与所述待验证语音之间的相似度，基于所述相似度确定所述待验证用户的身份的真实性。

在其中一个实施例中，所述获取所述验证语音与所述待验证语音之间的相似度，包括：

将所述验证语音转换为第一波形图，以及将所述待验证语音转换为第二波形图；

对所述第一波形图与所述第二波形图进行时间对齐处理，得到时序一致的第一调整后波形图和第二调整后波形图；

将所述第一调整后波形图转换为第一频谱图，以及将所述第二调整后波形图转换为第二频谱图；

获取所述第一频谱图与所述第二频谱图之间的相似度，作为所述验证语音与所述待验证语音之间的相似度。

在其中一个实施例中，所述对所述第一波形图与所述第二波形图进行时间对齐处理，得到时序一致的第一调整后波形图和第二调整后波形图，包括：

将所述第一波形图和所述第二波形图作为关于声音频率的第一时间序列和第二时间序列；

构建所述第一时间序列和所述第二时间序列对应的距离矩阵；所述距离矩阵中的每个元素表示该元素所在位置对应的一组声音频率之间的距离；

确定所述距离矩阵中的归整路径；所述归整路径为所述距离矩阵中由起始元素到终止元素的最短路径；

根据所述归整路径，对所述第一波形图与所述第二波形图进行拉伸和/或缩放处理，得到时序一致的第一调整后波形图和第二调整后波形图。

在其中一个实施例中，所述方法还包括：

获取所述目标词汇包含的词汇的数目；

在所述词汇的数目大于预设数目的条件下，从所述通话语音中剪切出所述目标词汇对应的语音片段，并拼接各个语音片段，得到待验证语音；以及对所述目标词汇对应的真实语音进行拼接，得到验证语音；

所述获取所述验证语音与所述待验证语音之间的相似度，基于所述相似度确定所述待验证用户的身份的真实性之后，还包括：

在所述待验证用户进行业务办理的过程中，定时对所述通话语音进行更新；

当从更新的通话语音中检测出更多与所述语料库中的词汇相匹配的语音时，再次进行待验证语音和验证语音的获取，并根据新获取的待验证语音与验证语音之间的相似度，再次确定所述待验证用户的身份的真实性。

在其中一个实施例中，所述基于所述相似度确定所述待验证用户的身份的真实性，包括：

获取相似度阈值；

在所述相似度大于所述相似度阈值的情况下，确定所述待验证用户的身份为真实身份。

在其中一个实施例中，所述在所述相似度大于所述相似度阈值的情况下，确定所述待验证用户的身份为真实身份之后，还包括：

根据从所述待验证用户的通话语音中剪切出的所述目标词汇对应的语音片段，更新所述语料库。

在其中一个实施例中，所述获取待验证用户使用电话银行系统进行业务办理时的通话语音和所述通话语音对应的文字信息，包括：

在所述待验证用户使用电话银行系统进行业务办理的过程中，录制所述待验证用户的通话语音；

对录制的所述通话语音进行语音识别处理，得到所述通话语音对应的文字信息。

第二方面，本申请还提供了一种身份验证装置。所述装置包括：

获取模块，用于获取待验证用户使用电话银行系统进行业务办理时的通话语音和所述通话语音对应的文字信息，以及获取所述待验证用户的待验证身份信息；

匹配模块，用于基于所述待验证身份信息和所述文字信息查询预设的语料库，得到与所述待验证身份信息和所述文字信息均匹配的目标词汇；所述语料库中存储有所述待验证身份信息对应的真实用户在历史办理业务时录制的多个词汇的真实语音和所述多个词汇；

拼接模块，用于从所述通话语音中剪切出所述目标词汇对应的语音片段，并拼接所述语音片段，得到待验证语音；以及对所述目标词汇对应的真实语音进行拼接，得到验证语音；

验证模块，用于获取所述验证语音与所述待验证语音之间的相似度，基于所述相似度确定所述待验证用户的身份的真实性。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述身份验证方法、装置、计算机设备、存储介质和计算机程序产品，通过获取真实用户在历史办理业务时录制的多个词汇的真实语音和多个词汇存储在语料库中，使得在之后进行身份验证时，可以通过待验证用户的通话语音的文字信息，匹配语料库中的词汇，根据匹配成功的目标词汇从通话语音中剪切对应的语音拼接，再拼接成待验证语音，同时将语料库中目标词汇对应的真实语音拼接为验证语音，最后基于验证语音与待验证语音之间的相似度确定待验证用户的身份的真实性。该方法通过提取用户通话过程中的语音，生成待验证语音，从而不需要通过任何渠道向用户提供文字阅读资料，在用户阅读后才得到待验证语音，实现了在用户正常办理业务的过程中的身份验证，可以做到无感识别，提高用户的办理体验，解决电话银行发送文本的繁琐问题。

附图说明

图1为一个实施例中身份验证方法的应用环境图；

图2为一个实施例中身份验证方法的流程示意图；

图3为一个实施例中验证语音与待验证语音之间的相似度计算步骤的流程示意图；

图4为一个实施例中第一波形图与第二波形图时序对齐步骤的流程示意图；

图5为另一个实施例中身份验证方法的流程示意图；

图6为一个实施例中身份验证装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

可以理解的是，现有常用且精度最高的用于身份验证的方法是文本相关识别，但该方法存在以下问题：首先，用户需要花费时间去接收文本，并按照文本进行通读，这个过程效率很低，并且会大大降低用户的体验感。其次，对电话银行渠道而言，如何发送需要阅读的文本存在很大困难。因此大部分时候文本相关的声纹识别方法仅适用于拥有可识别模块的场景，可以接收需要阅读的文本。除此之外，文本相关的识别方法还存在需要更新文本的问题，长期使用相同的文本会存在被伪造的风险，因此还需要长期更新文本，这对银行内也是一种负担。

相较于文本相关的识别方法，文本限定识别方法解决了文本更新的问题。每次都可以从限定的文本库中随机提取若干词汇组合而成新的验证文本。然而这种识别方法仍然存在电话银行无法发送文本的问题，即使采用虚拟语音的方式传达文本信息，仍然会影响用户的使用体验感。

以上方法都存在用户语音特征更新的问题，保存在行内的用户语音特征也需要经常更新，否则将会出现影响识别准确度，用户被判定非本人的异常情况，影响业务的正常办理。

针对上述问题，本申请提供了一种基于声纹识别的无感电话银行身份验证的设备和方法。通过一种新型算法解决了用户验证文本的采集问题，并且不需要用户阅读验证文本，在正常办理业务的过程中即可进行身份验证，并且采用了新型验证方法，可实时迭代用户的语音特征，并保证较高的验证精度，为后续银行声纹识别设备的更新和发展提供了一种新的思路。

如图1所示，为本申请实施例提供的身份验证方法的应用环境示意图，本申请提供的身份验证方法可以应用于该应用环境中。其中，声纹识别系统通过网络与电话银行和语料库进行通信。语料库用于存储用户的真实语音。在具体的应用场景中，当声纹识别系统接收到待验证用户的电话银行请求时，自动进入身份验证流程，首先对待验证用户办理业务时的通话语音进行录制和实时转换，得到待验证用户的通话语音和通话语音对应的文字信息，之后基于待验证身份信息和文字信息查询预设的语料库，得到与待验证身份信息和文字信息均匹配的目标词汇；从通话语音中剪切出目标词汇对应的语音片段，并拼接各个语音片段，得到待验证语音；以及对目标词汇对应的真实语音进行拼接，得到验证语音；获取验证语音与待验证语音之间的相似度，基于相似度确定待验证用户的身份的真实性。

在一个实施例中，如图2所示，提供了一种身份验证方法，以该方法应用于图1中的声纹识别系统为例进行说明，包括以下步骤：

步骤S210，获取待验证用户使用电话银行系统进行业务办理时的通话语音和通话语音对应的文字信息，以及获取待验证用户的待验证身份信息。

具体地，当声纹识别系统接收到待验证用户的电话银行请求时，自动进入语音识别模式，开始录制待验证用户办理业务时的通话语音，并可通过语音转换模型对录制的通话语音进行实时转换，得到通话语音对应的文字信息。同时，在待验证用户发送电话银行请求时，会携带有其身份信息，则为了验证待验证用户的身份，语音识别系统还会获取该身份信息，作为待验证用户的待验证身份信息。

步骤S220，基于待验证身份信息和文字信息查询预设的语料库，得到与待验证身份信息和文字信息均匹配的目标词汇；语料库中存储有待验证身份信息对应的真实用户在历史办理业务时录制的多个词汇的真实语音和多个词汇。

其中，语料库中存储的多个词汇可以为用户在办理业务时常用的一些词汇，具体可根据历史用户通话语音中各词汇的出现频率进行词汇选取，将出现频率较高的前几个(例如，十个)词汇存储在语料库中，以提高实际使用时各词汇被匹配到的概率。其中，每个词汇的长度可以为一到两个汉字。

具体实现中，在得到待验证身份信息和文字信息后，可先根据待验证身份信息，从语料库中确定出该待验证身份信息对应的真实用户对应的语料，即语音通话系统在该真实用户历史办理业务时所录制的多个词汇。然后，将文字信息与这些词汇进行匹配，并将匹配成功的词汇，作为目标词汇。

步骤S230，从通话语音中剪切出目标词汇对应的语音片段，并拼接语音片段，得到待验证语音；以及对目标词汇对应的真实语音进行拼接，得到验证语音。

具体实现中，在确定出目标词汇后，则可从待验证用户的通话语音中剪切出目标词汇对应的语音片段，并拼接各个语音片段，得到待验证语音，同样地，将语料库中存储的目标词汇对应的真实语音进行拼接，将得到的语音作为验证语音，用于验证待验证用户的身份的真实性。

在一种实施方式中，为了保证验证结果的可信度，可设置一个预设数目，例如，两个，即在目标词汇包括的词汇数目达到两个以上，才进行待验证语音和验证语音的拼接，同时，在进行拼接时，拼接待验证语音的语音片段对应的词汇顺序与拼接验证语音的真实语音对应的词汇顺序需要相同，以保证后续验证语音与待验证语音进行对比的有效性。例如，目标词汇包括“咨询”、“办理”，则若从通过语音中剪切出的语音片段进行拼接时的词汇顺序为“咨询”、“办理”，则拼接真实语音时，真实语音的词汇顺序也应为“咨询”、“办理”，由此得到词汇顺序相同的待验证语音和验证语音。

步骤S240，获取验证语音与待验证语音之间的相似度，基于相似度确定待验证用户的身份的真实性。

具体实现中，可先将验证语音与待验证语音转换为波形图，再将波形图转换为频谱图，将两个频谱图进行相似度计算，将得到的相似度作为验证语音与待验证语音之间的相似度。之后，将该相似度与预设的相似度阈值进行比对，若该相似度大于相似度阈值，表明待验证语音与验证语音可视为同一用户的语音，则待验证用户的身份可视为真实身份。

上述身份验证方法中，通过获取真实用户在历史办理业务时录制的多个词汇的真实语音和多个词汇存储在语料库中，使得在之后进行身份验证时，可以通过待验证用户的通话语音的文字信息，匹配语料库中的词汇，根据匹配成功的目标词汇从通话语音中剪切对应的语音拼接，再拼接成待验证语音，同时将语料库中目标词汇对应的真实语音拼接为验证语音，最后基于验证语音与待验证语音之间的相似度确定待验证用户的身份的真实性。该方法通过提取用户通话过程中的语音，生成待验证语音，从而不需要通过任何渠道向用户提供文字阅读资料，在用户阅读后才得到待验证语音，实现了在用户正常办理业务的过程中的身份验证，可以做到无感识别，提高用户的办理体验，解决电话银行发送文本的繁琐问题。

在一示例性实施例中，如图3所示，上述步骤S240中获取验证语音与待验证语音之间的相似度，进一步包括以下步骤：

步骤S310，将验证语音转换为第一波形图，以及将待验证语音转换为第二波形图。

其中，第一波形图和第二波形图的横轴为时间，纵轴为频率。

具体实现中，可通过对验证语音和待验证语音分别进行信号处理和特征提取，将语音信号转化成波形图，得到验证语音对应的第一波形图和待验证语音对应的第二波形图。

步骤S320，对第一波形图与第二波形图进行时间对齐处理，得到时序一致的第一调整后波形图和第二调整后波形图。

具体实现中，由于待验证语音和验证语音中说话用户的语速可能不同，导致两者在时序上存在差异，并且直接匹配也较为困难，若将不同长度的两个语音直接进行拉伸和缩小将会损失一些语音特征，导致后续验证的准确度下降。因此，本步骤采用动态时间规整算法(Dynamic Time Warping，DTW)，对第一波形图与第二波形图进行时间对齐处理，以得到时序一致的第一调整后波形图和第二调整后波形图，在保证保留波形图相似度的情况下，解决两个波形图的时序不一致问题。

步骤S330，将第一调整后波形图转换为第一频谱图，以及将第二调整后波形图转换为第二频谱图。

具体实现中，可通过傅里叶变换对第一调整后波形图和第二调整后波形图进行转换，由此得到保存有待验证用户的语音特征的第二频谱图，以及保存有真实用户的语音特征的第一频谱图。

步骤S340，获取第一频谱图与第二频谱图之间的相似度，作为验证语音与待验证语音之间的相似度。

具体实现中，可采用动态时间规整算法计算第一频谱图与第二频谱图之间的相似度，作为验证语音与待验证语音之间的相似度。

本实施例中，在将验证语音和验证语音转换为波形图后，通过对两者对应的波形图进行时间对齐处理，可以保证两个波形图时序上的一致，进而再通过频谱图的转换，获取相似度，可以保证所计算得到的相似度的准确度，提高后续验证结果的准确性。

在一示例性实施例中，如图4所示，步骤S320中对第一波形图与第二波形图进行时间对齐处理，得到时序一致的第一调整后波形图和第二调整后波形图，具体可通过以下步骤实现：

步骤S410，将第一波形图和第二波形图作为关于声音频率的第一时间序列和第二时间序列；

步骤S420，构建第一时间序列和第二时间序列对应的距离矩阵；距离矩阵中的每个元素表示该元素所在位置对应的一组声音频率之间的距离；

步骤S430，确定距离矩阵中的归整路径；归整路径为距离矩阵中由起始元素到终止元素的最短路径；

步骤S440，根据归整路径，对第一波形图与第二波形图进行拉伸和/或缩放处理，得到时序一致的第一调整后波形图和第二调整后波形图。

具体实现中，第一波形图和第二波形图可以看作是两个时间序列Q和C，他们的长度分别是n和m：

Q＝[q1,q2,q3,···qn]

C＝[c1,c2,c3,···cm]

由于n和m不相等，因此需要进行线性缩放，然而在语音中各个片段在不同情况下持续的时间会产生长度的变化，单纯的线性缩放效果不佳。因此构建一个n*m的距离矩阵，矩阵中的每个元素(i，j)为该元素对应的声音频率q_i和c_j两个点之间的距离，记为d(q_i,c_j)，该距离一般这里采用欧氏距离。

在得到距离矩阵后，可计算该距离矩阵中的warping path归整路径，距离矩阵中由起始元素到终止元素的最短路径，用W表示，W的第k个元素定义为W_k＝(i,j)_k，则有：

W＝w₁,w₂,···,w_k,···,w_K

max(m,n)≤K＜m+n-1

在满足边界条件连续性和单调性约束的情况下，得到规整代价最小的归整路径：

此时，通过该归整路径对第一波形图与第二波形图进行拉伸和/或缩放处理，即可在保证语音特征不遗失的情况下，使得待验证语音和验证语音的时序一致。

本实施例中，通过将第一波形图和第二波形图作为关于声音频率的第一时间序列和第二时间序列，构建第一时间序列和第二时间序列对应的距离矩阵；根据计算出的距离矩阵中的归整路径，对第一波形图与第二波形图进行拉伸和/或缩放处理，从而可以实现在保证语音特征不遗失的情况下，使得待验证语音和验证语音的时序一致，避免直接进行拉伸和缩小将会损失一些语音特征，导致后续验证的准确度下降。

在一示例性实施例中，上述身份验证方法还包括：获取目标词汇包含的词汇的数目；在词汇的数目大于预设数目的条件下，从通话语音中剪切出目标词汇对应的语音片段，并拼接各个语音片段，得到待验证语音；以及对目标词汇对应的真实语音进行拼接，得到验证语音。

本实施例中，预设数目可以为两个，通过设置预设数目，在目标词汇包含的词汇的数目大于预设数目的情况下，再进行待验证语音和验证语音的获取和匹配，可以保证后续对待验证用户的验证结果的置信度。

在步骤S240获取验证语音与待验证语音之间的相似度，基于相似度确定待验证用户的身份的真实性之后，还包括：在待验证用户进行业务办理的过程中，定时对通话语音进行更新；当从更新的通话语音中检测出更多与语料库中的词汇相匹配的语音时，再次进行待验证语音和验证语音的获取，并根据新获取的待验证语音与验证语音之间的相似度，再次确定待验证用户的身份的真实性。

具体实现中，在待验证用户进行一次业务办理时，可以对待验证用户的身份重复进行验证，随着待验证用户所说的语音的增多，可以不断对录制的待验证用户的通话语音进行更新，每更新一次，可返回步骤S220，将更新的通话语音的文字信息再次与语料库中的词汇进行一次匹配，当从更新的通话语音中检测出更多与语料库中的词汇相匹配的语音时，再次进行待验证语音和验证语音的获取，并根据新获取的待验证语音与验证语音之间的相似度，并将实时更新的相似度发送给工作人员对应的终端。

本实施例中，随着客户的业务办理过程，可以实时更新声纹识别的鉴定结果，命中的语料特征越多，其识别准确度越高，并且由于计算量小，计算速度快，相比于传统的识别方法，大大降低了计算量并且输出结果更快，验证效率更高。

在一示例性实施例中，步骤S240基于相似度确定待验证用户的身份的真实性，包括：获取相似度阈值；在相似度大于相似度阈值的情况下，确定待验证用户的身份为真实身份。

具体实现中，可以预先设定一个相似度阈值，例如，0.85，当计算出的待验证语音与验证语音之间的相似度大于该相似度阈值时，确定待验证用户的身份为真实身份，反之，当计算出的待验证语音与验证语音之间的相似度小于或等于该相似度阈值时，确定待验证用户的身份为可疑身份，输出告警信息，提醒待验证用户对接工作人员，进行进一步身份验证。

进一步地，在一示例性实施例中，在相似度大于相似度阈值的情况下，确定待验证用户的身份为真实身份之后，还包括：根据从待验证用户的通话语音中剪切出的目标词汇对应的语音片段，更新语料库。

具体实现中，若通过相似度比对，确定待验证用户的身份为真实身份之后，可将此次待验证用户在业务办理中获取的语料特征更新到语料库中，具体为根据从待验证用户的通话语音中剪切出的目标词汇对应的语音片段，更新语料库。

本实施例中，通过实时的录制和更新语料库中保存的语音片段，实现了无感的语料特征的更新，解决了声纹鉴定材料更新和特征更新的难题。

在一示例性实施例中，步骤S210中获取待验证用户使用电话银行系统进行业务办理时的通话语音和通话语音对应的文字信息，具体包括：在待验证用户使用电话银行系统进行业务办理的过程中，录制待验证用户的通话语音；对录制的通话语音进行语音识别处理，得到通话语音对应的文字信息。

具体实现中，当声纹识别系统接收到待验证用户的电话银行请求时，自动进行语音识别，对待验证用户办理业务时的通话语音进行录制和实时转换。

更具体地，可将录制的通话语音输入到语音识别模型中，通过语音识别模型进行处理将通话语音转换为文字信息。其中，语音识别模型可以为递归神经网络转换模型(Recurrent Neural Network Transducer，RNN-T，一种用于语音识别的端到端模型)。

本实施例中，通过在待验证用户使用电话银行系统进行业务办理的过程中，录制待验证用户的通话语音，并通过语音识别得到通话语音对应的文字信息，以便于后续根据该文字信息和通话语音，确定待验证语音，无需电话银行发送文本信息供用户阅读后，才能得到待验证语音。该方法在验证过程中，不需要打断用户的正常办理流程，只用在用户的日常办理过程中根据用户的语音进行声纹鉴定，实现说话人识别，可以做到无感识别，提高用户的办理体验。

在一个实施例中，为了便于本领域技术人员理解本申请实施例，以下将结合附图的具体示例进行说明。参考图5，示出了一种身份验证方法的流程示意图，包括以下步骤：

(1)当待验证用户发起电话银行请求时，声纹识别系统自动进入语音识别模式，录制待验证用户办理业务时的通话语音，以及获取待验证用户的待验证身份信息。

(2)通过语音识别将录制的通话语音转换为文字信息。

(3)基于待验证身份信息和文字信息查询预设的语料库，得到与待验证身份信息和文字信息均匹配的目标词汇。

(4)判断目标词汇包含的词汇的数目是否大于两个。若否，则待录制更多的通话语音时，再进行判断。

(5)若是，则从所述通话语音中剪切出所述目标词汇对应的语音片段，并拼接各个语音片段，得到待验证语音；以及对所述目标词汇对应的真实语音进行拼接，得到验证语音。

(6)对待验证语音和验证进行声纹识别和相似度计算。具体地，将所述验证语音转换为第一波形图，以及将所述待验证语音转换为第二波形图；通过动态时间归整算法对所述第一波形图与所述第二波形图进行时间对齐处理，得到时序一致的第一调整后波形图和第二调整后波形图；将所述第一调整后波形图转换为第一频谱图，以及将所述第二调整后波形图转换为第二频谱图；获取所述第一频谱图与所述第二频谱图之间的相似度，作为所述验证语音与所述待验证语音之间的相似度。

(7)根据相似度确定待验证用户身份的验证结果。

(8)在所述待验证用户进行业务办理的过程中，定时对所述通话语音进行更新；当从更新的通话语音中检测出更多与所述语料库中的词汇相匹配的语音时，返回步骤(5)，再次进行身份验证。

现有的声纹识别方法主要还是依靠神经网络模型，通过组合限定的文本库中的语料，让用户阅读，并录制阅读音频，将音频输入神经网络中与原有保留的声纹特征进行相似度计算，得到最后的相似度结果。这种方法除了需要验证时用户录制一段音频，还需要用户在开启验证前专门录制一段阅读含有特定字符的音频，并保存音频并转化为特殊的声纹特征。

本申请使用的算法相比于传统的声纹识别的方法，其主要创新点在于：

所得到的验证语音只需要在用户日常业务办理中记录语音材料，并根据语音识别的结果进行自动化的存储和处理，可以不需要用户提前录制特定文本的语音；并且验证过程中，也不需要打断用户的正常办理流程，只用在用户的日常办理过程中根据用户的语音进行声纹鉴定，实现说话人识别，可以做到无感识别，提高用户的办理体验；有效解决了现有的集中声纹识别无法提供验证文本的难题，通过语音识别自动的提取用户的验证语料，而不需要通过一些渠道提供文字阅读材料；通过实时的录制和更新语料库中保存的语音片段，实现了无感的语料特征更新，解决了声纹鉴定材料更新和特征更新的难题；随着客户的业务办理过程，可以实时更新声纹识别的鉴定结果，命中的语料特征越多，其识别准确度越高，并且由于计算量小，计算速度快，相比于传统的识别方法，大大降低了计算量并且输出结果更快，验证效率更高。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的身份验证方法的身份验证装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个身份验证装置实施例中的具体限定可以参见上文中对于身份验证方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种身份验证装置，包括：获取模块610、匹配模块620、拼接模块630和验证模块640，其中：

获取模块610，用于获取待验证用户使用电话银行系统进行业务办理时的通话语音和通话语音对应的文字信息，以及获取待验证用户的待验证身份信息；

匹配模块620，用于基于待验证身份信息和文字信息查询预设的语料库，得到与待验证身份信息和文字信息均匹配的目标词汇；语料库中存储有待验证身份信息对应的真实用户在历史办理业务时录制的多个词汇的真实语音和多个词汇；

拼接模块630，用于从通话语音中剪切出目标词汇对应的语音片段，并拼接语音片段，得到待验证语音；以及对目标词汇对应的真实语音进行拼接，得到验证语音；

验证模块640，用于获取验证语音与待验证语音之间的相似度，基于相似度确定待验证用户的身份的真实性。

在其中一个实施例中，验证模块640，还用于将验证语音转换为第一波形图，以及将待验证语音转换为第二波形图；对第一波形图与第二波形图进行时间对齐处理，得到时序一致的第一调整后波形图和第二调整后波形图；将第一调整后波形图转换为第一频谱图，以及将第二调整后波形图转换为第二频谱图；获取第一频谱图与第二频谱图之间的相似度，作为验证语音与待验证语音之间的相似度。

在其中一个实施例中，验证模块640，还用于将第一波形图和第二波形图作为关于声音频率的第一时间序列和第二时间序列；构建第一时间序列和第二时间序列对应的距离矩阵；距离矩阵中的每个元素表示该元素所在位置对应的一组声音频率之间的距离；确定距离矩阵中的归整路径；归整路径为距离矩阵中由起始元素到终止元素的最短路径；根据归整路径，对第一波形图与第二波形图进行拉伸和/或缩放处理，得到时序一致的第一调整后波形图和第二调整后波形图。

在其中一个实施例中，拼接模块630，还用于获取目标词汇包含的词汇的数目；在词汇的数目大于预设数目的条件下，从通话语音中剪切出目标词汇对应的语音片段，并拼接各个语音片段，得到待验证语音；以及对目标词汇对应的真实语音进行拼接，得到验证语音；

所述装置还包括再次验证模块，用于在待验证用户进行业务办理的过程中，定时对通话语音进行更新；当从更新的通话语音中检测出更多与语料库中的词汇相匹配的语音时，再次进行待验证语音和验证语音的获取，并根据新获取的待验证语音与验证语音之间的相似度，再次确定待验证用户的身份的真实性。

在其中一个实施例中，验证模块640，还用于获取相似度阈值；在相似度大于相似度阈值的情况下，确定待验证用户的身份为真实身份。

在其中一个实施例中，所述装置还包括更新模块，用于根据从待验证用户的通话语音中剪切出的目标词汇对应的语音片段，更新语料库。

在其中一个实施例中，获取模块610，还用于在待验证用户使用电话银行系统进行业务办理的过程中，录制待验证用户的通话语音；对录制的通话语音进行语音识别处理，得到通话语音对应的文字信息。

上述身份验证装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种身份验证方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种身份验证方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述验证语音与所述待验证语音之间的相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一波形图与所述第二波形图进行时间对齐处理，得到时序一致的第一调整后波形图和第二调整后波形图，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标词汇包含的词汇的数目；

5.根据权利要求1所述的方法，其特征在于，所述基于所述相似度确定所述待验证用户的身份的真实性，包括：

获取相似度阈值；

6.根据权利要求5所述的方法，其特征在于，所述在所述相似度大于所述相似度阈值的情况下，确定所述待验证用户的身份为真实身份之后，还包括：

7.根据权利要求1所述的方法，其特征在于，所述获取待验证用户使用电话银行系统进行业务办理时的通话语音和所述通话语音对应的文字信息，包括：

8.一种身份验证装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的身份验证方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的身份验证方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的身份验证方法的步骤。