CN111933117A

CN111933117A - 语音验证方法和装置、存储介质及电子装置

Info

Publication number: CN111933117A
Application number: CN202010753151.XA
Authority: CN
Inventors: 袁有根; 胡鹏飞; 黄申
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cyber Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cyber Shenzhen Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-13

Abstract

本发明公开了一种基于人工智能的语音验证方法和装置、存储介质及电子装置。其中，该方法包括：获取目标对象朗读目标数字串所产生的目标语音；将目标语音输入到声学模型中，得到目标语音的多个识别结果与每一个识别结果的第一概率；计算多个识别结果中每一个识别结果的第二概率；根据第一概率与第二概率确定出目标识别结果，其中，目标识别结果为第二概率小于预定阈值且第一概率最大的识别结果；在目标识别结果与目标数字串相同的情况下，发送第一提示信息，其中，第一提示信息用于提示目标对象通过与目标数字串对应的验证。本发明解决了语音验证准确度低的技术问题。

Description

语音验证方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种语音验证方法和装置、存储介质及电子装置。

背景技术

现有技术中，在很多场景下如账号登录、转账等多种场景中，都需要对目标对象进行验证，以验证执行操作的对象是否为机器人。

现有技术提供了一种手段，通过获取目标对象朗读目标内容的声音，并使用模型识别声音，比对声音与目标内容是否匹配从而对目标对象进行验证。

然而，上述过程中，由于模型识别朗读的数字的声音的准确度低，进一步造成验证目标对象的准确度低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音验证方法和装置、存储介质及电子装置，以至少解决语音验证准确度低的技术问题。

根据本发明实施例的一个方面，提供了一种语音验证方法，包括：获取目标对象朗读目标数字串所产生的目标语音；将上述目标语音输入到声学模型中，得到上述目标语音的多个识别结果与每一个识别结果的第一概率，其中，上述声学模型为使用第一训练样本与第二训练样本进行训练得到的用于识别上述目标语音的模型，上述第一训练样本为朗读文本得到的样本，上述第二训练样本为朗读数字串得到的样本，上述第一概率用于指示上述识别结果与上述目标语音相同的可能性；计算上述多个识别结果中每一个上述识别结果的第二概率，其中，上述第二概率用于指示上述识别结果的语义理解程度；根据上述第一概率与上述第二概率确定出目标识别结果，其中，上述目标识别结果为上述第二概率小于预定阈值且上述第一概率最大的识别结果；在上述目标识别结果与上述目标数字串相同的情况下，发送第一提示信息，其中，上述第一提示信息用于提示上述目标对象通过与上述目标数字串对应的验证。

根据本发明实施例的另一方面，还提供了一种语音验证装置，包括：第一获取单元，用于获取目标对象朗读目标数字串所产生的目标语音；输入单元，用于将上述目标语音输入到声学模型中，得到上述目标语音的多个识别结果与每一个识别结果的第一概率，其中，上述声学模型为使用第一训练样本与第二训练样本进行训练得到的用于识别上述目标语音的模型，上述第一训练样本为朗读文本得到的样本，上述第二训练样本为朗读数字串得到的样本，上述第一概率用于指示上述识别结果与上述目标语音相同的可能性；计算单元，用于计算上述多个识别结果中每一个上述识别结果的第二概率，其中，上述第二概率用于指示上述识别结果的语义理解程度；确定单元，用于根据上述第一概率与上述第二概率确定出目标识别结果，其中，上述目标识别结果为上述第二概率小于预定阈值且上述第一概率最大的识别结果；第一发送单元，用于在上述目标识别结果与上述目标数字串相同的情况下，发送第一提示信息，其中，上述第一提示信息用于提示上述目标对象通过与上述目标数字串对应的验证。

作为一种可选的示例，上述装置还包括：第二发送单元，用于在根据上述第一概率与上述第二概率确定出上述目标识别结果之后，在上述目标识别结果与上述目标数字串不同的情况下，发送第二提示信息，其中，上述第二提示信息用于提示上述目标对象未通过与上述目标数字串对应的验证。

作为一种可选的示例，上述装置还包括：第二获取单元，用于在将上述目标语音输入到上述声学模型中之前，获取上述第一训练样本与上述第二训练样本；第一训练单元，用于使用上述第一训练样本训练原始模型，直到训练次数达到预定次数或者上述原始模型的准确度达到第一准确度；第二训练单元，用于使用上述第二训练样本训练使用上述第一训练样本训练后的上述原始模型，得到上述声学模型。

作为一种可选的示例，上述计算单元包括：获取模块，用于获取到上述多个识别结果；计算模块，用于使用目标语言模型计算上述多个识别结果中每一个上述识别结果的上述第二概率。

作为一种可选的示例，上述获取单元还包括：第一训练模块，用于在使用上述语言模型计算上述多个识别结果中每一个上述识别结果的上述第二概率之前，使用第三训练样本训练第一语言模型，得到第二语言模型，其中，上述第三训练样本为文本样本；第二训练模块，用于使用第四训练样本训练上述第一语言模型，得到第三语言模型，其中，上述第四训练样本为数字串样本；合并模块，用于将训练后打的上述第二语言模型与上述第三语言模型合并为上述目标语言模型。

作为一种可选的示例，上述确定单元包括：删除模块，用于将上述多个识别结果中，上述第二概率大于或者等于上述预定阈值的识别结果删除；第一确定模块，用于将剩余的上述识别结果中，上述第一概率最大的识别结果确定为上述目标识别结果。

作为一种可选的示例，上述第一获取单元包括：显示模块，用于在显示界面上显示上述目标数字串；提示模块，用于提示上述目标对象朗读上述目标数字串；录音模块，用于在提示上述目标对象朗读上述目标数字串时开始录音，在录制第一时长后结束录音；第二确定模块，用于将录制的上述录音确定为上述目标语音。

作为一种可选的示例，上述装置还包括：接收单元，用于在获取上述目标对象朗读上述目标数字串所产生的上述目标语音之前，接收上述目标对象的登录请求，其中，上述登录请求用于请求登录目标应用；显示单元，用于显示上述目标数字串，提示上述目标对象朗读上述目标数字。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述语音验证方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的语音验证方法。

在本发明实施例中，采用了获取目标对象朗读目标数字串所产生的目标语音；将上述目标语音输入到声学模型中，得到上述目标语音的多个识别结果与每一个识别结果的第一概率，其中，上述声学模型为使用第一训练样本与第二训练样本进行训练得到的用于识别上述目标语音的模型，上述第一训练样本为朗读文本得到的样本，上述第二训练样本为朗读数字串得到的样本，上述第一概率用于指示上述识别结果与上述目标语音相同的可能性；计算上述多个识别结果中每一个上述识别结果的第二概率，其中，上述第二概率用于指示上述识别结果的语义理解程度；根据上述第一概率与上述第二概率确定出目标识别结果，其中，上述目标识别结果为上述第二概率小于预定阈值且上述第一概率最大的识别结果；在上述目标识别结果与上述目标数字串相同的情况下，发送第一提示信息，其中，上述第一提示信息用于提示上述目标对象通过与上述目标数字串对应的验证的方法，由于在上述方法中，在验证语音的过程中，使用了使用朗读文本得到的样本与朗读数字串得到的样本先后训练得到的声学模型来识别语音，并且使用声学模型输出的识别结果的第一概率和获取到的识别结果的第二概率来筛选识别结果，从而可以获取更加准确的语音的识别结果，提高了语音验证过程的准确度，进而解决了语音验证准确度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音验证方法的应用环境的示意图；

图2是根据本发明实施例的另一种可选的语音验证方法的应用环境的示意图；

图3是根据本发明实施例的一种可选的语音验证方法的流程示意图；

图4是根据本发明实施例的一种可选的语音验证方法的界面示意图；

图5是根据本发明实施例的一种可选的语音验证方法的验证流程示意图；

图6是根据本发明实施例的一种可选的语音验证方法的验证示意图；

图7是根据本发明实施例的另一种可选的语音验证方法的验证示意图；

图8是根据本发明实施例的一种可选的语音验证装置的结构示意图；

图9是根据本发明实施例的另一种可选的语音验证装置的结构示意图；

图10是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的语音技术、自然语言处理技术与机器学习等技术，具体通过如下实施例进行说明。

根据本发明实施例的一个方面，提供了一种语音验证方法，可选地，作为一种可选的实施方式，上述语音验证方法可以但不限于应用于如图1所示的环境中。

图1中用户102与用户设备104之间可以进行人机交互。用户设备104中包含有存储器106，用于存储交互数据、处理器108，用于处理交互数据。用户设备104可以通过网络110与服务器112之间进行数据交互。服务器112中包含有数据库114，用于存储交互数据、处理引擎116，用于处理交互数据。用户设备102可以获取目标语音，并将目标语音发送到服务器112，由服务器112对目标语音进行验证，并返回验证结果。

作为一种可选的实施方式，上述语音验证方法可以但不限于应用于如图2所示的环境中。

图2中用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206，用于存储交互数据、处理器208，用于处理交互数据。用户设备202可以获取目标语音，并对目标语音进行验证，并返回验证结果。

可选地，本申请中的上述用户设备104或者用户设备204可以为手机、平板电脑、笔记本电脑、PC机等终端或者其他具备存储与运算能力的终端。上述用户设备104中包括有存储器106与处理器108，用户设备204中包括有存储器206与处理器208，上述存储器106与存储器206中可以存储有本申请中的计算机程序，计算机程序包括有本申请中的上述声学模型与目标语言模型，上述处理器108与处理器208可以但不限于通过调用存储器106与存储器206中的计算机程序来执行本申请中的语音验证方法。具体可以为，用户设备获取目标对象朗读目标数字串产生的目标语音，然后，由处理器调用声学模型，将目标语音输入到声学模型中，得到多个识别结果与每一个识别结果的第一概率。然后，处理器调用目标语言模型计算每一个识别结果的第二概率，最后，根据第一概率与第二概率确定出目标识别结果。最后，用户设备可以比对接收的目标数字串与目标识别结果，以验证目标对象朗读目标数字串是否正确。

可选地，上述用户设备104与用户设备204可以但不限于包括更多的部件，例如传输装置、显示装置、录音装置、连接装置等。传输装置可以经由一个网络接收或者发送数据，显示器可以显示验证的具体内容等，录音装置可以用于录制目标语音，连接装置用于连接用户设备中的各个部件。

可选地，作为一种可选的实施方式，如图3所示，上述语音验证方法包括：

S302，获取目标对象朗读目标数字串所产生的目标语音；

S304，将目标语音输入到声学模型中，得到目标语音的多个识别结果与每一个识别结果的第一概率，其中，声学模型为使用第一训练样本与第二训练样本进行训练得到的用于识别目标语音的模型，第一训练样本为朗读文本得到的样本，第二训练样本为朗读数字串得到的样本，第一概率用于指示识别结果与目标语音相同的可能性；

S306，计算所述多个识别结果中每一个所述识别结果的第二概率，其中，所述第二概率用于指示所述识别结果的语义理解程度；

S308，根据第一概率与第二概率确定出目标识别结果，其中，目标识别结果为第二概率小于预定阈值且第一概率最大的识别结果；

S310，在目标识别结果与目标数字串相同的情况下，发送第一提示信息，其中，第一提示信息用于提示目标对象通过与目标数字串对应的验证。

可选地，本申请中的第二概率为一个概率值，该值的大小用于表示识别结果的语义理解程度。上述语义理解程度表示人类对一句话的理解的正确与否。如果识别结果以人类的角度来理解是十分好理解没有任何误区的，则计算得到的识别结果的第二概率是较小的。而如果识别结果以人类的角度进行理解，无法理解其含义，则第二概率较大。本申请中计算识别结果的第二概率，就是通过计算出的概率作为识别结果是否是便于理解的内容的可能性。第二概率越大，语义理解程度越小，表示识别结果难以理解其含义，第二概率越小，语句理解程度越大，表示识别结果很好理解，没有理解难度。

可选地，本申请中的第二概率还可以表示识别结果不包含语法错误的可能性，或者第二概率用于表示识别结果中的语法错误的多少。

可选地，上述语音验证方法可以但不限于应用于登录过程中，或者转账过程中，或者下载过程中，或者打开文件过程中，或者支付过程中。

以登录过程为例，在登录时，通常需要对当前登录者进行验证。验证时，可以在界面上显示目标数字串以及提示当前用户朗读目标数字串。录制当前用户朗读目标数字串的目标语音，然后将目标语音输入到声学模型中。得到声学模型识别的目标语音的识别结果。例如，目标数字串是“登录授权”用户朗读“登录授权”，可能识别得到的结果是“登录收取”、“登录授权”等结果。然后，从识别结果中确定出目标识别结果，目标识别结果是第二概率小于预定阈值且第一概率最大的识别结果。然后比对该识别结果与目标数字串是否相同。如果相同则验证成功，用户可以进行登录，如果不同则验证不通过，用户无法登录。

通过上述方法，由于在验证语音的过程中，使用了使用朗读文本得到的样本与朗读数字串得到的样本先后训练得到的声学模型来识别语音，并且使用声学模型输出的识别结果的第一概率和获取到的识别结果的第二概率来筛选识别结果，从而可以获取更加准确的语音的识别结果，提高了语音验证过程的准确度。

可选地，本申请中可以在终端上显示目标字符串。当需要对当前用户进行验证的时候，首选可以在显示界面上显示目标字符串，目标字符串可以为从数据库中随机抽取的字符串，在显示目标字符串后，可以提示当前用户朗读目标字符串。在提示目标对象朗读目标字符串时就开始录音，当录音第一时长后结束录音。第一时长可以为预先设定的时长，可以根据目标字符串的长度来设定。例如，目标字符串的一个字符对应一秒，目标字符串有多少字符则第一时长为多少秒。在停止录制后，录制得到的录音为目标语音，由声学模型对目标语音进行识别。

如图4所示，图4为一种可选的验证界面，在登录时，需要朗读数字串，客户端在后台完成验证，从而确定是否允许登录。

需要说明的是，在录制目标录音时，可以设置按钮由用户确定开始与结束的时机。

如图5所示，图5为验证逻辑。当获取到目标语音502之后，可以对目标语音502进行验证，验证失败的情况下，继续获取目标语音验证，验证次数可以有要求，如果超出，则预定时长内不允许登录。如果验证成功，则可以登录。

可选地，本申请中的声学模型可以为使用第一训练样本与第二训练样本训练得到的模型。

在训练声学模型之前，首先需要获取第一训练样本与第二训练样本。第一训练样本为朗读文本内容得到的训练样本，例如，使用不同的方言或者普通话来朗读文本内容，得到第一训练样本。使用不同的方言或者普通话来朗读数字串得到第二训练样本。然后，将原始模型使用第一训练样本先行训练，训练到一定程度后，使用第二训练样本接着训练，从而得到声学模型。声学模型能够在输入目标语音之后，输出多种文本内容，每一种文本内容为一种可能的目标语音中的内容，每一种文本内容对应一个第一概率。

可选地，本申请中，在获取到目标语音之后，可以使用特征提取模型提取目标语音中的特征，然后将特征输入到声学模型中进行识别。

在获取到多个识别结果与多个第一概率之后，可以使用目标语言模型计算多个识别结果中每一个识别结果的第二概率。

上述第二概率可以理解为，识别出的识别结果为一句比较正常的话的概率。例如，“您吃了吗”符合语言逻辑，是一句表达正确的话，而“吃您了吗”大概率是说错的一句话或者为识别错误的一句话。因此，通过语言模型来计算每一个识别结果的第二概率，然后将第二概率超过预定阈值的识别结果删除，从而可以滤除识别结果中不太可能的识别结果，剩余剩下的识别结果。

在使用目标语言模型对声学模型输出的识别结果进行滤除后，剩余的结果中，将第一概率最大的识别结果确定为目标识别结果。此处的目标识别结果则可以确定为用户的目标语音中包含的文本内容。通过比对目标识别结果与目标数字串，可以实现对用户的验证。

可选地，本申请中还可以在获取到声学模型识别多个识别结果得到多个第一概率之后，使用目标语言模型计算每一个识别结果的第二概率，然后，将第一概率与第二概率进行加权求和，得到最后的总概率，然后将总概率中最大的概率对应的识别结果确定为目标识别结果。权值可以为正值也可以为负值。

本申请中的目标语言模型可以为预先训练的语言模型。

在确定目标语言模型的过程中，可以使用第三训练样本训练第一语言模型，得到第二语言模型，其中，第三训练样本为文本类型的样本，使用第四训练样本训练第一语言模型，得到第三语言模型，其中，第四训练样本为数字串样本；数字串样本为使用数字组成的样本，例如12345。将训练后打的第二语言模型与第三语言模型合并为目标语言模型。合并过程可以采用插值法进行合并。

本申请无需过多的标注语料和计算资源，声学模型和语言模型自适应方法可用于任何基于ASR的语音数字串验证的产品中，尤其是对缺乏足够标注语料的语音场景更为有效。

以下结合一个具体实施例解释本申请，例如，将本申请应用到用户登录验证的过程中。

首先，在前台界面上显示一个目标数字串，例如为6913，并提示用户朗读6913，系统可以显示录音条，表示录音进行中。用户朗读6913时会被录音。当录音结束后，获取到目标语音，通过本申请可以判定目标语音是否为6913，从而实现对用户的验证。在此过程中，也可能获取的目标语音中可能没有语音，例如用户没有朗读。

以下为具体技术内容。

本申请可以应用在基于隐马尔科夫模型(Hidden Markov Model，HMM)的ASR系统和基于端到端的ASR系统中。

图6是基于HMM的鲁棒语音数字串验证方法示意图。在声学模型自适应的学习过程中，本申请的网络输入是40维度的MFCC和100维度的i-vector特征，也就是说，本申请可以通过特征提取模型提取训练样本的40维度的MFCC和100维度的i-vector特征，然后对原始模型进行训练得到声学模型。声学模型的网络结构采用的是FTDNN结构。FTDNN结构采用了半正交低秩矩阵分解和子采样技术，能够保持识别性能的同时加快训练和解码的速度。

本申请中的训练样本包括了第一训练样本与第二训练样本，第一训练样本为通用语料，为朗读文本得到的样本，第二训练样本为数字串语料，为朗读数字串得到的样本。在通用标注语料中训练一个基于FTDNN的声学模型，然后把它当作初始化模型在目标语料中继续训练，从而得到本申请中使用的声学模型。

在语言模型自适应的学习过程中，本方法首先在通用文本中选取前N个常用词语，N为正整数，组成第三训练样本。使用第三训练样本训练第一模型。第一模型为使用N-gram模型生成的语言模型(第二模型)。同时，本申请对数字串文本也进行N-gram训练，从而获取数字串文本的语言模型(第三模型)。然后，本方法将第二模型与第三模型两个语言模型按照一定权重比例进行插值合并，得到目标语言模型。这种语言模型自适应方法能够有效地减少非数字内容的报出，同时更准确地识别语音数字串内容。最后，本申请可以通过模型剪枝的方法去降低目标语言模型的大小。

在HMM训练和解码过程中，本申请采用的是LF-MMI准则，这样可以使得整个HMM的训练和解码速度更快。针对一段语音数字串的声学特征，本申请可以通过训练好的HMM模型进行解码，从而获取音频的解码序列。最后，本申请将这个解码序列与给定的数字串进行对比，从而验证语音数字串识别是否正确。

另外，本申请的声学模型和语言模型自适应方法也可以和基于端到端的ASR方法进行结合。图7是基于端到端的鲁棒语音数字串验证方法，该方法选用了端到端模型框架LAS。整个LAS模型一般由两个部分组成：编码器和基于注意力的解码器。其中编码器是利用神经网络对声学特征进行编码，基于注意力的解码器是首先利用注意力机制去计算当前时刻的解码内容和编码器输出之间的相似度并且生成对应时刻的上下文向量，然后根据这个上下文向量进行解码，最后通过一个softmax层直接输出解码序列。

在编码器学习过程中，本申请也使用了迁移学习去做声学模型自适应。具体而言，本申请首先在大量的通用语料(第一训练样本)上训练一个基于PBLSTM网络的编码器，然后把它当作初始化模型在目标语料(第二训练样本)中继续训练，得到本申请中的声学模型。虽然基于端到端的ASR方法能够直接输出解码序列，但是在这个解码序列在实际任务场景中一般都会有所偏差。因此，本申请也使用了目标语言模型自适应方法进行重打分，从而生成一个更加准确的解码序列。

本申请随机抽取了5000个音频样例进行测试，统计了不同方法在语音数字串验证的准确率和实时率，从表1结果中可以看出，相比于基于HMM的ASR方法，本申请的基于HMM和基于端到端的鲁棒语音数字串验证方法在准确率上有明显的提升，同时这两种方法在语音数字串验证上的实时率有明显的降低。

表1

方法	准确率	实时率
			基于HMM的ASR	65.60％	0.0250
本发明基于HMM的鲁棒语音数字串验证	91.32％	0.0125
			本发明基于端到端的鲁棒语音数字串验证	92.05％	0.0100

通过本申请，通过上述方法，在验证语音的过程中，使用了使用朗读文本得到的样本与朗读数字串得到的样本先后训练得到的声学模型来识别语音，并且使用声学模型输出的识别结果的第一概率和获取到的识别结果的第二概率来筛选识别结果，从而可以获取更加准确的语音的识别结果，提高了语音验证过程的准确度。

作为一种可选的实施方案，在根据第一概率与第二概率确定出目标识别结果之后，方法还包括：

在目标识别结果与目标数字串不同的情况下，发送第二提示信息，其中，第二提示信息用于提示目标对象未通过与目标数字串对应的验证。

本申请中在发送第一提示信息之后，还可以为用户分配对应的权限，即允许登录的权限。或者，发送第二提示信息之后，禁止用户登录。

通过本申请，通过上述方法，从而可以在完成验证的基础上，发送对应的提示信息，以及允许用户登录或者禁止用户登录，实现了提高对目标对象进行验证的准确度的效果。

作为一种可选的实施方案，在将目标语音输入到声学模型中之前，方法还包括：

获取第一训练样本与第二训练样本；

使用第一训练样本训练原始模型，直到训练次数达到预定次数或者原始模型的准确度达到第一准确度；

使用第二训练样本训练使用第一训练样本训练后的原始模型，得到声学模型。

可选地，本申请中的第一训练样本可以为通用预料，通用语料中包括了各种样式与内容的语音内容，第二训练样本可以为目标语料，目标语料中包括了数字串的语音内容。

先使用第一训练样本训练原始模型，再使用第二训练样本训练使用第一训练样本训练后的原始模型，得到声学模型，可以提高模型的准确度。

作为一种可选的实施方案，计算多个识别结果中每一个识别结果的第二概率，包括：

获取到多个识别结果；

使用目标语言模型计算多个识别结果中每一个识别结果的第二概率。

本申请中的目标语言模型可以为使用不同的样本训练第一模型，得到第二模型与第三模型之后，将第二模型与第三模型合并成的目标语言模型。合并成的目标语言模型具有更强的识别与鉴别能力。

作为一种可选的实施方案，在使用语言模型计算多个识别结果中每一个识别结果的第二概率之前，方法还包括：

使用第三训练样本训练第一语言模型，得到第二语言模型，其中，第三训练样本为文本样本；

使用第四训练样本训练第一语言模型，得到第三语言模型，其中，第四训练样本为数字串样本；

将训练后打的第二语言模型与第三语言模型合并为目标语言模型。

通过本申请中的上述步骤，从而可以得到识别能力更强的目标语言模型，进一步提高了对目标对象进行验证的验证准确性。

作为一种可选的实施方案，根据第一概率与第二概率确定出目标识别结果包括：

将多个识别结果中，第二概率大于或者等于预定阈值的识别结果删除；

将剩余的识别结果中，第一概率最大的识别结果确定为目标识别结果。

也就是说，本申请中使用声学模型来识别目标语音，得到多种可能，然后使用目标语音模型来筛除掉不太可能的结果，在剩余结果中将第一概率最大的识别结果确定为目标识别结果，从而可以得到准确的识别结果，提高验证的准确性。

作为一种可选的实施方案，获取目标对象朗读目标数字串所产生的目标语音包括：

在显示界面上显示目标数字串；

提示目标对象朗读目标数字串；

在提示目标对象朗读目标数字串时开始录音；

在录制第一时长后结束录音；

将录制的录音确定为目标语音。

通过本申请，通过在显示界面上显示目标数字串并录制目标语音，以及识别目标语音后对目标对象进行验证，提高了对目标对象进行验证的准确性。

作为一种可选的实施方案，在获取目标对象朗读目标数字串所产生的目标语音之前，方法还包括：

接收目标对象的登录请求，其中，登录请求用于请求登录目标应用，显示目标数字串，提示目标对象朗读目标数字。

也就是说，将本申请应用在登录过程中，从而提高登录过程中对目标对象进行验证的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述语音验证方法的语音验证装置。如图8所示，该装置包括：

第一获取单元802，用于获取目标对象朗读目标数字串所产生的目标语音；

输入单元804，用于将目标语音输入到声学模型中，得到目标语音的多个识别结果与每一个识别结果的第一概率，其中，声学模型为使用第一训练样本与第二训练样本进行训练得到的用于识别目标语音的模型，第一训练样本为朗读文本得到的样本，第二训练样本为朗读数字串得到的样本，第一概率用于指示识别结果与目标语音相同的可能性；

计算单元806，用于计算所述多个识别结果中每一个所述识别结果的第二概率，其中，所述第二概率用于指示所述识别结果的语义理解程度；

确定单元808，用于根据第一概率与第二概率确定出目标识别结果，其中，目标识别结果为第二概率小于预定阈值且第一概率最大的识别结果；

第一发送单元810，用于在目标识别结果与目标数字串相同的情况下，发送第一提示信息，其中，第一提示信息用于提示目标对象通过与目标数字串对应的验证。

可选地，上述语音验证装置可以但不限于应用于登录过程中，或者转账过程中，或者下载过程中，或者打开文件过程中，或者支付过程中。

本申请中的目标语言模型可以为预先训练的语言模型。

通过本申请，通过上述装置，在验证语音的过程中，使用了使用朗读文本得到的样本与朗读数字串得到的样本先后训练得到的声学模型来识别语音，并且使用声学模型输出的识别结果的第一概率和获取到的识别结果的第二概率来筛选识别结果，从而可以获取更加准确的语音的识别结果，提高了语音验证过程的准确度。

作为一种可选的实施方案，如图9所示，上述装置还包括：

第二发送单元902，用于在根据第一概率与第二概率确定出目标识别结果之后，在目标识别结果与目标数字串不同的情况下，发送第二提示信息，其中，第二提示信息用于提示目标对象未通过与目标数字串对应的验证。

作为一种可选的实施方案，上述装置还包括：

第二获取单元，用于在将目标语音输入到声学模型中之前，获取第一训练样本与第二训练样本；

第一训练单元，用于使用第一训练样本训练原始模型，直到训练次数达到预定次数或者原始模型的准确度达到第一准确度；

第二训练单元，用于使用第二训练样本训练使用第一训练样本训练后的原始模型，得到声学模型。

作为一种可选的实施方案，上述计算单元包括：

获取模块，用于获取到多个识别结果；

计算模块，用于使用目标语言模型计算多个识别结果中每一个识别结果的第二概率。

本申请中的目标语言模型可以为使用不同的样本训练第一模型，得到第二模型与第三模型之后，将第二模型与第三模型合并成的目标语言模型。

作为一种可选的实施方案，上述获取单元还包括：

第一训练模块，用于在使用语言模型计算多个识别结果中每一个识别结果的第二概率之前，使用第三训练样本训练第一语言模型，得到第二语言模型，其中，第三训练样本为文本样本；

第二训练模块，用于使用第四训练样本训练第一语言模型，得到第三语言模型，其中，第四训练样本为数字串样本；

合并模块，用于将训练后打的第二语言模型与第三语言模型合并为目标语言模型。

作为一种可选的实施方案，上述确定单元包括：

删除模块，用于将多个识别结果中，第二概率大于或者等于预定阈值的识别结果删除；

第一确定模块，用于将剩余的识别结果中，第一概率最大的识别结果确定为目标识别结果。

作为一种可选的实施方案，上述第一获取单元包括：

显示模块，用于在显示界面上显示目标数字串；

提示模块，用于提示目标对象朗读目标数字串；

录音模块，用于在提示目标对象朗读目标数字串时开始录音，在录制第一时长后结束录音；

第二确定模块，用于将录制的录音确定为目标语音。

作为一种可选的实施方案，上述装置还包括：

接收单元，用于在获取目标对象朗读目标数字串所产生的目标语音之前，接收目标对象的登录请求，其中，登录请求用于请求登录目标应用；

显示单元，用于显示目标数字串，提示目标对象朗读目标数字。

根据本发明实施例的又一个方面，还提供了一种用于实施上述语音验证方法的电子装置，如图10所示，该电子装置包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

获取目标对象朗读目标数字串所产生的目标语音；

将目标语音输入到声学模型中，得到目标语音的多个识别结果与每一个识别结果的第一概率，其中，声学模型为使用第一训练样本与第二训练样本进行训练得到的用于识别目标语音的模型，第一训练样本为朗读文本得到的样本，第二训练样本为朗读数字串得到的样本，第一概率用于指示识别结果与目标语音相同的可能性；

计算所述多个识别结果中每一个所述识别结果的第二概率，其中，所述第二概率用于指示所述识别结果的语义理解程度；

根据第一概率与第二概率确定出目标识别结果，其中，目标识别结果为第二概率小于预定阈值且第一概率最大的识别结果；

在目标识别结果与目标数字串相同的情况下，发送第一提示信息，其中，第一提示信息用于提示目标对象通过与目标数字串对应的验证。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的语音验证方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音验证方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储声学模型、目标语音模型与多个识别结果等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述语音验证装置中的第一获取单元802、输入单元804、计算单元806、确定单元808与第一发送单元810。此外，还可以包括但不限于上述语音验证装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示验证结果；和连接总线1010，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

获取目标对象朗读目标数字串所产生的目标语音；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音验证方法，其特征在于，包括：

获取目标对象朗读目标数字串所产生的目标语音；

将所述目标语音输入到声学模型中，得到所述目标语音的多个识别结果与每一个识别结果的第一概率，其中，所述声学模型为使用第一训练样本与第二训练样本进行训练得到的用于识别所述目标语音的模型，所述第一训练样本为朗读文本得到的样本，所述第二训练样本为朗读数字串得到的样本，所述第一概率用于指示所述识别结果与所述目标语音相同的可能性；

根据所述第一概率与所述第二概率确定出目标识别结果，其中，所述目标识别结果为所述第二概率小于预定阈值且所述第一概率最大的识别结果；

在所述目标识别结果与所述目标数字串相同的情况下，发送第一提示信息，其中，所述第一提示信息用于提示所述目标对象通过与所述目标数字串对应的验证。

2.根据权利要求1所述的方法，其特征在于，在根据所述第一概率与所述第二概率确定出所述目标识别结果之后，所述方法还包括：

在所述目标识别结果与所述目标数字串不同的情况下，发送第二提示信息，其中，所述第二提示信息用于提示所述目标对象未通过与所述目标数字串对应的验证。

3.根据权利要求1所述的方法，其特征在于，在将所述目标语音输入到所述声学模型中之前，所述方法还包括：

获取所述第一训练样本与所述第二训练样本；

使用所述第一训练样本训练原始模型，直到训练次数达到预定次数或者所述原始模型的准确度达到第一准确度；

使用所述第二训练样本训练使用所述第一训练样本训练后的所述原始模型，得到所述声学模型。

4.根据权利要求1所述的方法，其特征在于，所述计算所述多个识别结果中每一个所述识别结果的第二概率，包括：

获取到所述多个识别结果；

使用目标语言模型计算所述多个识别结果中每一个所述识别结果的所述第二概率。

5.根据权利要求4所述的方法，其特征在于，在使用所述目标语言模型计算所述多个识别结果中每一个所述识别结果的所述第二概率之前，所述方法还包括：

使用第三训练样本训练第一语言模型，得到第二语言模型，其中，所述第三训练样本为文本样本；

使用第四训练样本训练所述第一语言模型，得到第三语言模型，其中，所述第四训练样本为数字串样本；

将训练后打的所述第二语言模型与所述第三语言模型合并为所述目标语言模型。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一概率与所述第二概率确定出目标识别结果包括：

将所述多个识别结果中，所述第二概率大于或者等于所述预定阈值的识别结果删除；

将剩余的所述识别结果中，所述第一概率最大的识别结果确定为所述目标识别结果。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述获取目标对象朗读目标数字串所产生的目标语音包括：

在显示界面上显示所述目标数字串；

提示所述目标对象朗读所述目标数字串；

在提示所述目标对象朗读所述目标数字串时开始录音；

在录制第一时长后结束录音；

将录制的所述录音确定为所述目标语音。

8.根据权利要求1至6任意一项所述的方法，其特征在于，

在获取所述目标对象朗读所述目标数字串所产生的所述目标语音之前，所述方法还包括：接收所述目标对象的登录请求，其中，所述登录请求用于请求登录目标应用，显示所述目标数字串，提示所述目标对象朗读所述目标数字。

9.一种语音验证装置，其特征在于，包括：

第一获取单元，用于获取目标对象朗读目标数字串所产生的目标语音；

输入单元，用于将所述目标语音输入到声学模型中，得到所述目标语音的多个识别结果与每一个识别结果的第一概率，其中，所述声学模型为使用第一训练样本与第二训练样本进行训练得到的用于识别所述目标语音的模型，所述第一训练样本为朗读文本得到的样本，所述第二训练样本为朗读数字串得到的样本，所述第一概率用于指示所述识别结果与所述目标语音相同的可能性；

计算单元，用于计算所述多个识别结果中每一个所述识别结果的第二概率，其中，所述第二概率用于指示所述识别结果的语义理解程度；

确定单元，用于根据所述第一概率与所述第二概率确定出目标识别结果，其中，所述目标识别结果为所述第二概率小于预定阈值且所述第一概率最大的识别结果；

第一发送单元，用于在所述目标识别结果与所述目标数字串相同的情况下，发送第一提示信息，其中，所述第一提示信息用于提示所述目标对象通过与所述目标数字串对应的验证。

10.一种计算机可读的存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至8任一项中所述的方法。

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至8任一项中所述的方法。