CN114613367A

CN114613367A - 基于声音识别的同步录音录像方法、装置以及存储介质

Info

Publication number: CN114613367A
Application number: CN202011340811.8A
Authority: CN
Inventors: 林上青; 吴海英; 夏溧; 王洪斌; 蒋宁
Original assignee: Beijing Finite Element Technology Co Ltd
Current assignee: Beijing Finite Element Technology Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-06-10

Abstract

本申请公开了一种基于声音识别的同步录音录像方法、装置以及存储介质。其中，该方法包括：获取用户在办理业务过程中产生的视频图像信息和与视频图像信息对应的第一音频信息；根据第二音频信息判断第一音频信息是否为用户的真实音频，其中第二音频信息为预先采集的与用户对应的音频信息；以及在判断第一音频信息为用户的真实音频的情况下，根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息。

Description

基于声音识别的同步录音录像方法、装置以及存储介质

技术领域

本申请涉及智能识别技术领域，特别是涉及一种基于声音识别的同步录音录像方法、装置以及存储介质。

背景技术

基于银保监会监管要求，银行、保险、信托等金融机构均已开始推行“双录”措施，对自有理财产品和代理产品的销售过程实施实时管理。今年以来，双录逐步进入V3.0时代，客户购买金融产品不但可以随时随地通过手机自助完成双录，还可以极大降低了金融机构的人力成本，减少展业经理数量。

自助双录目前主要通过人脸识别等手段确保当前完成双录的人员为客户本人，但无法准确判断用户语音回答为本人真实回答，如双录过程出现代答情况，则存在一定的欺诈和管理风险。此外，采用人脸识别的方式需要提供用户身份证头像或者其他生活大头照作为比对源，有一定的隐私风险的问题。

针对上述的现有技术中存在的双录过程采用人脸识别的方式进行，因此无法准确判断用户语音回答为本人真实回答，并且人脸识别需要客户的人脸信息，进而还存在隐私泄露的风险的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种基于声音识别的同步录音录像方法、装置以及存储介质，以至少解决现有技术中存在的双录过程采用人脸识别的方式进行，因此无法准确判断用户语音回答为本人真实回答，并且人脸识别需要客户的人脸信息，进而还存在隐私泄露的风险的技术问题。

根据本公开实施例的一个方面，提供了一种基于声音识别的同步录音录像方法，包括：获取用户在办理业务过程中产生的视频图像信息和与视频图像信息对应的第一音频信息；根据第二音频信息判断第一音频信息是否为用户的真实音频，其中第二音频信息为预先采集的与用户对应的音频信息；以及在判断第一音频信息为用户的真实音频的情况下，根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种基于声音识别的同步录音录像装置，包括：信息获取模块，用于获取用户在办理业务过程中产生的视频图像信息和与视频图像信息对应的第一音频信息；判断模块，用于根据第二音频信息判断第一音频信息是否为用户的真实音频，其中第二音频信息为预先采集的与用户对应的音频信息；以及录像合成模块，用于在判断第一音频信息为用户的真实音频的情况下，根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息。

根据本公开实施例的另一个方面，还提供了一种基于声音识别的同步录音录像装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取用户在办理业务过程中产生的视频图像信息和与视频图像信息对应的第一音频信息；根据第二音频信息判断第一音频信息是否为用户的真实音频，其中第二音频信息为预先采集的与用户对应的音频信息；以及在判断第一音频信息为用户的真实音频的情况下，根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息。

在本公开实施例中，业务处理系统首先获取业务过程中产生的视频图像信息和第一音频信息，然后根据预先采集的用户的第二音频信息判断该第一音频是否为用户的真实音频，即通过音频对用户的身份进行认证。最终，在判断第一音频为用户真实音频的情况下，根据视频图像信息和第一音频信息合成同步录音录像，完成双录的操作。与现有双录过程采用人脸识别的方式相比，本方案通过音频确定用户的身份，可以准确判断用户语音回答为本人真实回答，防止他人假冒用户办理业务。此外，本方案只需要根据用户的声音即可完成身份的认证，不需要用户输入身份证或者照片等隐私信息，因此还可以防止用户的隐私泄露。从而达到了准确进行身份认证并且保护隐私的技术效果。进而解决了现有技术中存在的双录过程采用人脸识别的方式进行，因此无法准确判断用户语音回答为本人真实回答，并且人脸识别需要客户的人脸信息，进而还存在隐私泄露的风险的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1所述的基于声音识别的同步录音录像的系统的示意图；

图3是根据本公开实施例1所述的双录流程示意图；

图4是根据本公开实施例1的第一个方面所述的基于声音识别的同步录音录像方法的流程示意图；

图5是根据本公开实施例1所述的双录操作过程的示意图；

图6是根据本公开实施例1所述的声纹比对过程的示意图；

图7是根据本公开实施例1所述的双录操作界面的示意图；

图8是根据本公开实施例2所述的基于声音识别的同步录音录像装置的示意图；以及

图9是根据本公开实施例3所述的基于声音识别的同步录音录像装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，还提供了一种基于声音识别的同步录音录像方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现基于声音识别的同步录音录像方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的基于声音识别的同步录音录像方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的基于声音识别的同步录音录像方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

图2是根据本实施例所述的基于声音识别的同步录音录像的系统的示意图。参照图2所示，该系统包括：前端的APP程序以及后端的业务处理系统，业务处理系统连接语音后台和人脸后台，其中前端APP例如运行在用户的终端设备上。参考图3所示，用户例如可以利用终端设备登录APP程序或者小程序进行双录(即：同步录音录像)的操作，用户首先进行身份的认证，例如：通过OCR识别技术识别用户的身份证或者用户输入信息。然后，系统会进行TTS播报提示用户，并且进行人脸、语音、活体以及声纹识别，最终在识别通过的情况下上传视频。需要说明的是，系统中的终端设备均可适用上面所述的硬件结构。

在上述运行环境下，根据本实施例的第一个方面，提供了一种基于声音识别的同步录音录像方法，该方法由图2中所示的业务处理系统实现。图4示出了该方法的流程示意图，参考图4所示，该方法包括：

S402：获取用户在办理业务过程中产生的视频图像信息和与视频图像信息对应的第一音频信息；

S404：根据第二音频信息判断第一音频信息是否为用户的真实音频，其中第二音频信息为预先采集的与用户对应的音频信息；以及

S406：在判断第一音频信息为用户的真实音频的情况下，根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息。

正如背景技术中所述的，基于银保监会监管要求，银行、保险、信托等金融机构均已开始推行“双录”措施，对自有理财产品和代理产品的销售过程实施实时管理。今年以来，双录逐步进入V3.0时代，客户购买金融产品不但可以随时随地通过手机自助完成双录，还可以极大降低了金融机构的人力成本，减少展业经理数量。自助双录目前主要通过人脸识别等手段确保当前完成双录的人员为客户本人，但无法准确判断用户语音回答为本人真实回答，如双录过程出现代答情况，则存在一定的欺诈和管理风险。此外，采用人脸识别的方式需要提供用户身份证头像或者其他生活大头照作为比对源，有一定的隐私风险的问题。

针对背景技术中存在的技术问题，本实施例技术方案在步骤S402中，业务处理系统首先获取用户在办理业务过程中产生的视频图像信息和与视频图像信息对应的第一音频信息。在进行双录的过程中，前端的APP程序可以调用用户终端设备的摄像头采集用户在办理业务(例如：贷款业务)过程中的视频图像信息。并且在办理业务过程中，系统也可以进行TTS播报引导用户办理业务，并且同时调用终端设备的麦克风采集用户的说话内容，用户的说话内容和TTS播报的内容共同构成该第一音频信息。在这种情况下，业务处理系统可以获取该视频图像信息以及该第一音频信息。

进一步地，在步骤S404中，业务处理系统根据第二音频信息判断第一音频信息是否为用户的真实音频，即：判断进行该贷款业务的是否为用户本人。其中，系统在对用户在进行双录过程之前，首先需要采集用户的声音信息，该第二音频信息即为预先采集的与用户对应的音频信息。

最终，在步骤S406中，在判断第一音频信息为用户的真实音频的情况下(即：确定进行该业务的是用户本人)，业务处理系统根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息，并且业务处理系统还可以将生成的同步录音录像信息进行上传保存。

从而通过这种方式，业务处理系统首先获取业务过程中产生的视频图像信息和第一音频信息，然后根据预先采集的用户的第二音频信息判断该第一音频是否为用户的真实音频，即通过音频对用户的身份进行认证。最终，在判断第一音频为用户真实音频的情况下，根据视频图像信息和第一音频信息合成同步录音录像，完成双录的操作。与现有双录过程采用人脸识别的方式相比，本方案通过音频确定用户的身份，可以准确判断用户语音回答为本人真实回答，防止他人假冒用户办理业务。此外，本方案只需要根据用户的声音即可完成身份的认证，不需要用户输入身份证或者照片等隐私信息，因此还可以防止用户的隐私泄露。从而达到了准确进行身份认证并且保护隐私的技术效果。进而解决了现有技术中存在的双录过程采用人脸识别的方式进行，因此无法准确判断用户语音回答为本人真实回答，并且人脸识别需要客户的人脸信息，进而还存在隐私泄露的风险的技术问题。

可选地，第二音频信息为用户声纹特征信息，并且根据第二音频信息判断第一音频信息是否为用户的真实音频，包括：提取第一音频信息包含的声纹特征信息；以及将第一音频信息包含的声纹特征信息与用户声纹特征信息进行比对，判断第一音频信息是否为用户的真实音频。

为了进一步保证音频判断的准确性，本方案采用声纹特征信息进行判断。具体地，本方案中的第二音频信息可以是用户声纹特征信息，参考图5所示，双录过程中，用户首先进行声纹注册。在一个具体实例中，首先采集用户的音频，然后从采集到的用户音频中提取用户的声纹特征信息并保存，完成声纹注册。此外，在声纹注册不成功的情况下，还需要重新加载注册业务流程进行声纹注册，直至声纹注册成功。完成声纹注册之后，进入自助双录过程，在根据第二音频信息判断第一音频信息是否为用户的真实音频的操作中，业务处理系统首先提取第一音频信息包含的声纹特征信息，其中提取的方式例如可以采用现有技术中的声纹特征提取方法进行提取。然后，业务处理系统将第一音频信息包含的声纹特征信息与用户声纹特征信息进行比对，判断第一音频信息是否为用户的真实音频。从而，通过声纹的比对可以更加准确的判断第一音频信息是否为用户的真实音频。

可选地，本方案还包括：对视频图像信息进行活体检测，判断视频图像信息中用户是否为活体，并且根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息，包括：在判断第一音频信息为用户的真实音频并且视频图像信息中用户为活体的情况下，生成同步录音录像信息。

具体地，本方案的业务处理系统还可以对视频图像信息进行活体检测，判断视频图像信息中用户是否为活体，即判断录制的视频中的用户是否为活体，避免利用虚假的图片或者视频进行欺诈。并且在根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息的操作中，在判断第一音频信息为用户的真实音频并且视频图像信息中用户为活体的情况下，生成同步录音录像信息，即同时满足活体和真实音频的情况下才生成同步录音录像。因此，本方案可以在用户身份认证的过程中引入了活体检测的方式，从而进一步地确保了合成录音录像为用户的真实信息。

可选地，本方案还包括：提取视频图像信息中包含的第一人脸图像信息；根据第二人脸图像信息判断第一人脸图像信息是否为用户的真实人脸，其中第二人脸图像信息为预先采集的与用户对应的人脸信息，并且根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息，包括：在第一音频信息为用户的真实音频并且第一人脸图像信息是用户的真实人脸的情况下，生成同步录音录像信息。

具体地，本方案的业务处理系统还可以提取视频图像信息中包含的第一人脸图像信息，即提取视频中的人脸，其中人脸图像的提取方式例如可以采用现有技术中的人脸特征提取方式，此处关于人脸图像的提取方式不做具体限定。然后，业务处理系统根据第二人脸图像信息判断第一人脸图像信息是否为用户的真实人脸(对应于图5中的人脸比对)。其中，系统在对用户在进行双录过程之前，还需要采集用户的人脸图像信息(对应于第二人脸图像信息)。并且，在根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息的操作中，在第一音频信息为用户的真实音频并且第一人脸图像信息是用户的真实人脸的情况下，业务处理系统生成同步录音录像信息。从而通过这种方式，在用户身份认证的过程中可以结合声音识别和人脸图像识别，因此进一步保证了用户身份认证的准确性。此外，参考图5所示，本方案在声纹比对和/或人脸比对不成功的次数较多的情况下，结束双录的过程。

可选地，在根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息之前，还包括：对视频图像信息进行防翻拍检测。

具体地，为了进一步保证双录信息的准确性，本方案还可以对图像信息进行防翻拍检测。此外，参考图7所示，APP还可以设置人脸检测框，需要用户的面部图像位于该检测框中，从而可以进一步保证双录的准确性。

可选地，第一音频信息为用户朗读预设提示信息的音频，并且根据第二音频信息判断第一音频信息是否为用户的真实音频，包括：从第一音频信息中提取与提示信息相关的第三音频信息；以及根据第二音频信息判断第三音频信息是否为用户的真实音频。

具体地，参考图7所示，为了对用户进行声音认证，APP的界面会显示预先设置的提示信息，提示信息可以是一段文本(例如：“你好”、“同意”等)需要用户进行朗读。用户朗读该提示信息可以生成该第一音频信息。由于双录过程中可能会受到周围环境的影响，因此第一音频信息还可能包含噪音、杂音等，影响音频比对的准确性。为了解决该问题，在根据第二音频信息判断第一音频信息是否为用户的真实音频的操作中，业务处理系统首先从第一音频信息中提取与提示信息相关的第三音频信息，即用户朗读提示信息的有效音频信息(对应于图6中的有效语音提取)。然后，业务处理系统将第二音频信息和第三音频信息进行比对，判断第三音频信息是否为用户的真实音频。从而通过这种方式可以避免双录过程中的噪音、杂音等对用户有效音频的影响。

可选地，参考图6所示，本方案在根据第二音频信息判断第一音频信息是否为用户的真实音频之前，还可以对第一音频信息进行增强处理以及语音质量检测处理，便于后期的音频比对工作。

可选地，在根据第二音频信息判断第一音频信息是否为用户的真实音频之前，还包括：从预设的音频数据库中获取与用户对应的第二音频信息，其中音频数据库用于存储对用户采集的音频信息。

具体地，本方案的语音后台还可以部署音频数据库(例如：音频数据库可以是图6中的声纹数据库)，该音频数据库用于存储对用户采集的音频信息。在根据第二音频信息判断第一音频信息是否为用户的真实音频之前，业务处理系统连接该语音后台，从预设的音频数据库中获取与用户对应的第二音频信息。从而，可以快速的获取用户的第二音频信息。

可选地，在根据第二人脸图像信息判断第一人脸图像信息是否为用户的真实人脸之前，还包括：从预设的人脸数据库中获取与用户对应的第二人脸图像信息，其中人脸数据库用于存储对用户采集的人脸图像信息。

具体地，本方案的人脸后台还可以部署人脸数据库，该人脸数据库用于存储对用户采集的人脸图像信息。在根据第二人脸图像信息判断第一人脸图像信息是否为用户的真实人脸之前，业务处理系统连接该人脸后台，从预设的人脸数据库中获取与用户对应的第二人脸图像信息。从而，可以快速的获取用户的人脸图像信息。

此外，在实际应用中可能会涉及到多个有关联的业务，例如：放贷、借贷、融资等业务，每个业务的双录过程都可以采用上述的方式，并且可以共用采集的用户声纹特征信息和人脸特征信息等。在身份认证的过程中，直接从数据库中获取用户的声纹特征信息或者人脸特征信息进行认证，不需要每个业务分别进行用户的特征采集，因此可以提高效率。

在一个具体实例中，本方案包括以下步骤：

1)客户在自助双录前，根据语音和屏幕提示读一段语音，完成个人声音的注册采集，后台进行有效声音提取处理；

2)采集完成，客户进入自助双录，通过人脸在框、人脸比对、防翻拍检测等检测；

3)客户根据语音和屏幕提示，回答问题，一般回答为“是的”、“同意”等答案，后台进行有效声音提取处理；

4)后台将用户回答的有效声音和注册的有效声音进行算法比对；

5)如声纹比对通过，客户完成双录；如声纹比对不通过，进程终止，客户需重新进行双录。

针对本方案，声纹识别提供了2大核心功能：声纹注册、声纹比对。

声纹注册：客户在进行双录前，授权调用摄像头及麦克风，根据语音及屏幕提示读一段文字，完成声音注册。在实际案例中，客户需要读的文字往往与业务相关，主要用于客户办理真实意愿采集，并同时完成声音注册。

成功注册的声音将储存在预设的声音数据库，并返给App端音频下载地址，App端通过用户ID可以提取客户已注册的音频文件，作为客户声纹识别的比对源应用于各个业务场景(各个业务)。

声纹比对：客户通过认证正式进入双录流程，在双录过程中通过语音播报及屏幕提示，用户回到“是的”、“同意”等指定回答，后台将根据用户ID，将用户回答与该用户在数据库中的声音底纹进行比对，如每次回答均比对通过，则完成双录流程；如比对失败，则终止双录进程。

本方案解决了人脸识别需要提供用户身份证头像或者其他生活大头照作为比对源，有一定的隐私风险的问题，降低隐私管理风险；保障了双录过程中用户的回答为本人真实回答，降低管理风险，减少业务扯皮问题。解决了用户声音采集问题，将声音采集环节合理安排在双录流程前，为声音采集及比对提供合理机制。实现了资源复用，采集的用户声音源，可用于任何场景的声纹比对。提高了自助双录的整体合规性保障。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。

从而根据本实施例，业务处理系统首先获取业务过程中产生的视频图像信息和第一音频信息，然后根据预先采集的用户的第二音频信息判断该第一音频是否为用户的真实音频，即通过音频对用户的身份进行认证。最终，在判断第一音频为用户真实音频的情况下，根据视频图像信息和第一音频信息合成同步录音录像，完成双录的操作。与现有双录过程采用人脸识别的方式相比，本方案通过音频确定用户的身份，可以准确判断用户语音回答为本人真实回答，防止他人假冒用户办理业务。此外，本方案只需要根据用户的声音即可完成身份的认证，不需要用户输入身份证或者照片等隐私信息，因此还可以防止用户的隐私泄露。从而达到了准确进行身份认证并且保护隐私的技术效果。进而解决了现有技术中存在的双录过程采用人脸识别的方式进行，因此无法准确判断用户语音回答为本人真实回答，并且人脸识别需要客户的人脸信息，进而还存在隐私泄露的风险的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图8示出了根据本实施例所述的基于声音识别的同步录音录像装置800，该装置800与根据实施例1的第一个方面所述的方法相对应。参考图8所示，该装置800包括：信息获取模块810，用于获取用户在办理业务过程中产生的视频图像信息和与视频图像信息对应的第一音频信息；判断模块820，用于根据第二音频信息判断第一音频信息是否为用户的真实音频，其中第二音频信息为预先采集的与用户对应的音频信息；以及录像合成模块830，用于在判断第一音频信息为用户的真实音频的情况下，根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息。

可选地，第二音频信息为用户声纹特征信息，并且判断模块820，包括：声纹特征提取子模块，用于提取第一音频信息包含的声纹特征信息；以及声纹比对子模块，用于将第一音频信息包含的声纹特征信息与用户声纹特征信息进行比对，判断第一音频信息是否为用户的真实音频。

可选地，装置800还包括：活体检测模块，用于对视频图像信息进行活体检测，判断视频图像信息中用户是否为活体，并且录像合成模块830，包括：第一合成子模块，用于在判断第一音频信息为用户的真实音频并且视频图像信息中用户为活体的情况下，生成同步录音录像信息。

可选地，装置800还包括：人脸特征提取模块，用于人脸信息提取子模块，用于提取视频图像信息中包含的第一人脸图像信息；人脸比对模块，用于根据第二人脸图像信息判断第一人脸图像信息是否为用户的真实人脸，其中第二人脸图像信息为预先采集的与用户对应的人脸信息，并且录像合成模块830，包括：第二合成子模块，用于在第一音频信息为用户的真实音频并且第一人脸图像信息是用户的真实人脸的情况下，生成同步录音录像信息。

可选地，装置800还包括：防翻拍检测模块，用于在根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息之前，对视频图像信息进行防翻拍检测。

可选地，第一音频信息为用户朗读预设提示信息的音频，并且判断模块820，包括：有效音频提取模块，用于从第一音频信息中提取与提示信息相关的第三音频信息；以及有效音频判断子模块，用于根据第二音频信息判断第三音频信息是否为用户的真实音频。

可选地，装置800还包括：预处理模块，用于根据第二音频信息判断第一音频信息是否为用户的真实音频之前，对第一音频信息进行增强处理。

可选地，装置800还包括：第一查询模块，用于在根据第二音频信息判断第一音频信息是否为用户的真实音频之前，从预设的音频数据库中获取与用户对应的第二音频信息，其中音频数据库用于存储对用户采集的音频信息。

可选地，装置800还包括：第二查询模块，用于在根据第二人脸图像信息判断第一人脸图像信息是否为用户的真实人脸之前，从预设的人脸数据库中获取与用户对应的第二人脸图像信息，其中人脸数据库用于存储对用户采集的人脸图像信息。

实施例3

图9示出了根据本实施例所述的基于声音识别的同步录音录像装置900，该装置900与根据实施例1的第一个方面所述的方法相对应。参考图9所示，该装置900包括：处理器910；以及存储器920，与处理器910连接，用于为处理器910提供处理以下处理步骤的指令：获取用户在办理业务过程中产生的视频图像信息和与视频图像信息对应的第一音频信息；根据第二音频信息判断第一音频信息是否为用户的真实音频，其中第二音频信息为预先采集的与用户对应的音频信息；以及在判断第一音频信息为用户的真实音频的情况下，根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息。

可选地，存储器920还用于为处理器910提供处理以下处理步骤的指令：对视频图像信息进行活体检测，判断视频图像信息中用户是否为活体，并且根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息，包括：在判断第一音频信息为用户的真实音频并且视频图像信息中用户为活体的情况下，生成同步录音录像信息。

可选地，存储器920还用于为处理器910提供处理以下处理步骤的指令：提取视频图像信息中包含的第一人脸图像信息；根据第二人脸图像信息判断第一人脸图像信息是否为用户的真实人脸，其中第二人脸图像信息为预先采集的与用户对应的人脸信息，并且根据视频图像信息和第一音频信息生成用户在业务过程中的同步录音录像信息，包括：在第一音频信息为用户的真实音频并且第一人脸图像信息是用户的真实人脸的情况下，生成同步录音录像信息。

可选地，根据第二音频信息判断第一音频信息是否为用户的真实音频之前，还包括：对第一音频信息进行增强处理。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于声音识别的同步录音录像方法，其特征在于，包括：

获取用户在办理业务过程中产生的视频图像信息和与所述视频图像信息对应的第一音频信息；

根据第二音频信息判断所述第一音频信息是否为所述用户的真实音频，其中所述第二音频信息为预先采集的与所述用户对应的音频信息；以及

在判断所述第一音频信息为所述用户的真实音频的情况下，根据所述视频图像信息和所述第一音频信息生成所述用户在所述业务过程中的同步录音录像信息。

2.根据权利要求1所述的方法，其特征在于，所述第二音频信息为用户声纹特征信息，并且根据第二音频信息判断所述第一音频信息是否为所述用户的真实音频，包括：

提取所述第一音频信息包含的声纹特征信息；以及

将所述第一音频信息包含的声纹特征信息与所述用户声纹特征信息进行比对，判断所述第一音频信息是否为所述用户的真实音频。

3.根据权利要求1所述的方法，其特征在于，还包括：对所述视频图像信息进行活体检测，判断所述视频图像信息中用户是否为活体，并且根据所述视频图像信息和所述第一音频信息生成所述用户在所述业务过程中的同步录音录像信息，包括：

在判断所述第一音频信息为所述用户的真实音频并且所述视频图像信息中用户为活体的情况下，生成所述同步录音录像信息。

4.根据权利要求1-2任意一项所述的方法，其特征在于，还包括：

提取视频图像信息中包含的第一人脸图像信息；

根据第二人脸图像信息判断所述第一人脸图像信息是否为所述用户的真实人脸，其中所述第二人脸图像信息为预先采集的与所述用户对应的人脸信息，并且根据所述视频图像信息和所述第一音频信息生成所述用户在所述业务过程中的同步录音录像信息，包括：

在所述第一音频信息为所述用户的真实音频并且所述第一人脸图像信息是所述用户的真实人脸的情况下，生成所述同步录音录像信息。

5.根据权利要求1所述的方法，其特征在于，在根据所述视频图像信息和所述第一音频信息生成所述用户在所述业务过程中的同步录音录像信息之前，还包括：对所述视频图像信息进行防翻拍检测。

6.根据权利要求1所述的方法，其特征在于，所述第一音频信息为所述用户朗读预设提示信息的音频，并且根据第二音频信息判断所述第一音频信息是否为所述用户的真实音频，包括：

从所述第一音频信息中提取与所述提示信息相关的第三音频信息；以及

根据第二音频信息判断所述第三音频信息是否为所述用户的真实音频。

7.根据权利要求1所述的方法，其特征在于，根据第二音频信息判断所述第一音频信息是否为所述用户的真实音频之前，还包括：对所述第一音频信息进行增强处理。

8.根据权利要求1所述的方法，其特征在于，在根据第二音频信息判断所述第一音频信息是否为所述用户的真实音频之前，还包括：

从预设的音频数据库中获取与所述用户对应的所述第二音频信息，其中所述音频数据库用于存储对用户采集的音频信息。

9.根据权利要求4所述的方法，其特征在于，在根据第二人脸图像信息判断所述第一人脸图像信息是否为所述用户的真实人脸之前，还包括：

从预设的人脸数据库中获取与所述用户对应的所述第二人脸图像信息，其中所述人脸数据库用于存储对用户采集的人脸图像信息。

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至9中任意一项所述的方法。