CN109214820A

CN109214820A - 一种基于音视频结合的商户收款系统及方法

Info

Publication number: CN109214820A
Application number: CN201810737956.8A
Authority: CN
Inventors: 叶志坚; 李稀敏; 肖龙源; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2019-01-15
Anticipated expiration: 2038-07-06
Also published as: CN109214820B

Abstract

本发明公开了一种基于音视频结合的商户收款系统及方法，其通过向用户展示随机抽取的提取词；并采集用户在朗读所述提取词时的人脸信息；对所述人脸信息进行唇部运动信息的识别；并且，采集用户在朗读所述提取词时的语音信息；通过融合所述语音信息和所述唇部运动信息进行声纹识别，得到音视频融合声纹信息；然后，根据所述人脸信息和所述音视频融合声纹信息对用户进行身份验证；以及将所述语音信息与所展示的提取词进行对照，判断是否匹配；最后在完成身份验证和提取词匹配后进行扣款；用户在支付过程中只需朗读系统随机展示的提取词，即可根据用户朗读过程中提取的人脸信息和音视频融合声纹信息进行支付验证，用户无需操作其他设备，体验度更好。

Description

一种基于音视频结合的商户收款系统及方法

技术领域

本发明涉及支付验证技术领域，特别是一种基于音视频结合的商户收款系统及对应的方法。

背景技术

目前，在人脸支付的时候，为了排除用户在消费时用他人的照片进行支付，有两种辅助检测方式：第一种是需要人体配合进行活体检测，这时，会需要用户配合眨眨眼、摇摇头之类的，用户体验不好；第二种情况是硬件支持活体检测，不需要用户配合，但是这样做的问题是，用户稍微看一眼支付镜头，可能就完成支付了，没有和用户互动，可能会在用户不知情的情况下完成支付。

发明内容

本发明为解决上述问题，提供了一种基于音视频结合的商户收款系统及方法，用户只需朗读系统随机展示的提取词，即可根据用户朗读过程中提取的人脸信息和音视频融合声纹信息进行支付验证，用户无需操作其他设备，体验度更好。

为实现上述目的，本发明采用的技术方案为：

一种基于音视频结合的商户收款系统，其包括：

提取词展示模块，用于向用户展示随机抽取的提取词；

摄像模块，用于采集用户在朗读所述提取词时的人脸信息；

图像识别模块，用于对所述人脸信息进行唇部运动信息的识别；

语音采集模块，用于采集用户在朗读所述提取词时的语音信息；

音视频融合声纹识别模块，其通过融合所述语音信息和所述唇部运动信息以提取用户的增强语音，并对所述增强语音进行声纹识别，得到音视频融合声纹信息；

身份验证模块，用于根据所述人脸信息和所述音视频融合声纹信息对用户进行身份验证；

提取词验证模块，用于将所述语音信息与所展示的提取词进行对照，判断是否匹配；

支付模块，用于在完成身份验证和提取词匹配后进行扣款。

优选的，所述提取词展示模块中，所述提取词采用一串动态数字或者一组字母。

优选的，所述摄像模块采用三维摄像头，并采集用户的三维人脸信息，所述身份验证模块将用户的三维人脸信息与服务器的预存身份验证信息进行匹配。

优选的，还包括音质评估模块，用于对所述语音信息进行语音质量的评估；当所述语音信息的信噪比大于预设阈值时，则评估结果为语音质量好；当所述语音信息的信噪比小于或等于预设阈值时，则评估结果为语音质量差；并且，当语音质量好时，直接根据所述语音信息进行声纹识别；当语音质量差时，则通过所述音视频融合声纹识别模块对所述语音信息和所述唇部运动信息进行音视频融合声纹识别，得到音视频融合声纹信息。

优选的，所述的音视频融合声纹识别，进一步包括：

提取所述语音信息的声学特征；

使用卷积神经网络从所述声学特征中提取语音特征；

使用卷积神经网络从所述唇部运动信息中提取唇部特征；

将所述语音特征和所述唇部特征进行拼接处理，得到音视频融合特征；

使用循环神经网络从所述音视频融合特征中提取音视频融合信息；

根据所述音视频融合信息提取用户的增强语音；

根据所述增强语音进行声纹识别，得到音视频融合声纹信息。

进一步的，使用卷积神经网络从所述声学特征中提取语音特征，是将语音信息中的冗余信息去除，并提取信号较强的人的语音特征；

使用卷积神经网络从所述唇部运动信息中提取唇部特征，是指提取与语音特征相对应的唇部形状特征；

将所述语音特征和所述唇部特征进行拼接处理，是指将所述语音特征与所述唇部特征进行匹配和进行矩阵拼接，得到音视频融合特征；

使用循环神经网络从所述音视频融合特征中提取音视频融合信息，是对所述音视频融合特征的序列进行识别，并提取出与上下文相关的音视频融合信息；

根据所述音视频融合信息提取用户的增强语音，是将目标人的语音从背景噪音或多人语音中提取出来，得到目标人的增强语音；

根据所述增强语音进行声纹识别，是将所述增强语音与目标人的清晰语音进行比较和构建平方误差函数，并通过随机梯度下降算法最小化所述平方误差函数，利用所述平方差函数进行训练声纹识别模型，以及利用训练好的声纹识别模型对所述增强语音进行声纹识别。

对应的，本发明还提供一种基于音视频结合的商户收款方法，其包括以下步骤：

a.向用户展示随机抽取的提取词；

b.采集用户在朗读所述提取词时的人脸信息；

c.对所述人脸信息进行唇部运动信息的识别；

d.采集用户在朗读所述提取词时的语音信息；

e.通过融合所述语音信息和所述唇部运动信息以提取用户的增强语音，并对所述增强语音进行声纹识别，得到音视频融合声纹信息；

f.根据所述人脸信息和所述音视频融合声纹信息对用户进行身份验证；

g.将所述语音信息与所展示的提取词进行对照，判断是否匹配；

h.在完成身份验证和提取词匹配后进行扣款。

本发明的有益效果是：

(1)本发明的商户收款系统及方法，用户在支付过程中只需朗读系统随机展示的提取词，即可根据用户朗读过程中提取的人脸信息和音视频融合声纹信息进行支付验证，用户无需操作其他设备，体验度更好；

(2)本发明将唇部运动信息与声纹信息进行拼接融合，从而利用唇部运动信息来提升人多情况下的声纹识别的鲁棒性和准确性，从而对提取词进行验证，可实现智能活体的识别。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种基于音视频结合的商户收款系统的结构示意图；

图2为本发明一种基于音视频结合的商户收款方法的流程简图；

图3为本发明一种基于音视频结合的商户收款方法的音视频融合声纹识别的流程简图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种基于音视频结合的商户收款系统，本发明的商户收款系统，可以是一个手持设备，也可以是其他符合要求的设备，首先在设备中提供一个支付的APP软件，在APP内进行用户身份信息的注册和采集用户的人脸信息、声纹信息进行预存，以便用户在使用APP进行付款时用于身份验证，该用户身份信息可存储于云端服务器中，并且，该支付APP软件还与银行卡绑定，以便于付款。

本发明的商户收款系统包括：

提取词展示模块，用于向用户展示随机抽取的提取词；

摄像模块，用于采集用户在朗读所述提取词时的人脸信息；

支付模块，用于在完成身份验证和提取词匹配后进行扣款。

使用本发明的商户收款系统时，用户可自由在商店内挑选需要购买的物品，当人们选择好物品时，需要进行结账时，首选捕捉用户的三维人脸信息，判断用户的三维人脸信息是否与云端服务器上存储的人脸信息相匹配，若匹配则进入下一步；由于便利店周围环境因素的影响而导致支付失败，可能由于人多或其他噪音影响会导致机器不清楚的识别用户念的提取词信息，导致用户在念提取词的时候不清楚，不能完成验证，这时候就需要捕捉的唇部运动信息去进行对照。

本发明的唇部运动信息不同于唇语识别，而是将唇部运动信息与所展示的提取词进行对照，判断二者是否匹配，从而利用唇部运动信息来提升人多情况下的声纹识别的鲁棒性和准确性，从而对提取词进行验证，可实现智能活体的识别。

本实施例中，所述提取词展示模块中，所述提取词采用一串动态数字或者一组字母，更方便识别和朗读，通用性更好；当然，还可以采用其他验证信息，例如中文词语或短句、英文单词或词组等，不以此为限。并且，所述摄像模块采用三维摄像头，并采集用户的三维人脸信息，所述身份验证模块将用户的三维人脸信息与服务器的预存身份验证信息进行匹配。

在人多环境下，本发明还对用户进行音视频结合的声纹识别：系统会随机显示提取词，需要用户朗读所述提取词，并在用户朗读过程中，收集客户的声纹信息和人脸信息，判断该信息是否与云端服务器储存的相匹配，若匹配就会完成自动扣款，用户便可携带购买的物品离开便利店。其中，摄像头捕捉用户的人脸信息，麦克风捕捉用户的声纹信息。之所以还需要进行音视频结合声纹识别这一步的原因是因为只有人脸识别验证的话安全性是不够的，不能很好的判断是真人还是假人或是照片。

具体的，本实施例中还包括音质评估模块，用于对所述语音信息进行语音质量的评估；当所述语音信息的信噪比大于预设阈值时，则评估结果为语音质量好；当所述语音信息的信噪比小于或等于预设阈值时，则评估结果为语音质量差；本实施例中，所述信噪比的预设阈值优选为17；并且，当语音质量好时，直接根据所述语音信息进行声纹识别；当语音质量差时，则通过所述音视频融合声纹识别模块对所述语音信息和所述唇部运动信息进行音视频融合声纹识别，得到音视频融合声纹信息。其中，如图3所示，所述的音视频融合声纹识别，进一步包括：

提取所述语音信息的声学特征，例如，可采用使用短时傅里叶变换(stft),也可使用MFCC，Fbank等算法进行提取声学特征；

使用卷积神经网络(CNN)从所述声学特征中提取语音特征，所述卷积神经网络可以根据精度需求，计算量要求选择Resnet34，Resnet50等经典卷积网络；

使用卷积神经网络(CNN)从所述唇部运动信息中提取唇部特征；

使用循环神经网络(RNN)从所述音视频融合特征中提取音视频融合信息；优选地，所述循环神经网络选用3层的BILSTM网络；

根据所述音视频融合信息提取用户的增强语音；

以上是整个音视频融合声纹识别的模型架构。在使用之前，需要对整个模型进行训练。首先，构建一个包含目标说话人清晰语音、人脸信息、加噪语音和混合语音的数据集。通过提取目标说话人的增强语音，然后和目标说话人的清晰语音进行比较，构建损失函数，优选的，这里的损失函数是平方误差函数；通过随机梯度下降算法(SGD)最小化平方误差函数即可完成模型的构建。

本实施例中，使用卷积神经网络从所述声学特征中提取语音特征，是将语音信息中的冗余信息去除，并提取信号较强的人的语音特征；

当识别的用户信息与云端上储存的信息不一致时，即不能完成付款，用户也不能将商品带出便利店或商场，若携带未付款的商品出门，就会发出警报声。考虑到存在信号不好的情况，导致用户识别的信息不能与云端上的信息进行验证匹配，因而，本发明还设置有本地服务器，以延迟支付的方式进行付款。当用户第一次在商店购买之后，用户信息(包括人脸信息、声纹信息和付款信息)会存储在本地服务服务器，当验证用户的人脸信息和声纹信息与本地服务器信息匹配，便可进行延迟支付，待信号好之后即自动进行扣款。其中，付款信息包含某人某时消费多少金额。

本发明的商户收款系统的设备采用eSIM卡与云端服务器进行联网。eSIM卡是指将传统SIM卡直接嵌入到设备芯片上，而不是作为独立的可移除零部件加入设备中，用户无需插入物理SIM卡，如同早年的小灵通。这一做法将允许用户更加灵活的选择运营商套餐，或者在无需解锁设备、购买新设备的前提下随时更换运营商。未来通用的eSIM标准建立将为普通用户、企业用户节省更多移动设备使用成本，并带来更多的便利、安全性。本发明的收款系统可用于普通商店和大型商超，同样也可以用于无人便利店。

如图2所示，本发明还提供一种基于音视频结合的商户收款方法，其包括以下步骤：

a.向用户展示随机抽取的提取词；

b.采集用户在朗读所述提取词时的人脸信息；

c.对所述人脸信息进行唇部运动信息的识别；

d.采集用户在朗读所述提取词时的语音信息；

h.在完成身份验证和提取词匹配后进行扣款。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于方法实施例而言，由于其与系统实施例基本相似，所以描述的比较简单，相关之处参见系统实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于音视频结合的商户收款系统，其特征在于，包括：

提取词展示模块，用于向用户展示随机抽取的提取词；

摄像模块，用于采集用户在朗读所述提取词时的人脸信息；

支付模块，用于在完成身份验证和提取词匹配后进行扣款。

2.根据权利要求1所述的一种基于音视频结合的商户收款系统，其特征在于：所述提取词展示模块中，所述提取词采用一串动态数字或者一组字母。

3.根据权利要求1所述的一种基于音视频结合的商户收款系统，其特征在于：所述摄像模块采用三维摄像头，并采集用户的三维人脸信息，所述身份验证模块将用户的三维人脸信息与服务器的预存身份验证信息进行匹配。

4.根据权利要求1所述的一种基于音视频结合的商户收款系统，其特征在于：还包括音质评估模块，用于对所述语音信息进行语音质量的评估；当所述语音信息的信噪比大于预设阈值时，则评估结果为语音质量好；当所述语音信息的信噪比小于或等于预设阈值时，则评估结果为语音质量差；并且，当语音质量好时，直接根据所述语音信息进行声纹识别；当语音质量差时，则通过所述音视频融合声纹识别模块对所述语音信息和所述唇部运动信息进行音视频融合声纹识别，得到音视频融合声纹信息。

5.根据权利要求1所述的一种基于音视频结合的商户收款系统，其特征在于：所述的音视频融合声纹识别模块进行获取音视频融合声纹信息，进一步包括：

提取所述语音信息的声学特征；

使用卷积神经网络从所述声学特征中提取语音特征；

使用卷积神经网络从所述唇部运动信息中提取唇部特征；

根据所述音视频融合信息提取用户的增强语音；

6.根据权利要求5所述的一种基于音视频结合的商户收款系统，其特征在于：

使用卷积神经网络从所述声学特征中提取语音特征，是将语音信息中的冗余信息去除，并提取信号较强的人的语音特征；

7.一种基于音视频结合的商户收款方法，其特征在于，包括以下步骤：

a.向用户展示随机抽取的提取词；

b.采集用户在朗读所述提取词时的人脸信息；

c.对所述人脸信息进行唇部运动信息的识别；

d.采集用户在朗读所述提取词时的语音信息；

h.在完成身份验证和提取词匹配后进行扣款。