CN111382408A

CN111382408A - 智能化用户识别方法、装置及计算机可读存储介质

Info

Publication number: CN111382408A
Application number: CN202010098395.9A
Authority: CN
Inventors: 熊玮
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-07-07
Also published as: WO2021164122A1

Abstract

本发明涉及人工智能技术，揭露了一种智能化用户识别方法，包括：获取用户的视频数据，从所述视频数据中提取出图像数据和声音数据，根据所述图像数据获取第一身份信息，根据所述声音数据获取第二身份信息，将所述第一身份信息和所述第二身份信息进行比较，当所述第一身份信息与所述第二身份信息一致时，确定所述用户的身份信息，并将所述用户的视频数据与所述用户的身份信息进行关联存储，实现用户识别。本发明还提出一种智能化用户识别装置以及一种计算机可读存储介质。本发明可以准确高效的用户识别功能。

Description

智能化用户识别方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人脸识别和声纹识别的智能化用户识别方法、装置及计算机可读存储介质。

背景技术

随着经济水平的提高和网络时代的发展，通过一个手机、电脑、平板等移动设备或电脑终端，即可将心仪的物品、美食等送到身边，甚至还可以随时随地叫车或者叫代驾。这种网络订单给商家以及用户都带来了方便，但是也会存在一些隐患，如订单的双方彼此不相识，无法识别对方身份。例如，快递在投递的过程中，快递员通常不能对收件人的身份信息进行识别。即使通过查看证件等方式进行了身份信息的识别，在快递签收成功后，如果出现客户投诉未收到快递的情况，此时没有有力的影像资料证明快递签收环节的情况，快递公司还是可能需要承担责任。

发明内容

本发明提供一种智能化用户识别方法、装置及计算机可读存储介质，其主要目的对用户身份进行智能识别。

为实现上述目的，本发明提供的一种智能化用户识别方法，包括：

步骤A：获取用户的视频数据，从所述视频数据中提取出图像数据和声音数据；

步骤B：对所述图像数据进行人脸面部特征检测，得到人脸面部特征数据，并将所述人脸面部特征数据进行关键特征点提取，得到人脸面部关键点特征数据；

步骤C：将所述人脸面部关键点特征数据与预先构建的用户人脸数据库进行人脸识别，得到所述人脸面部关键点特征数据对应的第一身份信息；

步骤D：将所述声音数据与预先构建的用户声音数据库进行声音匹配，得到所述声音数据对应的第二身份信息；

步骤E：将所述第一身份信息和所述第二身份信息进行比较，若所述第一身份信息与所述第二身份信息不一致，则返回上述步骤A，若所述第一身份信息和所述第二身份信息一致，则确定所述用户的身份信息，并将所述用户的视频数据与所述用户的身份信息进行关联存储，实现用户识别。

可选地，所述对所述图像数据进行人脸面部特征检测，得到人脸面部特征数据，包括：

预构建平面直角坐标系，将所述图像数据映射到所述平面直角坐标系中得到与所述图像数据对应的平面像素坐标集；

遍历所述平面像素坐标集内的每个平面像素坐标，将横坐标相同的平面像素坐标汇集得到横坐标像素坐标集；

将竖坐标相同的平面像素坐标汇集得到竖坐标像素坐标集；

分别计算所述横坐标像素坐标集内每个横坐标像素坐标的像素差值，及所述竖坐标像素坐标集内每个竖坐标像素坐标的像素差值；

并判断所述像素差值与预设差值的大小，保留所述像素差值大于所述预设差值的平面像素坐标，得到所述人脸面部特征数据。

可选地，所述将所述人脸面部特征数据进行关键特征点提取，得到人脸面部关键点特征数据，包括：

利用如下关键特征点提取公式计算所述人脸面部关键点特征数据：

其中，J表示所述人脸面部关键点特征数据，i表示所述图像数据中图像的数量，A_i表示所述图像数据，k表示所述图像数据的像素点数量，w表示像素点的近邻区域相关特征向量，w^t表示近邻区域相关特征向量的转换向量，tr(.)表示矩阵求迹运算符，β表示预设参数，X_ip表示人脸面部特征数据，X_i表示像素点的像素值，

表示X_i的转置矩阵。

可选地，所述将所述声音数据与预先构建的用户声音数据库进行声音匹配，包括：

将所述声音数据作为条件值，构建得到似然概率；

根据所述似然概率和所述用户声音数据库内的声音数据构建得到最大化似然函数；

求解所述最大化似然函数得到所述最大化似然函数的函数值，根据所述函数值得到所述声音数据对应的第二身份信息。

可选地，将所述声音数据作为条件值，构建得到似然概率的方法如下：

其中，P(w)为所述似然概率，s为所述声音数据的波长，w₁,w_n-2,w_n表示所述声音数据的频度与响度的结合值。

所述最大化似然函数为：

W_best＝argmax{P(w|Y)P(w)/P(Y)}

其中，W_best为所述最大化似然函数的函数值，Y为所述用户声音数据库内的声音数据，P(Y)表示所述用户声音数据库内声音数据的频度与响度的结合值的概率值，P(w|Y)表示在所述Y发生的前提下，所述声音数据的频度与响度的综合值的发生概率，argmax是一种表示最大化P(w|Y)P(w)/P(Y)的方法。

此外，为实现上述目的，本发明还提供一种智能化用户识别装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的疾病智能检测程序，所述疾病智能检测程序被所述处理器执行时实现如下步骤：

将竖坐标相同的平面像素坐标汇集得到竖坐标像素坐标集；

表示X_i的转置矩阵。

将所述声音数据作为条件值，构建得到似然概率；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能化用户识别程序，所述智能化用户识别程序可被一个或者多个处理器执行，以实现如上所述的智能化用户识别方法的步骤。

本发明可以在交易执行的过程中，如快递签收过程中，获取用户的视频数据，从所述视频数据中提取出图像数据和声音数据，并通过所述图像数据和声音数据分别进行用户身份的识别，当两者身份识别的结果一致时，即可自动确认用户的身份，并提高了用户身份识别的准确性，此外，本发明还将所述交易执行过程中的用户的视频数据与所述用户的身份信息进行绑定，从而可以有效减少责任纠纷。因此本发明提出的智能化用户识别方法、装置及计算机可读存储介质，可以实现准确高效的实现用户身份识别的目的。

附图说明

图1为本发明一实施例提供的智能化用户识别方法的流程示意图；

图2为本发明一实施例提供的智能化用户识别装置的内部结构示意图；

图3为本发明一实施例提供的智能化用户识别装置中智能化用户识别程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种智能化用户识别方法。参照图1所示，为本发明一实施例提供的智能化用户识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，智能化用户识别方法包括：

S1、获取用户的视频数据，从所述视频数据中提取出图像数据和声音数据。

较佳地，本发明可以通过一个穿戴式电子设备，如快递员的智能眼镜、智能手表等设备自带的摄像模块，在交易执行的过程中，如快递签收的过程中，根据快递员的指令捕获所述用户的视频数据。

S2、对所述图像数据进行人脸面部特征检测，得到人脸面部特征数据，并将所述人脸面部特征数据进行关键特征点提取，得到人脸面部关键点特征数据。

详细地，所述对所述图像数据进行人脸面部特征检测，得到人脸面部特征数据，包括：预构建平面直角坐标系，将所述图像数据映射到所述平面直角坐标系中得到与所述图像数据对应的平面像素坐标集，根据局部像素灰度判别方法判别所述平面像素坐标集得到所述人脸面部特征数据。

进一步地，所述根据局部像素灰度判别方法判别所述平面像素坐标集得到所述人脸面部特征数据，包括：遍历所述平面像素坐标集内的每个平面像素坐标，将横坐标相同的平面像素坐标汇集得到横坐标像素坐标集，将竖坐标相同的平面像素坐标汇集得到竖坐标像素坐标集，分别计算所述横坐标像素坐标集内每个横坐标像素坐标的像素差值，及所述竖坐标像素坐标集内每个竖坐标像素坐标的像素差值，并判断所述像素差值与预设差值的大小，保留所述像素差值大于所述预设差值的平面像素坐标，得到所述人脸面部特征数据。

如上所述，如图像数据为一张快递签收人的人脸图像，由于图像是由若干像素集合而成，但难以单纯的对像素集合进行操作，因此需要将人脸图像映射到坐标系中，使用坐标表示的形式将像素集合表示出来，如人脸眼睛部位有两个像素点的像素分别为212、227，在坐标系中212的像素坐标为(32,37,212)，其中32为横坐标、37为竖坐标、212为像素值，同理在坐标系中227的像素坐标为(32,41,227)，其中32为横坐标、41为竖坐标、227为像素值，根据上述得知，在横坐标都为32的前提下，像素差值为：227-212＝15，若所述预设差值为10，则保留所述像素坐标为(32,37,212)和所述像素坐标为(32,41,227)。

详细地，所述将所述人脸面部特征数据进行关键特征点提取，采用如下特征点提取公式：

其中，J表示所述人脸面部关键点特征数据，i表示所述图像数据中图像的数量，A_i表示所述图像数据，k表示所述图像数据的像素点数量，p表示像素点，w表示像素点的近邻区域相关特征向量，w^t表示近邻区域相关特征向量的转换向量，tr(.)表示矩阵求迹运算符，β表示预设参数，X_ip表示人脸面部特征数据，X_i表示像素点的像素值，

表示X_i的转置矩阵。

S3、将所述人脸面部关键点特征数据与预先构建的用户人脸数据库进行人脸识别，得到所述人脸面部关键点特征数据对应的第一身份信息。

所述预先构建的用户人脸数据库中存储了带有标签的人脸面部关键点特征数据，如张三的人脸面部关键点特征数据、李四的人脸面部关键点特征数据。

本发明较佳实施例中，所述人脸识别方法采用如下识别匹配函数，方法如下：

其中，q表示所述识别匹配函数的权重系数，可依经验设定，F表示所述人脸关键点特征数据，P_i表示所述预先构建的用户人脸数据库中的关键点，K表示所述用户人脸数据库内人脸面部关键点特征数据的数据总量，w_j表示所述用户人脸数据库内人脸面部关键点特征数据，b_j表示所述用户人脸数据库内人脸面部关键点特征数据偏置项(偏置项又称误差项，比如人脸数据会因为光线、背景、拍照设备的不同，从而影响到人脸面部关键点特征数据的不同，因此设置了偏置项，弥补因光线、背景、拍照设备的不同而导致的误差)，L表示所述第一身份信息值。

如所述人脸面部关键点特征数据与存储在所述用户人脸数据库张三的人脸面部关键点特征数据相同，所述第一身份信息为张三。

S4、所述将所述声音数据与预先构建的用户声音数据库进行声音匹配，得到所述声音数据对应的第二身份信息。

优选地，所述预先构建的用户声音数据库中存储了带有标签的声纹数据，如张三的声纹数据、李四的声纹数据。

详细地，所述将所述声音数据与预先构建的用户声音数据库进行声音匹配，包括：将所述声音数据作为条件值，构建得到似然概率，根据所述似然概率和所述用户声音数据库内的声音数据构建得到最大化似然函数，求解所述最大化似然函数得到所述声音数据对应的第二身份信息。

进一步地，将所述声音数据作为条件值，构建得到似然概率的方法如下：

进一步地，所述最大化似然函数为：

W_best＝argmax{P(w|Y)P(w)/P(Y)}

其中，W_best为所述最大化似然函数的函数值，Y为所述用户声音数据库内的声音数据，P(Y)表示所述用户声音数据库内声音数据的频度与响度的结合值的概率值，P(w|Y)表示在所述Y发生的前提下，所述声音数据的频度与响度的综合值的发生概率，argmax是一种表示方法，表示最大化P(w|Y)P(w)/P(Y)。

例如，所述用户声音数据库内张三声音数据的结合值为[21,89]、所述用户声音数据库内张三声音数据的结合值为[11,109]，而结合值(频度与响度的结合值)的概率值意思是在区间内每个结合值的出现概率，如上述21的概率值为30％，89的概率值为19％，而所述声音数据的结合值[10,79]，结合值的概率值也不相同如结合值10的概率值为17％，79的概率值为67％，通过上述分析最终可确定所述声音数据([10,79])如与张三(声音数据，结合值为[11,109])更相似。

S5、将所述第一身份信息和所述第二身份信息进行比较，根据所述比较结果，若所述第一身份信息与所述第二身份信息不一致，则返回上述S1，若所述第一身份信息和所述第二身份信息一致，则确定所述用户的身份信息，并将所述用户的视频数据与所述用户的身份信息进行关联存储，实现用户识别。

所述第一身份信息与预先构建的用户数据库中对应的用户身份是a,所述第二身份信息与预先构建的用户数据库中对应的用户身份是b,则所述用户身份有差异，返回S1。

例如，快递在签收过程中，根据声音识别出张三，根据人脸图像识别出李四，则两种识别形式的身份不一致，重新识别，得出声音识别是李四，人脸图像识别是李四，则两种识别形式的身份一致。完成用户识别，允许签收快递。

本发明还提供一种智能化用户识别装置。参照图2所示，为本发明一实施例提供的智能化用户识别装置的内部结构示意图。

在本实施例中，所述智能化用户识别装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该智能化用户识别装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是智能化用户识别装置1的内部存储单元，例如该智能化用户识别装置1的硬盘。存储器11在另一些实施例中也可以是智能化用户识别装置1的外部存储设备，例如智能化用户识别装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括智能化用户识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于智能化用户识别装置1的应用软件及各类数据，例如智能化用户识别程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行智能化用户识别程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在智能化用户识别装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及智能化用户识别程序01的智能化用户识别装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对智能化用户识别装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有智能化用户识别程序01；处理器12执行存储器11中存储的智能化用户识别程序01时实现如下步骤：

步骤一、获取用户的视频数据，从所述视频数据中提取出图像数据和声音数据。

步骤二、对所述图像数据进行人脸面部特征检测，得到人脸面部特征数据，并将所述人脸面部特征数据进行关键特征点提取，得到人脸面部关键点特征数据。

表示X_i的转置矩阵。

步骤三、将所述人脸面部关键点特征数据与预先构建的用户人脸数据库进行人脸识别，得到所述人脸面部关键点特征数据对应的第一身份信息。

步骤四、所述将所述声音数据与预先构建的用户声音数据库进行声音匹配，得到所述声音数据对应的第二身份信息。

进一步地，所述最大化似然函数为：

W_best＝argmax{P(w|Y)P(w)/P(Y)}

例如所述用户声音数据库内张三声音数据的结合值为[21,89]、所述用户声音数据库内张三声音数据的结合值为[11,109]，而结合值(频度与响度的结合值)的概率值意思是在区间内每个结合值的出现概率，如上述21的概率值为30％，89的概率值为19％，而所述声音数据的结合值[10,79]，结合值的概率值也不相同如结合值10的概率值为17％，79的概率值为67％，通过上述分析最终可确定所述声音数据([10,79])如与张三(声音数据，结合值为[11,109])更相似。

步骤五、将所述第一身份信息和所述第二身份信息进行比较，根据所述比较结果，若所述第一身份信息与所述第二身份信息不一致，则返回上述步骤一，若所述第一身份信息和所述第二身份信息一致，则确定所述用户的身份信息，并将所述用户的视频数据与所述用户的身份信息进行关联存储，实现用户识别。

所述第一身份信息与预先构建的用户数据库中对应的用户身份是a,所述第二身份信息与预先构建的用户数据库中对应的用户身份是b,则所述用户身份有差异，返回步骤一。

例如，快递在签收过程中，根据声音识别出张三，根据人脸图像识别出李四，则两种识别形式的身份不一致，重新识别，得出声音识别是李四，人脸图像识别是李四。则两种识别形式的身份一致。完成用户识别，允许签收快递。

可选地，在其他实施例中，智能化用户识别程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述智能化用户识别程序在智能化用户识别装置中的执行过程。

例如，参照图3所示，为本发明智能化用户识别装置一实施例中的智能化用户识别程序的程序模块示意图，该实施例中，所述智能化用户识别程序可以被分割为数据获取及处理模块10、第一身份信息计算模块20、第二身份信息计算模块30、用户识别模块40示例性地：

所述数据获取及处理模块10用于：获取用户的视频数据，从所述视频数据中提取出图像数据和声音数据。

所述第一身份信息计算模块20用于：对所述图像数据进行人脸面部特征检测，得到人脸面部特征数据，并将所述人脸面部特征数据进行关键特征点提取，得到人脸面部关键点特征数据；将所述人脸面部关键点特征数据与预先构建的用户人脸数据库进行人脸匹配，得到所述人脸面部关键点特征数据对应的第一身份信息。

所述第二身份信息计算模块30用于：将所述声音数据进行与预先构建的用户声音数据库声音匹配，得到所述声音数据对应的第二身份信息。

所述用户识别模块40用于：将所述第一身份信息和所述第二身份信息进行比较，根据所述比较结果，若所述第一身份信息与所述第二身份信息不一致，则返回重新识别，若所述第一身份信息和所述第二身份信息一致，则确定所述用户的身份信息，并将所述用户的视频数据与所述用户的身份信息进行关联存储，实现用户识别。

上述数据获取及处理模块10、第一身份信息计算模块20、第二身份信息计算模块20、用户识别模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有智能化用户识别程序，所述智能化用户识别程序可被一个或多个处理器执行，以实现如下操作：

接获取用户的视频数据，从所述视频数据中提取出图像数据和声音数据；

对所述图像数据进行人脸面部特征检测，得到人脸面部特征数据，并将所述人脸面部特征数据进行关键特征点提取，得到人脸面部关键点特征数据；

将所述人脸面部关键点特征数据与预先构建的用户人脸数据库进行人脸匹配，得到所述人脸面部关键点特征数据对应的第一身份信息；

将所述声音数据进行与预先构建的用户声音数据库声音匹配，得到所述声音数据对应的第二身份信息；

将所述第一身份信息和所述第二身份信息进行比较，根据所述比较结果，若所述第一身份信息与所述第二身份信息不一致，则返回重新识别，若所述第一身份信息和所述第二身份信息一致，则确定所述用户的身份信息，并将所述用户的视频数据与所述用户的身份信息进行关联存储，实现用户识别。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。