CN110110631A

CN110110631A - 一种识别打电话的方法及设备

Info

Publication number: CN110110631A
Application number: CN201910339506.8A
Authority: CN
Inventors: 陈海波
Original assignee: Deep Blue Technology Shanghai Co Ltd
Current assignee: Shenlan Robot Industry Development Henan Co ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-09
Anticipated expiration: 2039-04-25
Also published as: CN110110631B

Abstract

本发明公开了一种识别打电话的方法及设备，用于稳定准确的检测出正在打电话的人员。该方法包括：获取当前目标图像帧，通过预设的第一网络模型输出目标图像帧的第一目标中各目标点的识别结果；根据所述各目标点的位置是否满足预设位置关系，初次确定所述第一目标的行为分类；初次确定的行为分类为第一行为时，通过预设的第二网络模型对各目标点的识别结果处理输出所述第一目标的行为分类结果，通过预设的第三网络模型对目标图像帧处理输出与第一行为相关的第二目标的识别结果，分别对分类结果和识别结果加权求和，再次确定所述第一目标的行为分类是否为第一行为。

Description

一种识别打电话的方法及设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种识别打电话的方法及设备。

背景技术

现有的人工智能技术已经开始涉及生活的各个方面，利用神经网络模型进行图像识别的应用技术也越来越广泛，例如现有技术中虽然能够检测出行驶的车速，或者行驶车里的人员，但现有技术中还没有一种对人员的行为检测进行细化，没有能够检测出行驶过程中是否存在打电话的行为，现有技术并未提供能够应用于一些特殊场景中，需要在公共场所中稳定准确的检测到正在打电话的人员的方法。

发明内容

本发明提供一种识别打电话的方法及设备，应用于特殊场景下，能够稳定准确的检测出正在打电话的人员。

第一方面，本发明提供一种识别打电话的方法，该方法包括：

获取当前目标图像帧，通过预设的第一网络模型输出目标图像帧的第一目标中各目标点的识别结果；

根据所述各目标点的位置是否满足预设位置关系，初次确定所述第一目标的行为分类；

初次确定的行为分类为第一行为时，通过预设的第二网络模型处理各目标点的识别结果输出所述第一目标的行为分类结果，通过预设的第三网络模型处理目标图像帧输出与第一行为相关的第二目标的识别结果，分别对行为分类结果和第二目标的识别结果加权求和，再次确定所述第一目标的行为分类是否为第一行为。

作为一种可能的实施方式，再次确定所述第一目标的行为分类为第一行为时，还包括：

利用目标跟踪算法，检测之后的目标图像帧的第一目标的行为分类；

确定之后的目标图像帧的第一目标的行为分类，与当前目标图像帧的第一目标的行为分类在预设时间内一致时，确定所述第一目标的行为分类为第一行为。

作为一种可能的实施方式，所述第一目标的各目标点包括以下任一或任多个：

鼻部、眼部、耳部、手腕部、手肘部、肩部。

作为一种可能的实施方式，通过预设的第一网络模型输出目标图像帧的第一目标中各目标点的识别结果，包括：

通过预设的人体姿态估计网络模型，确定目标图像帧的第一目标的各目标点的坐标及对应的置信度。

作为一种可能的实施方式，根据所述各目标点的位置是否满足预设位置关系，初次确定第一目标的行为分类，包括：

根据所述各目标点的位置确定反映预设位置关系的位置参数，根据确定的位置参数确定是否满足预设位置关系，所述位置参数包括不同目标点间的距离、距离比值或角度。

作为一种可能的实施方式，初次确定第一目标的行为分类，包括：

确定手腕部到手肘部之间的距离，与手腕部到耳部之间的距离的比值大于预设值时，初次确定目标图像帧中第一目标的行为分类。

作为一种可能的实施方式，通过预设的第二网络模型处理各目标点的识别结果输出所述第一目标的行为分类结果，通过预设的第三网络模型处理目标图像帧输出与第一行为相关的第二目标的识别结果，包括：

通过预设的第二网络模型处理各目标点的识别结果，输出第一目标的行为分类及对应的第一置信度；

通过预设的第三网络模型处理目标图像帧，输出与所述第一行为相关的第二目标及对应的第二置信度。

作为一种可能的实施方式，分别对行为分类结果和第二目标的识别结果加权求和，再次确定所述第一目标的行为分类是否为第一行为，包括：

分别对所述第一置信度和第二置信度加权求和，确定所述求和值大于预设阈值时，再次确定所述第一目标的行为分类为第一行为。

作为一种可能的实施方式，所述预设的第二网络模型为通过第一训练样本训练的深度学习网络模型，所述第一训练样本包括第一行为对应的各目标点坐标及对应的置信度，及非第一行为对应的各目标点坐标及对应的置信度。

作为一种可能的实施方式，所述预设的第三网络模型为通过第二训练样本训练的深度学习网络模型，所述第二训练样本包括多个包含第二目标的图像，其中部分包含第二目标的图像还包括第一行为的第一目标。

第二方面，本发明提供一种识别打电话的设备，该设备包括：处理器以及存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器用于执行如下步骤：

作为一种可能的实施方式，所述处理器具体还用于：

鼻部、眼部、耳部、手腕部、手肘部、肩部。

作为一种可能的实施方式，所述处理器具体用于：

第三方面，本发明提供另一种识别打电话的设备，该设备包括获取识别结果单元、初次确定行为单元、再次确定行为单元，其中：

获取识别结果单元，用于获取当前目标图像帧，通过预设的第一网络模型输出目标图像帧的第一目标中各目标点的识别结果；

初次确定行为单元，用于根据所述各目标点的位置是否满足预设位置关系，初次确定所述第一目标的行为分类；

再次确定行为单元，用于初次确定的行为分类为第一行为时，通过预设的第二网络模型处理各目标点的识别结果输出所述第一目标的行为分类结果，通过预设的第三网络模型处理目标图像帧输出与第一行为相关的第二目标的识别结果，分别对行为分类结果和第二目标的识别结果加权求和，再次确定所述第一目标的行为分类是否为第一行为。

作为一种可能的实施方式，所述设备还包括目标跟踪监测单元，具体用于：

鼻部、眼部、耳部、手腕部、手肘部、肩部。

作为一种可能的实施方式，所述获取识别结果单元具体用于：

作为一种可能的实施方式，所述初次确定行为单元具体用于：

作为一种可能的实施方式，所述再次确定行为单元具体用于：

作为一种可能的实施方式，作为一种可能的实施方式，所述再次确定行为单元具体用于：

第四方面，本发明提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述方法的步骤。

本发明提供的一种识别打电话的方法及设备，具有以下有益效果：

应用于特殊场景下，能够稳定准确的检测出正在打电话的人员，例如能够检测出驾驶人员是否存在驾驶途中打电话的行为，或者检测出人群中正在打电话的人员。

附图说明

图1为本发明实施例提供的一种识别打电话的方法流程图；

图2为本发明实施例提供的一种识别打电话的设备示意图；

图3为本发明实施例提供的另一种识别打电话的设备示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

本发明提供了一种识别打电话的方法，能够实时的在人群中识别到正在打电话的人员，可应用于特殊场景中，例如实时监测是否有正在打电话的驾驶人员，为保障公共交通安全起到一定的监督作用，也可应用于会议、音乐会等特殊场景，保障提供一个无声音干扰的环境。

本发明提供的方法不仅可以用于识别打电话的行为，还可以应用于其他类行为识别，利用本发明提供的方法，能够想到根据对行为特征分析后，确定行为特征中关键的目标点之间的关系，通过本发明提供的第一网络模型、第二网络模型及第三网络模型进行处理，能够对该行为进行识别。

如图1所示，该方法具体实施步骤如下：

步骤100：获取当前目标图像帧，通过预设的第一网络模型输出目标图像帧的第一目标中各目标点的识别结果。

本发明实施例可通过摄像设备获取目标图像帧，可以采用实时连续的获取目标图像帧或者采用每间隔一段时间获取目标图像帧，并在识别到打电话行为之前对每帧目标图像都按本实施例的方法进行处理。本发明实施例对如何获取目标图像帧及何时获取目标图像帧不作过多限定。

本发明实施例中的第一目标是具备行为特征的目标，例如人、动物。所述第一目标中各目标点表示该第一目标进行某种特定行为时使用的关键部位。

本发明实施例中提供的一种识别打电话的方法，具备该行为特征的第一目标是人，根据人打电话的动作特征以及人本身具备的特征，较常使用的关键部位作为第一目标中的各目标点，包括以下任一或任多个：

鼻部、眼部、耳部、手腕部、手肘部、肩部。

本发明实施例中所述各目标点的识别结果包括两种结果，一种是利用所述预设的第一网络模型对所述各目标点进行识别，识别出各目标点后确定各目标点在所述目标图像帧的坐标，另一种是利用所述预设的第一网络模型输出与所述各目标点的坐标对应的置信度，该置信度用于表示识别出的点是否为目标点类型的可信程度，也可表示识别出的目标点的与真实的目标点的匹配程度。利用各目标点对应的置信度可以进一步筛选目标点，根据需要设定筛选阈值，可筛选出置信度大于设定筛选阈值的目标点，便于对筛选出的各目标点进行后续处理。

作为一种可选的实施方式，通过预设的第一网络模型输出目标图像帧的第一目标中各目标点的识别结果，包括：

本发明实施例中，人体姿态估计网络模型能够从目标图像帧中识别第一目标中各目标点的位置，例如识别出人打电话时的关键部位的位置，具体输出所述目标图像帧的第一目标中各目标点的识别结果的方式如下：

1)将当前图像帧输入人体姿态估计网络模型；

2)预先定义所述第一目标的各目标点为鼻部、眼部、耳部、手腕部、手肘部、肩部，利用人体姿态估计网络模型对所述当前图像帧进行识别；

3)输出上述各目标点在当前图像帧中的坐标及对应的置信度。例如输出鼻部、左眼睛、右眼睛、左耳朵、右耳朵、左手腕、右手腕、左手肘、右手肘、左肩膀、右肩膀的坐标及对应的置信度共3×11个数据。

步骤101：根据所述各目标点的位置是否满足预设位置关系，初次确定所述第一目标的行为分类。

根据要识别的行为特征确定是否满足预设的位置关系，例如确定各目标点的位置是否满足手握手机进行打电话的行为，具体的，根据人打电话时握手机的手腕靠近耳边的动作特征来设置上述预设的位置关系，确定各目标点满足预设位置关系时，初次确定所述第一目标的行为分类属于打电话的行为。

进一步的，根据所述各目标点的位置是否满足预设位置关系，初次确定第一目标的行为分类，包括：

任一行为特征所使用的关键部位的位置参数是不同的，该行为特征使用的关键部位之间的距离不同、距离比值不同、该关键部位之间形成的角度不同，因此根据各目标点的位置参数能够反映所述第一目标的行为特征。

具体的，以本发明实施例提出的打电话的行为特征，初次确定第一目标的行为分类，包括：

步骤102：初次确定的行为分类为第一行为时，通过预设的第二网络模型处理各目标点的识别结果输出所述第一目标的行为分类结果，通过预设的第三网络模型处理目标图像帧输出与第一行为相关的第二目标的识别结果，分别对行为分类结果和第二目标的识别结果加权求和，再次确定所述第一目标的行为分类是否为第一行为。

上述第一行为是需要进行识别的行为，可由用户自定义例如第一行为是打电话的行为，初次确定的行为分类为打电话的行为时，同时通过预设的第二网络模型、预设的第三网络模型进行识别。

作为一种可选的实施方式，通过预设的第二网络模型处理各目标点的识别结果输出所述第一目标的行为分类结果，包括：

通过预设的第二网络模型处理各目标点的识别结果，输出第一目标的行为分类及对应的第一置信度。

具体的，上述各目标点的识别结果包括：鼻部、左眼睛、右眼睛、左耳朵、右耳朵、左手腕、右手腕、左手肘、右手肘、左肩膀、右肩膀的位置及对应的置信度共3×11个数据，输入预设的第二网络模型进行处理，识别该目标图像帧中第一目标的行为，输出识别的第一目标的行为分类及对应的第一置信度，确定第一目标的行为分类是否属于第一行为，如是否是打电话的行为，所述第一置信度用于表示识别出的第一目标行为分类的可信程度。利用第一目标对应的第一置信度可以进一步筛选所述第一目标，根据需要设定筛选阈值，可筛选出第一置信度大于设定筛选阈值的第一目标，便于对筛选出的第一目标进行后续处理。

作为一种可选的实施方式，所述预设的第二网络模型为通过第一训练样本训练的深度学习网络模型，所述第一训练样本包括第一行为对应的各目标点坐标及对应的置信度，及非第一行为对应的各目标点坐标及对应的置信度。

具体的，由于输入的数据量较少，因此所述预设的第二网络模型可采用4层网络结构的深度学习网络模型，预先选取第一训练样本，包含打电话行为对应的各目标点坐标及对应的置信度，及非打电话行为对应的各目标点坐标及对应的置信度。利用输入的第一训练样本对预设的第二网络模型进行训练，直至输出的行为分类结果符合预设行为分类精度时，确定所述预设的第二网络模型训练完成。

作为一种可选的实施方式，通过预设的第三网络模型处理目标图像帧输出与第一行为相关的第二目标的识别结果，包括：

通过预设的第三网络模型处理目标图像帧，输出与所述第一行为相关的第二目标及对应的第二置信度。利用所述第二目标对应的第二置信度可以进一步筛选所述第二目标，根据需要设定筛选阈值，可筛选出第二置信度大于设定筛选阈值的第二目标，便于对筛选出的第二目标进行后续处理。

具体的，上述预设的第三网络模型处理的目标图像帧是上述利用预设的第二网络模型处理的各目标点所在的目标图像帧。通过预设的第三网络模型对该目标图像帧进行识别，识别出与所述第一行为相关的第二目标的分类并输出对应的第二置信度，所述第二置信度用于表示识别出的所述第二目标的分类结果的可信程度。

本发明实施例以打电话行为为例，第一目标为人，与打电话行为相关的通信设备作为第二目标，将所述目标图像帧输入预设的第三网络模型进行处理，识别出该目标图像帧中的通信设备，并输出对应的第二置信度，能够对该目标图像中是否存在通信设备的情况进行判断，排除具备第一行为特征但与第一行为相关的第二目标的分类为非通信设备的行为。

作为一种可选的实施方式，所述预设的第三网络模型为通过第二训练样本训练的深度学习网络模型，所述第二训练样本包括多个包含第二目标的图像，其中部分包含第二目标的图像还包括第一行为的第一目标。

具体的，所述预设的第三网络模型为深度学习网络模型，利用输入的第二训练样本对预设的第三网络模型进行训练，直至输出的第二目标的识别结果满足预设识别精度时，确定所述预设的第三网络模型训练完成。

所述第二训练样本包括多个包含第二目标的图像，其中部分包含第二目标的图像还包括第一行为的第一目标。具体的以打电话行为为例，第二目标为通信设备时，所述第二训练样本包括多个包含通信设备的图像，其中部分图像中包含手握通信设备的图像。

作为一种可选的实施方式，分别对行为分类结果和第二目标的识别结果加权求和，再次确定所述第一目标的行为分类是否为第一行为，包括：

基于上述实施方式，再次确定第一目标的行为分类为第一行为时，本发明实施例还提供一种排除识别出的第一行为属于瞬时行为，具体为：

其中，所述目标跟踪算法可以是利用卡尔曼滤波算法对目标物体的运动情况进行预测的算法，根据当前目标图像帧的状态预测下一目标图像帧的状态，本发明实施例中，以打电话为例，再次确定第一目标的行为分类是打电话时，利用目标跟踪算法，根据当前目标图像帧中第一目标的行为分类，预测之后的目标图像帧中第一目标的行为分类，当确定之后的目标图像帧的第一目标的行为分类，与当前目标图像帧的第一目标的行为分类在预设时间内一致时，确定人员保持打电话动作的时间符合预设时间，从而有效避免因人员可能发生的瞬时动作造成对第一目标的行为产生的误判。

实施例二

基于相同的发明构思，本发明实施例还提供了一种识别打电话的设备，由于该设备即是本发明实施例中的方法中的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图2所示，该设备包括：处理器200以及存储器201，其中，所述存储器201存储有程序代码，当所述程序代码被所述处理器200执行时，使得所述处理器200用于执行如下步骤：

作为一种可能的实施方式，所述处理器200具体还用于：

鼻部、眼部、耳部、手腕部、手肘部、肩部。

作为一种可能的实施方式，所述处理器200具体用于：

实施例三

基于相同的发明构思，本发明实施例还提供了另一种识别打电话的设备，由于该设备即是本发明实施例中的方法中的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图3所示，该设备包括获取识别结果单元300、初次确定行为单元301、再次确定行为单元302，其中：

获取识别结果单元300，用于获取当前目标图像帧，通过预设的第一网络模型输出目标图像帧的第一目标中各目标点的识别结果；

初次确定行为单元301，用于根据所述各目标点的位置是否满足预设位置关系，初次确定所述第一目标的行为分类；

再次确定行为单元302，用于初次确定的行为分类为第一行为时，通过预设的第二网络模型处理各目标点的识别结果输出所述第一目标的行为分类结果，通过预设的第三网络模型处理目标图像帧输出与第一行为相关的第二目标的识别结果，分别对行为分类结果和第二目标的识别结果加权求和，再次确定所述第一目标的行为分类是否为第一行为。

鼻部、眼部、耳部、手腕部、手肘部、肩部。

作为一种可能的实施方式，所述获取识别结果单元300具体用于：

作为一种可能的实施方式，所述初次确定行为单元301具体用于：

作为一种可能的实施方式，所述再次确定行为单元302具体用于：

作为一种可能的实施方式，作为一种可能的实施方式，所述再次确定行为单元302具体用于：

实施例四

本发明提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种识别打电话的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，再次确定所述第一目标的行为分类为第一行为时，还包括：

3.根据权利要求1所述的方法，其特征在于，所述第一目标的各目标点包括以下任一或任多个：

鼻部、眼部、耳部、手腕部、手肘部、肩部。

4.根据权利要求1所述的方法，其特征在于，通过预设的第一网络模型输出目标图像帧的第一目标中各目标点的识别结果，包括：

5.根据权利要求1～4任一所述的方法，其特征在于，根据所述各目标点的位置是否满足预设位置关系，初次确定第一目标的行为分类，包括：

6.根据权利要求5所述的方法，其特征在于，初次确定第一目标的行为分类，包括：

7.根据权利要求1所述的方法，其特征在于，通过预设的第二网络模型处理各目标点的识别结果输出所述第一目标的行为分类结果，通过预设的第三网络模型处理目标图像帧输出与第一行为相关的第二目标的识别结果，包括：

8.根据权利要求7所述的方法，其特征在于，分别对行为分类结果和第二目标的识别结果加权求和，再次确定所述第一目标的行为分类是否为第一行为，包括：

9.根据权利要求1所述的方法，其特征在于，所述预设的第二网络模型为通过第一训练样本训练的深度学习网络模型，所述第一训练样本包括第一行为对应的各目标点坐标及对应的置信度，及非第一行为对应的各目标点坐标及对应的置信度。

10.根据权利要求1所述的方法，其特征在于，所述预设的第三网络模型为通过第二训练样本训练的深度学习网络模型，所述第二训练样本包括多个包含第二目标的图像，其中部分包含第二目标的图像还包括第一行为的第一目标。

11.一种识别打电话的设备，其特征在于，该设备包括：处理器以及存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～10任一所述方法的步骤。

12.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～10任一所述方法的步骤。