CN109769099B

CN109769099B - 通话人物异常的检测方法和装置

Info

Publication number: CN109769099B
Application number: CN201910034395.XA
Authority: CN
Inventors: 王成军; 刘欣; 汤峰; 理素霞; 彭博; 万磊
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2021-01-22
Anticipated expiration: 2039-01-15
Also published as: WO2020149591A1; CN109769099A; US20200228648A1; US11178275B2

Abstract

本申请公开了一种通话人物异常的检测方法和装置，其中方法包括：在通话开始时，终端设备获取需要异常检测的通话对象的真实音视频数据以及相应的预先训练的多阶段神经网络检测模型；在通话进行过程中，所述终端设备按照预设的数据采集策略，采集通话数据；对于每个所述通话对象，将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的所述模型，根据该模型输出的检测结果，确定所述通话对象是否异常；其中，所述通话数据包括图像数据和/或语音数据，所述模型采用的识别方式包括人脸识别、声纹识别、肢体动作识别和/或唇语识别。采用本发明可以对通话人物异常进行准确检测，可以对通话中利用AI模仿的虚假音视频进行准确识别。

Description

通话人物异常的检测方法和装置

技术领域

本发明涉及人工智能技术，特别是涉及一种通话人物异常的检测方法和装置。

背景技术

随着技术的发展，伪造另一个人的声音或者视频越来越容易，耳听为虚，眼见也未必为实。现有的手机，pad或其他设备中的视频或语音通话，识别通话人真假，主要依靠手机号码、通信软件号码(如微信)以及人类本能的判断。这些设备并没有提供其他方式，识别通话人真假。

人工智能(AI)模仿另一个人的声音，变得越来越简单。目前已公开基于AI模仿声音的软件，可以只需要1分钟的声音样本，就能模仿任何人说话。只是，其声音带有背景噪音，以及微弱的机器人特征。而且，它还不能模仿人们在讲话中的呼吸，因此，仍然能听出其计算机语音特征。

目前，AI技术已经可以攻破声纹系统。在GeekPwn2017“AI仿声验声攻防赛”上，五组选手根据《王者荣耀》英雄人物——妲己的配音者所提供的声音样本，模拟了其声纹特征，合成一段“攻击”语音，对现场提供的四个具有声纹识别功能的设备发起攻击，欺骗并通过“声纹锁”的验证。

AI模仿另一个人的视频，也变得越来越简单。华盛顿大学开发了一个机器学习算法，可以将声音片段变成能口型一致的视频内容。

AI算法和软件越来越普及化，大众化，智能化。已经出现越来越多普通人也可以很容易使用的AI换脸/变声的软件，像病毒一样快速传播。

发明人在实现本发明的过程中发现：现有通话设备主要依靠电话号码、通信软件号码(如微信)以及人类本能，对通话人声音和视频图像的判断，不能对AI模仿的虚假视频(video forgery)或者音频(voice forgery)进行准确识别，因此，对通话中异常人物检测的准确性较低。

发明内容

有鉴于此，本发明的主要目的在于提供一种通话人物异常的检测方法，可以提高对虚假音视频进行识别的准确性。

为了达到上述目的，本发明提出的技术方案为：

一种通话人物异常的检测方法，包括：

在通话开始时，终端设备根据需要异常检测的通话对象的用户标识，获取相应的真实音视频数据以及相应的预先训练的多阶段神经网络检测模型；

在进行所述通话的过程中，所述终端设备按照预设的数据采集策略，采集通话数据；

对于每个所述通话对象，将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的多阶段神经网络检测模型，根据该多阶段神经网络检测模型输出的检测结果，确定所述通话对象是否异常；

其中，所述通话数据包括图像数据和/或语音数据，所述多阶段神经网络检测模型采用的识别方式包括人脸识别、声纹识别、肢体动作识别和/或唇语识别。

较佳地，所述获取所述通话对象的真实音视频数据包括:

所述终端设备根据所述通话对象的用户标识，判断本地是否保存所述通话对象的真实音视频数据，如果是，则从本地获取所述真实音视频数据；否则，从云端服务器获取所述通话对象的真实音视频数据。

较佳地，所述数据采集策略为：

仅在所述通话开始时，采集预设时间长度的通话数据；

或者为：按照预设的采集周期，周期性地采集通话数据。

较佳地，所述终端设备根据所述通话对象的用户标识，从云端服务器获取相应的所述多阶段神经网络检测模型。

较佳地，所述多阶段神经网络检测模型为二阶段神经网络检测模型；

所述多阶段神经网络检测模型的训练包括：

根据所述通话对象的真实音视频数据，利用预设的AI生成器，生成相应的虚假音视频数据；

利用所述通话对象的所述真实音视频数据和所述虚假音视频数据，对该通话对象的二阶段神经网络检测模型，进行二阶段训练，

其中，在第一阶段训练中，利用人脸分类检测模型、声纹分类检测模型、肢体动作分类检测模型和/或唇语分类检测模型分别进行相应检测类型的单项检测，并根据所得到的相应特征数据，生成第二阶段的输入数据；在第二阶段训练中，利用全连接卷积网络对本阶段输入的特征数据进行检测，并利用本阶段的训练结果，对当前二阶段神经网络检测模型的训练参数进行调整。

较佳地，当用于进行所述通话的应用启用了美颜功能时，所述终端设备进行所述采集时，采集未经美颜处理的图像数据。

较佳地，当所述通话为视频通话时，确定所述通话对象是否异常的触发时机为：

当所述终端设备检测到当前通话的视频中出现人脸时。

较佳地，所述确定所述通话对象是否异常包括：

对于每个所述通话对象，所述终端设备根据该通话对象的所述多阶段神经网络检测模型的预设次数的检测结果，确定该通话对象是否异常，所述预设次数大于等于1。

较佳地，所述方法进一步包括：

当确定所述通话对象异常时，所述终端设备触发相应的异常报警过程。

较佳地，所述异常报警过程包括：

在所述终端设备上显示相应通话对象异常的提示信息；通过预设的报警通讯方式，通知相应的真实联系人，有别人冒充该联系人的身份与使用所述终端设备的用户进行通话；通知云端服务器将正在相应通话对象当前使用的通话软件号码标记为异常。

较佳地，所述方法进一步包括：

当无法根据所述多阶段神经网络检测模型的检测结果确定所述通话对象是否异常时，所述终端设备显示相应的提示信息；

触发用户通过向相应的通话对话提问题以确定其身份的真实性，或者，重新采集通话数据，并利用新采集的通话数据和该通话对象的多阶段神经网络检测模型，确定所述通话对象是否异常。

较佳地，在将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的多阶段神经网络检测模型之前，所述方法进一步包括：

根据所述通话数据，按照预设身份识别方式，进行初始识别，所述身份初始识别方式包括：通话软件号码识别、声纹识别、人脸识别、肢体动作识别和/或唇语识别。

较佳地，所述方法进一步包括：

当由于所采集的通话数据中包含了异常情况下的声音，而导致所述初始识别的结果为声纹检测异常，但所述多阶段神经网络检测模型的检测结果为正常时，所述终端设备触发将相应的通话数据增加到云端服务器保存的相应用户的真实音视频数据中。

较佳地，当所述终端设备为门禁对讲终端时，所述通话对象的标识的获取包括：

所述终端设备根据门禁的音视频采集部件采集的人脸和声音数据，从云端服务查找相匹配的用户，如果查找成功，则获取相应的用户标识，否则，确定相应的通话对象为陌生人。

本发明实施例提出了一种通话人物异常的检测装置，设置于终端设备中，包括：

检测准备模块，用于在通话开始时，根据需要异常检测的通话对象的用户标识，获取相应的真实音视频数据以及相应的预先训练的多阶段神经网络检测模型；

数据采集模块，用于在进行所述通话的过程中，所述终端设备按照预设的数据采集策略，采集通话数据；

异常检测模块，用于对于每个所述通话对象，将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的多阶段神经网络检测模型，根据该多阶段神经网络检测模型输出的检测结果，确定所述通话对象是否异常；其中，所述通话数据包括图像数据和/或语音数据，所述多阶段神经网络检测模型采用的识别方式包括人脸识别、声纹识别、肢体动作识别和/或唇语识别。

较佳地，所述检测准备模块，用于根据所述通话对象的用户标识，判断本地是否保存所述通话对象的真实音视频数据，如果是，则从本地获取所述真实音视频数据；否则，从云端服务器获取所述通话对象的真实音视频数据。

较佳地，所述数据采集策略为：

仅在所述通话开始时，采集预设时间长度的通话数据；

或者为：按照预设的采集周期，周期性地采集通话数据。

较佳地，所述检测准备模块，用于根据所述通话对象的用户标识，从云端服务器获取相应的所述多阶段神经网络检测模型。

较佳地，所述多阶段神经网络检测模型为二阶段神经网络检测模型；所述多阶段神经网络检测模型的训练过程包括：根据所述通话对象的真实音视频数据，利用预设的AI生成器，生成相应的虚假音视频数据；利用所述通话对象的所述真实音视频数据和所述虚假音视频数据，对该通话对象的二阶段神经网络检测模型，进行二阶段训练，其中，在第一阶段训练中，利用人脸分类检测模型、声纹分类检测模型、肢体动作分类检测模型和/或唇语分类检测模型分别进行相应检测类型的单项检测，并根据所得到的相应特征数据，生成第二阶段的输入数据；在第二阶段训练中，利用全连接卷积网络对本阶段输入的特征数据进行检测，并利用本阶段的训练结果，对当前二阶段神经网络检测模型的训练参数进行调整。

较佳地，所述数据采集模块，用于当用于进行所述通话的应用启用了美颜功能时，在进行所述采集时，采集未经美颜处理的图像数据。

较佳地，所述异常检测模块，用于当所述通话为视频通话时，仅在检测到当前通话的视频中出现人脸时，触发确定所述通话对象是否异常。

较佳地，所述异常检测模块，用于对于每个所述通话对象，根据该通话对象的所述多阶段神经网络检测模型的预设次数的检测结果，确定该通话对象是否异常，所述预设次数大于等于1。

较佳地，所述异常检测模块，进一步用于当确定所述通话对象异常时，所述终端设备触发相应的异常报警过程。

较佳地，所述异常检测模块，用于在所述终端设备上显示相应通话对象异常的提示信息；通过预设的报警通讯方式，通知相应的真实联系人，有别人冒充该联系人的身份与使用所述终端设备的用户进行通话；通知云端服务器将正在相应通话对象当前使用的通话软件号码标记为异常。

较佳地，所述异常检测模块，进一步用于当无法根据所述多阶段神经网络检测模型的检测结果确定所述通话对象是否异常时，在所述终端设备显示相应的提示信息；触发用户通过向相应的通话对话提问题以确定其身份的真实性，或者，重新采集通话数据，并利用新采集的通话数据和该通话对象的多阶段神经网络检测模型，确定所述通话对象是否异常。

较佳地，所述异常检测模块，进一步用于在将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的多阶段神经网络检测模型之前，根据所述通话数据，按照预设身份识别方式，进行初始识别，所述身份初始识别方式包括：通话软件号码识别、声纹识别、人脸识别、肢体动作识别和/或唇语识别。

较佳地，所述异常检测模块，进一步用于当由于所采集的通话数据中包含了异常情况下的声音，而导致所述初始识别的结果为声纹检测异常，但所述多阶段神经网络检测模型的检测结果为正常时，触发将相应的通话数据增加到云端服务器保存的相应用户的真实音视频数据中。

较佳地，所述数据采集模块，用于当所述终端设备为门禁对讲终端时，根据门禁的音视频采集部件采集的人脸和声音数据，从云端服务查找相匹配的用户，如果查找成功，则获取相应的用户标识，否则，确定相应的通话对象为陌生人。

本发明实施例提出了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上述的通话人物异常的检测方法的步骤。

本发明实施例提出了一种电子设备，包括如上述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

综上所述，本发明提出的通话人物异常的检测方案，在进行所述通话的过程中，所述终端设备按照预设的数据采集策略，采集通话数据；对于每个待异常检测的通话对象，将当前采集的通话数据和该通话对象的真实音视频数据，输入该通话对象的多阶段神经网络检测模型，根据所述多阶段神经网络检测模型输出的检测结果，确定通话对象是否异常，其中，所述多阶段神经网络检测模型采用的识别方式包括人脸识别、声纹识别和/或唇语识别。如此，通过在通话过程中，基于实时的通话数据，利用预先训练的多阶段神经网络检测模型进行虚假音视频的识别，可以提高人物异常检测的准确性。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明实施例的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图1为本发明实施例方法的主要流程示意图，如图1所示，该实施例实现的通话人物异常的检测方法主要包括：

步骤101、在通话开始时，终端设备根据需要异常检测的通话对象的用户标识，获取相应的真实音视频数据以及相应的预先训练的多阶段神经网络检测模型。

本步骤中，终端设备在开始通话时需要获取当前需要异常检测的通话对象的真实音视频数据以及相应的预先训练的多阶段神经网络检测模型，以便在通话过程中，利用它们进行相应人物的异常检测。

其中，对通话对象的真实音视频数据的获取，可以优先选择从本地查找，以节省时间和网络资源的开销。

较佳地，可以采用下述方法获取所述通话对象的真实音视频数据:

对于通话对象的预先训练的多阶段神经网络检测模型的获取，需要从云端服务器获取。即，所述终端设备根据所述通话对象的用户标识，从云端服务器获取相应的所述多阶段神经网络检测模型。

在实际应用中，用户可根据实际需要设置哪些通话对象需要进行异常检测。

在实际应用中，每个用户的声纹和人脸特征，被系统采集或从公共平台由用户授权得到。每个用户真实的音视频，也被系统采集或从公共平台由用户授权得到。用户可以授权平台自己的音视频用于平台的音视频异常检测，方法如下：每个用户可以授权聊天app采集音视频数据，作异常验证用，授权可以是针对任何人的，也可以是只针对部分用户手动选定的联系人的。比方说，用户只想授权自己的音视频给家人和最亲近的朋友使用。用户可以在自定义异常检测的联系人的范围，方法如下：有界面提供出来，供用户enable/disable异常检测功能，如果enable异常检测功能，可以选定指定的联系人，只会对安全级别比较高的这些特定的人，进行异常检测。

较佳地，当所述终端设备为门禁对讲终端时，可以采用下述方法获取所述通话对象的标识：

步骤102、在进行所述通话的过程中，所述终端设备按照预设的数据采集策略，采集通话数据。

本步骤中，所述数据采集策略具体可由本领域技术人员根据实际需要进行设置。为了节省系统开销，可以每隔固定的时间抽取一个时间段数据，而不需要无时无刻的运行。比如一分钟或者三十秒钟。另外，也可以只在通话开始时进行异常检测。这些方式可以是由用户在界面选择或者配置的。具体地，可以采用如下两种方式：

方式一、仅在所述通话开始时，采集预设时间长度的通话数据。

方式二、按照预设的采集周期，周期性地采集通话数据。

步骤103、对于每个所述通话对象，将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的多阶段神经网络检测模型，根据所述多阶段神经网络检测模型输出的检测结果，确定所述通话对象是否异常。

本步骤中，通过利用预先训练的多阶段神经网络检测模型，进行通话对象的异常识别，可以有效提高识别的准确性。

较佳地，所述多阶段神经网络检测模型可以为二阶段神经网络检测模型，但不限于此，也可以为三阶段或更多阶段的神经网络检测模型。在实际应用中，采用的阶段数越高，模型的识别准确性越高，但是运算开销也会越大，本领域技术人员可以综合考虑识别的准确性需求和运算开销，选择采用合适数量阶段的神经网络检测模型。

较佳地，为了进一步提高检测准确性，尤其是对利用AI技术模仿的虚假音视频进行准确识别，当所述多阶段神经网络检测模型为二阶段神经网络检测模型时，云端服务器可以预先采用下述方法对多阶段神经网络检测模型进行训练：

首先，进行训练样本的生成：根据所述通话对象的真实音视频数据，利用预设的AI生成器，生成相应的虚假音视频数据。

这里需要说明的是，通过利用预设的AI生成器，生成相应的虚假音视频数据，使得用于模型训练的假标签样本数据具有与AI生成器对应的机器人特征，从而使得利用训练后的二阶段神经网络检测模型，可以准确地对通话中AI工具模仿的虚假音视频进行准确识别，进而提高通话人物异常检测的准确性。

然后，二阶段的模型训练：

利用所述通话对象的所述真实音视频数据和所述虚假音视频数据，对该通话对象的二阶段神经网络检测模型，进行二阶段训练。

在实际应用中，上述训练时使用的AI生成器可由云端根据实际应用中出现的AI生成器进行设置和更新。

较佳地，为了进一步提高通话人物异常检测的准确性，考虑到视频通话软件有时提供了美颜功能，具有美颜功能的通话软件通常会对人脸做较大的修饰，对图像数据进行了改变，此时，如果基于美容处理后的图像数据进行检测，检测结果会是异常，从而影响检测的准确性。此时，可以采集通话软件用美颜之前的图像做人脸识别。即，当用于进行所述通话的应用启用了美颜功能时，所述终端设备进行所述采集时，采集未经美颜处理的图像数据。进一步地，此时还可以结合声纹异常检测，进行综合判断。

较佳地，考虑到在视频通话过程，可能人脸不会一直在镜头前，异常检测可以是触发式的，比方说，先有一个人脸检测模块在运行，检测到人脸时，再进一步的进行异常检测。即，当所述通话为视频通话时，确定所述通话对象是否异常的触发时机为：当所述终端设备检测到当前通话的视频中出现人脸时。

较佳地，为了提高检测的准确性，可以根据多次的检测结果，进行确定所述通话对象是否异常，具体如下：

上述预设次数的设置，可由本领域技术人员根据实际需要进行设置。

较佳地，当发现异常后，终端设备可以通过其他通讯方式(如短信或者邮件)等通知真实的联系人，有别人冒充身份与使用该终端设备的用户通话；并且将正在通讯的软件号码通知给服务器，标记为异常。上述通知可以是自动的，也可以是需要用户按键确认方式触发。具体采用下述技术手段实现这一目的：

较佳地，所述异常报警过程包括：

较佳地，考虑到多阶段神经网络检测模型的检测结果可能是个不确定异常与否的信息，此时，可以通知用户采用其他方式进行检测，或者通过重新执行一遍异常检测的方式进行确定，具体地，可以采用下述方法实现这一目的：

较佳地，在异常检测开始之前，可以先大致确定一下用户身份。方法有多种：根据通话软件号码识别、声纹识别、人脸识别、肢体动作识别和/或唇语识别等。初始身份识别并不需要识别AI修改的异常，只需要基于现有的声纹识别、人脸识别、肢体动作识别和/或唇语识别算法实现即可，具体如下：

在将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的多阶段神经网络检测模型之前，所述方法进一步包括：

较佳地，当由于所采集的通话数据中包含了异常情况下的声音(如咳嗽声、喷嚏声等)时，可能会导致所述初始识别的结果为声纹检测异常，此时，如果所述多阶段神经网络检测模型的检测结果为正常，所述终端设备可以触发将相应的通话数据增加到云端服务器保存的相应用户的真实音视频数据中，以更新相应的数据库。

与上述方法实施例相对应，本发明实施例还提出了一种通话人物异常的检测装置，设置于终端设备中，如图2所示包括：

较佳地，所述数据采集策略为：

仅在所述通话开始时，采集预设时间长度的通话数据；

或者为：按照预设的采集周期，周期性地采集通话数据。

本发明实施例提出了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上所述的通话人物异常的检测方法的步骤。

另外，本发明的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本发明。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此本发明还公开了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本发明上述方法的任何一种实施例。

另外，本发明所述的方法步骤除了可以用数据处理程序来实现，还可以由硬件来实现，例如，可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌入微控制器等来实现。因此这种可以实现本发明所述方法的硬件也可以构成本发明。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种通话人物异常的检测方法，其特征在于，包括：

其中，所述通话数据包括图像数据和/或语音数据，所述多阶段神经网络检测模型采用的识别方式包括人脸识别、声纹识别、肢体动作识别和/或唇语识别；

在将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的多阶段神经网络检测模型之前：根据所述通话数据，按照预设身份识别方式，进行初始识别，所述身份初始识别方式包括：通话软件号码识别、声纹识别、人脸识别、肢体动作识别和/或唇语识；

2.根据权利要求1所述的方法，其特征在于，所述获取所述通话对象的真实音视频数据包括:

3.根据权利要求1所述的方法，其特征在于，所述数据采集策略为：

仅在所述通话开始时，采集预设时间长度的通话数据；

或者为：按照预设的采集周期，周期性地采集通话数据。

4.根据权利要求1所述的方法，其特征在于，所述终端设备根据所述通话对象的用户标识，从云端服务器获取相应的所述多阶段神经网络检测模型。

5.根据权利要求1所述的方法，其特征在于，

所述多阶段神经网络检测模型为二阶段神经网络检测模型；

所述多阶段神经网络检测模型的训练包括：

6.根据权利要求1所述的方法，其特征在于，当用于进行所述通话的应用启用了美颜功能时，所述终端设备进行所述采集时，采集未经美颜处理的图像数据。

7.根据权利要求1所述的方法，其特征在于，当所述通话为视频通话时，确定所述通话对象是否异常的触发时机为：

当所述终端设备检测到当前通话的视频中出现人脸时。

8.根据权利要求1所述的方法，其特征在于，所述确定所述通话对象是否异常包括：

9.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

10.根据权利要求9 所述的方法，其特征在于，所述异常报警过程包括：

11.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

12.根据权利要求1所述的方法，其特征在于，当所述终端设备为门禁对讲终端时，所述通话对象的标识的获取包括：

13.一种通话人物异常的检测装置，其特征在于，设置于终端设备中，包括：

异常检测模块，用于对于每个所述通话对象，将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的多阶段神经网络检测模型，根据该多阶段神经网络检测模型输出的检测结果，确定所述通话对象是否异常；其中，所述通话数据包括图像数据和/或语音数据，所述多阶段神经网络检测模型采用的识别方式包括人脸识别、声纹识别、肢体动作识别和/或唇语识别；在将当前采集的所述通话数据和该通话对象的所述真实音视频数据，输入该通话对象的多阶段神经网络检测模型之前，根据所述通话数据，按照预设身份识别方式，进行初始识别，所述身份初始识别方式包括：通话软件号码识别、声纹识别、人脸识别、肢体动作识别和/或唇语识别；当由于所采集的通话数据中包含了异常情况下的声音，而导致所述初始识别的结果为声纹检测异常，但所述多阶段神经网络检测模型的检测结果为正常时，触发将相应的通话数据增加到云端服务器保存的相应用户的真实音视频数据中。

14.根据权利要求13所述的装置，其特征在于，所述检测准备模块，用于根据所述通话对象的用户标识，判断本地是否保存所述通话对象的真实音视频数据，如果是，则从本地获取所述真实音视频数据；否则，从云端服务器获取所述通话对象的真实音视频数据。

15.根据权利要求13所述的装置，其特征在于，所述数据采集策略为：

仅在所述通话开始时，采集预设时间长度的通话数据；

或者为：按照预设的采集周期，周期性地采集通话数据。

16.根据权利要求13所述的装置，其特征在于，所述检测准备模块，用于根据所述通话对象的用户标识，从云端服务器获取相应的所述多阶段神经网络检测模型。

17.根据权利要求13所述的装置，其特征在于，所述多阶段神经网络检测模型为二阶段神经网络检测模型；所述多阶段神经网络检测模型的训练过程包括：根据所述通话对象的真实音视频数据，利用预设的AI生成器，生成相应的虚假音视频数据；利用所述通话对象的所述真实音视频数据和所述虚假音视频数据，对该通话对象的二阶段神经网络检测模型，进行二阶段训练，其中，在第一阶段训练中，利用人脸分类检测模型、声纹分类检测模型、肢体动作分类检测模型和/或唇语分类检测模型分别进行相应检测类型的单项检测，并根据所得到的相应特征数据，生成第二阶段的输入数据；在第二阶段训练中，利用全连接卷积网络对本阶段输入的特征数据进行检测，并利用本阶段的训练结果，对当前二阶段神经网络检测模型的训练参数进行调整。

18.根据权利要求13所述的装置，其特征在于，所述数据采集模块，用于当用于进行所述通话的应用启用了美颜功能时，在进行所述采集时，采集未经美颜处理的图像数据。

19.根据权利要求13所述的装置，其特征在于，所述异常检测模块，用于当所述通话为视频通话时，仅在检测到当前通话的视频中出现人脸时，触发确定所述通话对象是否异常。

20.根据权利要求13所述的装置，其特征在于，所述异常检测模块，用于对于每个所述通话对象，根据该通话对象的所述多阶段神经网络检测模型的预设次数的检测结果，确定该通话对象是否异常，所述预设次数大于等于1。

21.根据权利要求13所述的装置，其特征在于，所述异常检测模块，进一步用于当确定所述通话对象异常时，所述终端设备触发相应的异常报警过程。

22.根据权利要求21所述的装置，其特征在于，所述异常检测模块，用于在所述终端设备上显示相应通话对象异常的提示信息；通过预设的报警通讯方式，通知相应的真实联系人，有别人冒充该联系人的身份与使用所述终端设备的用户进行通话；通知云端服务器将正在相应通话对象当前使用的通话软件号码标记为异常。

23.根据权利要求13所述的装置，其特征在于，所述异常检测模块，进一步用于当无法根据所述多阶段神经网络检测模型的检测结果确定所述通话对象是否异常时，在所述终端设备显示相应的提示信息；触发用户通过向相应的通话对话提问题以确定其身份的真实性，或者，重新采集通话数据，并利用新采集的通话数据和该通话对象的多阶段神经网络检测模型，确定所述通话对象是否异常。

24.根据权利要求13所述的装置，其特征在于，所述数据采集模块，用于当所述终端设备为门禁对讲终端时，根据门禁的音视频采集部件采集的人脸和声音数据，从云端服务查找相匹配的用户，如果查找成功，则获取相应的用户标识，否则，确定相应的通话对象为陌生人。

25.一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至12中任一项所述的通话人物异常的检测方法的步骤。

26.一种电子设备，其特征在于，包括如权利要求25所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。