CN112687278B

CN112687278B - 身份校验方法以及电子设备、存储装置

Info

Publication number: CN112687278B
Application number: CN202011411114.7A
Authority: CN
Inventors: 陈森亮; 叶静; 祖昊然; 吴为
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-09-06
Anticipated expiration: 2040-12-03
Also published as: CN112687278A

Abstract

本申请公开了一种身份校验方法以及电子设备、存储装置，其中，身份校验方法包括：获取在与第一报案人语音通信过程中采集的第一音频特征，并获取现场采集的第二报案人的第二音频特征；基于第一音频特征和第二音频特征之间的特征相似度，确定第一报案人与第二报案人是否为同一人。上述方案，能够提高电话报案与现场报案之间的交互性。

Description

身份校验方法以及电子设备、存储装置

技术领域

本申请涉及语音识别技术领域，特别是涉及一种身份校验方法以及电子设备、存储装置。

背景技术

目前，在保险报案流程中，一般报案人先通过电话报案，然后保险公司的查勘员赶赴现场，并接受报案人现场报案。然而，由于目前电话报案环节与现场报案环节互无交互，故极易给不法分子实施欺诈行为留有可乘之机，从而导致保险公司理赔风险大大增加。有鉴于此，如何提高电话报案与现场报案之间的交互性成为极具研究价值的课题。

发明内容

本申请主要解决的技术问题文本是提供一种身份校验方法以及电子设备、存储装置，能够提高电话报案与现场报案之间的交互性。

为了解决上述问题文本，本申请第一方面提供了一种身份校验方法，包括：获取在与第一报案人语音通信过程中采集的第一音频特征，并获取现场采集的第二报案人的第二音频特征；基于第一音频特征和第二音频特征之间的特征相似度，确定第一报案人与第二报案人是否为同一人。

为了解决上述问题文本，本申请第二方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的身份校验方法。

为了解决上述问题文本，本申请第三方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的身份校验方法。

上述方案，获取在与第一报案人语音通信过程中采集的第一音频特征，并获取现场采集的第二报案人的第二音频特征，从而基于第一音频特征和第二音频特征之间的特征相似度，确定第一报案人与第二报案人是否为同一人，故此，能够通过电话报案所采集的第一音频特征和现场报案所采集的第二音频特征，打通电话报案环节与现场报案环节之间的交互壁垒，从而能够提高电话报案环节与现场报案环节之间的交互性。此外，通过基于第一音频特征和第二音频特征之间的特征相似度，来确定第一报案人与第二报案人是否为同一人，还能够提高身份校验的准确性。

附图说明

图1是本申请身份校验方法一实施例的流程示意图；

图2是图1中步骤S11一实施例的流程示意图；

图3是现场音频数据一实施例的示意图；

图4是本申请身份校验方法另一实施例的流程示意图；

图5是本申请电子设备一实施例的框架示意图；

图6是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请身份校验方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取在与第一报案人语音通信过程中采集的第一音频特征，并获取现场采集的第二报案人的第二音频特征。

在一个实施场景中，本公开实施例以及下述实施例可用于保险报案场景中，具体可以用于对电话报案人(本申请称为第一报案人)和现场报案人(本申请称为第二报案人)进行身份校验，即校验第一报案人和第二报案人是否为同一人。具体地，上述保险报案场景可以包括：车险报案场景、寿险报案场景等等，在此不做限定。例如，在车险报案场景中，可以用于对车险平台接听到的电话报案人，以及查勘员在车险案发现场对接的现场报案人两者进行身份校验，即校验电话报案人和现场报案人是否为同一人；或者，在寿险报案场景中，可以用于对寿险平台接听到的电话报案人，以及查勘员在寿险案发现场对接的现场报案人两者进行身份校验，即校验电话报案人和现场报案人是否为同一人。其他场景可以以此类推，在此不再一一举例。

在一个实施场景中，可以获取语音通信过程中的电话音频数据，并从电话音频数据中提取属于第一报案人的报案人音频数据，从而分析报案人音频数据的语音质量，并在该语音质量满足预设质量条件的情况下，获取报案人音频数据的音频特征，作为第一音频特征。上述方式，通过获取语音通信过程中的电话音频数据，并从电话音频数据中提取属于第一报案人的报案人音频数据，能够尽可能地排除其他音频的干扰，在此基础上，分析报案人音频数据的音频质量，并在音频质量满足预设质量条件的情况下，获取报案人音频数据的音频特征，作为第一音频特征，能够在确保第一音频特征是在报案人音频数据的音频质量满足预设质量条件的情况下提取得到的，从而能够有利于提高第一音频特征的准确性。

在一个具体的实施场景中，第一报案人可以致电报案平台，报案平台的话务人员(如，车险客服、寿险客服)可以通过报案平台与第一报案人进行语音通信，为了便于获取报案人音频数据，可以预先将报案平台配置为双通道录音，则可以直接提取其中一个通道的音频数据，得到报案人音频数据。例如，可以预先将双通道中的左通道配置为用于对话务人员录音，右通道配置为用于对第一报案人录音，在此情形下，可以直接提取右通道的音频数据，作为第一报案人的报案人音频数据。

在另一个具体的实施场景中，在上述报案平台无法配置双通道录音的情况下，也可以基于电话音频数据中的空白音，从电话音频数据中提取得到子音频数据，且子音频数据属于第一报案人或话务人员，并利用各个子音频数据的声学特征，将各个子音频数据划分至多个数据集合，且同一数据集合中的子音频数据属于同一人员，从而可以分别获取多个数据集合的音频特征，作为候选音频特征，进而可以利用各个候选音频特征与话务人员的预设音频特征之间的相似度，选择一个候选音频特征作为第一音频特征。上述步骤具体可以参阅本申请中关于获取第二音频特征实施例中的相关描述，在此暂不赘述。

在又一个具体的实施场景中，对于不同的报案平台，上述电话音频数据可能具有不同的音频采样率(如，6kHz、8kHz等等)，也可能具有不同的采样精度(如，8bit、16bit等等)，还有可能具有不同的文件格式(如，wav、mp3等等)，为了便于后续处理，可以将电话音频数据转码为预设采样率(如，8kHz)、预设采样精度(如，16bit)以及预设编码格式(如，脉冲编码调整)。具体地，可以采用ffmpeg等工具进行转码，在此不做限定。上述预设采样率、预设采样精度以及预设编码格式仅仅为实际应用中可能存在的一种情况，具体可以根据实际应用需要进行设置，在此不做限定。

在又一个具体的实施场景中，为了提高分析音频质量的准确性，在分析报案人音频数据的语音质量之前，还可以剔除报案人音频数据中的空白音，即仅保留有人说话的音频数据。

在又一个具体的实施场景中，音频质量具体可以包括音频时长、音频信号中的至少一者，对应地，预设质量条件具体可以包括以下至少一者：报案人音频数据的音频时长大于预设时长、报案人音频数据的音频信号符合预设指标。具体地，预设时长可以根据实际应用需要进行设置，例如，可以设置为20秒、30秒、40秒等等，在此不做限定。为了提高后续身份校验(即确定第一报案人与第二报案人是否为同一人)的准确率，预设时长可以设置地可能大，如可以设置为30秒、40秒等等。经多组样本测试分析，在预设时长设置为30秒的情况下，可以保证后续身份校验的准确率达到98％。此外，音频信号具体可以包括截幅比、信噪比中的至少一者，其中，信噪比表示信号与噪声的比例，截幅比表示信号波形的幅度超出线性范围的比例，信噪比越高、截幅比越低，音频信号越好。具体地，预设指标可以根据实际应用需要进行设置，经多组样本测试分析，为了提高后续身份校验的准确率，可以预设指标可以包括如下至少一者：截幅比不大于10％，信噪比大于20db。

在又一个具体的实施场景中，为了获取报案人音频数据的音频特征，可以提取报案人音频数据的声学特征，并将声学特征送入音频特征提取网络，得到报案人音频数据的音频特征，从而可以将该音频特征作为第一音频特征。具体地，声学特征可以包括但不限于：Fbank(filter bank)、MFCC(Mel Frequency CepstralCoefficents，梅尔频率倒谱系数)等等。经多组样本测试分析，为了提高后续身份校验的准确率，声学特征具体可以为64维的Fbank。此外，音频特征提取网络可以包括但不限于：DNN(Deep Neural Network，深度神经网络)、TDNN(Time-Delayed Neural Network，时延神经网络)、FTDNN(Factorizationfor TDNN，基于因子分解的时延神经网络)，在此不做限定。经多组样本测试分析，为了提高后续身份校验的准确性，音频特征提取网络具体可以为FTDNN，在上述64维的声学特征Fbank送入音频特征提取网络FTDNN之后，可以得到512维的第一音频特征。

在又一个具体的实施场景中，上述报案人音频数据的音频质量还可能存在不满足预设质量条件的情况，在此情形下，可以直接提示无法进行身份校验，即不再执行后续基于第一音频特征和第二音频特征之间的特征相似度，确定第一报案人与第二报案人是否为同一人的步骤。上述方式，在报案人音频数据的音频质量不满足预设质量条件的情况下，提示无法进行身份校验，能够避免后续仍然进行身份校验而可能导致的误报，从而能够有利于降低后续身份校验的误报率。

在一个实施场景中，对于第二报案人的第二音频特征，可以基于报案现场的录音设备，采用与录音设备相匹配的提取方式获取得到。

例如，对于录音设备可以配置为双通道的情况，可以将其中一个通道配置为用于对第二报案人录音，另一通道配置为用于对查勘员录音，从而可以直接提取其中一个通道的音频数据，得到属于第二报案人的报案人音频数据，在此基础上，可以采用与上述提取第一音频特征类似的步骤获取第二音频特征，具体可以分析第二报案人的报案人音频数据的语音质量，并在该语音质量满足预设质量条件的情况下，获取第二报案人的报案人音频数据的音频特征，作为第二音频特征，具体可以参阅前述相关描述，在此不再赘述。

例如，对于录音设备无法配置为双通道的情况，也可以获取现场报案过程中的现场录音数据，且现场音频数据包含属于各个现场人员的子音频数据，并利用各个子音频数据的声学特征，将各个子音频数据划分至多个数据集合，且同一数据集合中的子音频数据属于同一现场人员，从而分别获取多个数据集合的音频特征，作为候选音频特征，进而利用各个候选音频特征与第一音频特征之间的特征相似度，选择一个候选音频特征作为第二音频特征。具体可以参阅本申请中关于获取第二音频特征实施例中的相关描述，在此暂不赘述。

此外，考虑到报案平台可能会接收到大量的电话报案，对应的，查勘员也可能需要处理大量的现场报案，为了提高处理效率，可以将第一音频特征、第二音频特征存储于服务器中，以便后续处理。进一步地，为了提升后续搜索、分析的便利性，可以将第一音频特征、第二音频特征存储于ElasticSearch中。此外，在存储第一音频数据时，还可以将电话报案的业务信息一并存储，业务信息可以包括但不限于：报案号、第一报案人姓名、第一报案人手机号等等，报案号具体可以为电话报案的唯一识别号，即不同的电话报案，其报案号也不同。在车险报案场景中，业务信息还可以包括车牌号。

步骤S12：基于第一音频特征和第二音频特征之间的特征相似度，确定第一报案人与第二报案人是否为同一人。

在一个实施场景中，在特征相似度小于预设阈值的情况下，可以确定第一报案人与第二报案人不为同一人，或者，在特征相似度不小于预设阈值的情况下，可以确定第一报案人与第二报案人为同一人。上述方式，在特征相似度小于预设阈值的情况下，确定第一报案人与第二报案人不为同一人，而在特征相似度不小于预设阈值的情况下，确定第一报案人与第二报案人为同一人，能够基于特征相似度与预设阈值之间的大小关系，来确定第一报案人与第二报案人是否为同一人，从而能够在电话报案环节与现场报案环节的过程中，通过定量分析来身份校验，进而能够有利于提高身份校验的准确性。

在一个具体的实施场景中，预设阈值可以根据实际应用情况进行设置，例如，可以设置为0.2、0.3、0.4等等，在此不做限定。经过多组样本测试分析，为了提高身份校验的准确性，预设阈值具体可以设置为0.3。

在另一个具体的实施场景中，上述特征相似度具体可以为第一音频特征和第二音频特征之间的余弦值。

在另一个实施场景中，在确定第一报案人与第二报案人不为同一人的情况下，可以向理赔员推送预警消息，该预警消息用于提示理赔员报案人可能存在骗保等欺诈情况。

请参阅图2，图2是图1中步骤S11一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S21：获取现场报案过程中的现场音频数据。

本公开实施例中，现场音频数据包含属于各个现场人员的子音频数据。各个现场人员的子音频数据至少可以包括查勘员的子音频数据。

在一个实施场景中，为了确保现场音频数据中还包括第二报案人的子音频数据，查勘员可以在现场引导第二报案人尽可能采用语音来报案，尽量少采用手势、表情等语音之外的信息。进一步地，为了尽可能地降低现场无关人员(如乘客等)的干扰，查勘员还可以引导第二报案人在现场相对安静的地方单独与查勘员进行语音沟通。

在另一个实施场景中，为了获取到各个子音频数据，可以将现场音频数据中的空白音去除，仅保留有人说话的声音，同时可以标识每一段有效的子音频数据的起止时间以及耗时。请结合参阅图3，图3是现场音频数据一实施例的示意图。如图3所示，每一“起始”位置与“截止”位置之间的频谱表示一段子音频数据，而每一“截止”位置与“起始”位置之间的频谱表示一段空白音，空白音的幅度明显大大低于子音频数据的幅度，通过这种方式可以提取出各个子音频数据。其他情况可以以此类推，在此不再一一举例。

此外，现场报案过程中的现场录音数据可以由录音笔、记录仪等采集设备采集得到，在此不做限定。此外，采集设备还可能具有视频采集功能，在此情形下，可以分离采集到的视频数据，得到现场音频数据，例如，可以采用ffmpeg进行音视频分离。

此外，如前述公开实施例所述，为了便于后续处理，可以将现场音频数据转码为预设采样率(如，8kHz)、预设采样精度(如，16bit)以及预设编码格式(如，脉冲编码调整)，具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

步骤S22：利用各个子音频数据的声学特征，将各个子音频数据划分至多个数据集合。

本公开实施例中，同一数据集合中的子音频数据属于同一现场人员。具体地，可以子音频数据的声学特征进行聚类，从而将各个子音频数据划分至多个数据集合。聚类的方式可以包括但不限于：K-Means(K均值)、DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)、BIRCH(Balanced Iterative Reducing and Clusteringusing Hierarchies)、Mean-Shift(均值漂移)等等。请结合参阅表1，表1是子音频数据一实施例的示意表。如表1所示，第1个子音频数据的起始时间为0.38秒，耗时8.04秒，第2个子音频数据的起始时间为8.43秒，耗时3.42秒，第3个子音频数据的起始时间为11.86秒，耗时3.16秒，第4个子音频数据的起始时间为15.4秒，耗时4.07秒，第5个子音频数据的起始时间为19.48秒，耗时3.34秒，以此类推。通过对上述各个子音频的声学特征进行聚类，最终可以将第1个子音频数据、第3个子音频数据、第5个子音频数据划分至同一数据集合，即可以认为上述3个子音频数据属于同一现场人员，为了便于描述，可以记为现场人员1，此外，可以将第2个子音频数据、第4个子音频数据划分至同一数据集合，即可以认为上述2个子音频数据属于同一现场人员，为了便于描述，可以记为现场人员2。其他情况可以以此类推，在此不再一一举例。

表1 子音频数据一实施例的示意表

起始时间(秒)	耗时(秒)	所属现场人员
			0.38	8.04	1
8.43	3.42	2
			11.86	3.16	1
15.4	4.07	2
			19.48	3.34	1
……	……	……

此外，如前述公开实施例所述，声学特征可以包括但不限于：Fbank、MFCC等等。经多组样本测试分析，为了提高后续身份校验的准确率，声学特征具体可以为64维的Fbank。

步骤S23：分别获取多个数据集合的音频特征，作为候选音频特征。

具体地，可以分别将各个数据集合中的子音频数据进行合并，得到与数据集合对应的合并音频数据，并分别获取合并音频数据的音频特征，作为候选音频特征。上述方式，对于数据集合中的各个子音频数据，采用合并的方式得到与数据集合对应的合并音频数据，并将其作为代表数据集合的音频数据，从而获取合并音频数据的音频特征，作为候选音频特征，能够有利于提高候选音频特征的准确性。

在一个实施场景中，如前所述，现场音频数据中至少包含属于查勘员的子音频数据，则在分别获取合并音频数据的音频特征之前，可以分别分析各个合并音频数据的音频质量，并统计音频质量满足预设质量条件的合并音频数据的音频数量，从而在音频数量少于预设数值的情况下，提示无法进行身份校验。为了提高效率，在提示无法进行身份校验的情况下，可以不再执行分别获取合并音频数据的音频特征的步骤以及后续步骤。上述方式，现场音频数据中至少包含属于查勘员的子音频数据，且在分别获取合并音频数据的音频特征之前，分别分析各个合并音频数据的音频质量，并统计音频质量满足预设质量条件的合并音频数据的音频数量，从而在音频数量少于预设数值的情况下，提示无法进行身份校验，能够有利于提高后续身份校验的准确性。

在一个具体的实施场景中，音频质量的具体分析方式可以参阅前述公开实施例中的相关描述，在此不再赘述。

在另一个具体的实施场景中，预设数值具体可以设置2，即满足预设质量条件的合并音频数据的音频数量少于2个，如仅有1个合并音频数据满足预设质量条件，或者不存在满足预设质量条件的合并音频数据，在上述情况下，可以提示无法进行身份校验。此外，根据实际应用需要，预设数值也可以设置为其他数值，在此不做限定。

在又一个具体的实施场景中，具体可以提取合并音频数据的声学特征，并将合并音频数据的声学特征送入音频特征提取网络，得到合并音频数据的音频特征。具体可以参阅前述公开实施例中关于提取第一音频特征的相关描述，在此不再赘述。

在另一个实施场景中，仍以前述表1所示的各个子音频数据为例，可以将属于现场人员1的数据集合所包含的第1个子音频数据、第3个子音频数据、第5个子音频数据按照起始时间的先后顺序合并为一个合并音频数据，为了便于描述，可以记为合并音频数据1，类似地，可以将属于现场人员2的数据集合所包含的第2个子音频数据、第4个子音频数据按照起始时间的先后顺序合并为一个合并音频数据，为了便于描述，可以记为合并音频数据2。在此基础上，可以分别对合并音频数据1、合并音频数据2进行音频质量分析。

步骤S24：利用各个候选音频特征与第一音频特征之间的特征相似度，选择一个候选音频特征作为第二音频特征。

具体地，可以选择最大特征相似度的候选音频特征，作为第二音频特征。上述方式，通过选择最大特征相似度的候选音频特征，作为第二音频特征，能够有利于提高第二音频特征的准确性。

仍以前述表1所示的各个子音频数据为例，在合并音频数据1、合并音频数据2的音频质量均满足预设质量条件的情况下，可以获取合并音频数据1的声学特征，并将该声学特征送入音频特征提取网络，得到合并音频数据1的音频特征，并获取该音频特征与第一音频特征之间的特征相似度，可以记为c(m)，类似地，可以获取合并音频数据2的声学特征，并将该声学特征送入音频特征提取网络，得到合并音频数据2的音频特征，并获取该音频特征与第一音频特征之间的特征相似度，可以记为c(n)，在此基础上，可以比较c(m)和c(n)，若c(m)较大，则可以认为合并音频数据1属于第二报案人，并将合并音频数据1的音频特征作为第二音频特征，反之，若c(n)较大，则可以认为合并音频数据2属于第二报案人，并将合并音频数据2的音频特征作为第二音频特征。其他情况可以以此类推，在此不再一一举例。

区别于前述实施例，获取现场报案过程中的现场音频数据，且现场音频数据包含属于各个现场人员的子音频数据，并利用各个子音频数据的声学特征，将各个子音频数据划分至多个数据集合，且同一数据集合中的子音频数据属于同一现场人员，从而分别获取多个数据集合的音频特征，作为候选音频特征，进而利用各个候选音频特征与第一音频特征之间的特征相似度，选择一个候选音频特征作为第二音频特征，故能够在现场报案过程中的现场音频数据中提取出属于第二报案人的音频数据，有利于提高后续身份校验的准确性。

请参阅图4，图4是本申请身份校验方法另一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S401：获取语音通信过程中的电话音频数据，并从电话音频数据中提取属于第一报案人的报案人音频数据。

具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

步骤S402：分析报案人音频数据的音频质量。

步骤S403：判断报案人音频数据的音频质量是否满足预设质量条件，若是，则执行步骤S404，否则执行步骤S413。

具体地，音频质量以及预设质量条件的设置方式可以参阅前述公开实施例中的相关描述，在此不再赘述。

步骤S404：获取报案人音频数据的音频特征，作为第一音频特征。

如前述公开实施例所述，为了便于后续处理，在得到第一音频特征之后，还可以将第一音频数据进行存储。例如，可以将第一音频数据存储至ElasticSearch，具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

步骤S405：获取现场报案过程中的现场音频数据。

本公开实施例中，现场音频数据包含属于各个现场人员的子音频数据。具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

步骤S406：利用各个子音频数据的声学特征，将各个子音频数据划分至多个数据集合。

本公开实施例中，同一数据集合中的子音频数据属于同一现场人员。具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

步骤S407：分别将各个数据集合中的子音频数据进行合并，得到与数据集合对应的合并音频数据。

步骤S408：分别分析各个合并音频数据的音频质量，并统计音频质量满足预设质量条件的合并音频数据的音频数量。

步骤S409：判断音频数量是否少于预设数值，若否，则执行步骤S410，若是，则执行步骤S413。

具体地，预设数值的设置方式可以参阅前述公开实施例中的相关描述，在此不再赘述。

步骤S410：分别获取合并音频数据的音频特征，作为候选音频特征。

仍以前述表1所述的各个子音频数据为例，最终可以得到合并音频数据1和合并音频数据2，并在合并音频数据1的音频质量和合并音频数据2的音频质量均满足预设质量条件的情况下，可以将合并音频数据1的音频特征和合并音频数据2的音频特征，分别作为候选音频特征。

此外，如前述公开实施例所述，为了便于后续处理，可以将候选音频特征存储至服务器，例如，可以将候选音频特征存储于ElasticSearch。

步骤S411：利用各个候选音频特征与第一音频特征之间的特征相似度，选择最大特征相似度对应的候选音频特征，作为第二音频特征。

仍以前述表1所述的各个子音频数据为例，可以获取合并音频数据1对应的候选音频特征与第一音频特征之间的特征相似度，为了便于描述，可以记为c(m)，并获取合并音频数据2对应的候选音频特征与第一音频特征之间的特征相似度，为了便于描述，可以记为c(n)，并通过比对c(m)和c(n)的大小，来确定第二报案人的音频数据。如前述公开实施例所述，若c(m)较大，则可以认为合并音频数据1属于第二报案人，并将合并音频数据1的音频特征作为第二音频特征，反之，若c(n)较大，则可以认为合并音频数据2属于第二报案人，并将合并音频数据2的音频特征作为第二音频特征。

步骤S412：基于第一音频特征和第二音频特征之间的特征相似度，确定第一报案人与第二报案人是否为同一人。

以特征相似度c(m)对应的合并音频数据1属于第二报案人为例，可以在特征相似度c(m)小于预设阈值(如，0.3)的情况下，确定第一报案人与第二报案人不为同一人，可以在特征相似度c(m)不小于预设阈值(如，0.3)的情况下，确定第一报案人与第二报案人为同一人。

具体可以参阅前述公开实施例中的相关步骤，在此不再赘述。

步骤S413：提示无法进行身份校验。

区别于前述实施例，在电话报案环节，通过获取语音通信过程中的电话音频数据，并从电话音频数据中提取属于第一报案人的报案人音频数据，从而分析报案人音频数据的音频质量，判断报案人音频数据的音频质量是否满足预设质量条件，并在满足预设质量条件的情况下，获取报案人音频数据的音频特征，作为第一音频特征，此外在现场报案环节，通过取现场报案过程中的现场音频数据，从而利用各个子音频数据的声学特征，将各个子音频数据划分至多个数据集合，并分别将各个数据集合中的子音频数据进行合并，得到与数据集合对应的合并音频数据，在此基础上，分别分析各个合并音频数据的音频质量，并统计音频质量满足预设质量条件的合并音频数据的音频数量，并判断音频数量是否少于预设数值，在不少于预设数值的情况下，分别获取合并音频数据的音频特征，作为候选音频特征，并利用各个候选音频特征与第一音频特征之间的特征相似度，选择最大特征相似度对应的候选音频特征，作为第二音频特，从而基于第一音频特征和第二音频特征之间的特征相似度，确定第一报案人与第二报案人是否为同一人，能够通过电话报案所采集的第一音频特征和现场报案所采集的第二音频特征，打通电话报案环节与现场报案环节之间的交互壁垒，从而能够提高电话报案环节与现场报案环节之间的交互性。此外，通过基于第一音频特征和第二音频特征之间的特征相似度，来确定第一报案人与第二报案人是否为同一人，还能够提高身份校验的准确性。

请参阅图5，图5是本申请电子设备50一实施例的框架示意图。如图5所示，电子设备50包括相互耦接的存储器51和处理器52，存储器51中存储有程序指令，处理器52用于执行程序指令以实现上述任一身份校验方法实施例中的步骤。具体地，电子设备50可以包括但不限于：台式计算机、笔记本电脑、服务器等等，在此不做限定。

具体而言，处理器52用于控制其自身以及存储器51以实现上述任一身份校验方法实施例的步骤。处理器52还可以称为CPU(Central Processing Unit，中央处理单元)。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器52可以由集成电路芯片共同实现。

本公开实施例中，处理器52用于获取在与第一报案人语音通信过程中采集的第一音频特征，并获取现场采集的第二报案人的第二音频特征；处理器52用于基于第一音频特征和第二音频特征之间的特征相似度，确定第一报案人与第二报案人是否为同一人。

在一些公开实施例中，处理器52用于获取现场报案过程中的现场音频数据；其中，现场音频数据包含属于各个现场人员的子音频数据；处理器52用于利用各个子音频数据的声学特征，将各个子音频数据划分至多个数据集合；其中，同一数据集合中的子音频数据属于同一现场人员；处理器52用于分别获取多个数据集合的音频特征，作为候选音频特征；处理器52用于利用各个候选音频特征与第一音频特征之间的特征相似度，选择一个候选音频特征作为第二音频特征。

在一些公开实施例中，处理器52用于分别将各个数据集合中的子音频数据进行合并，得到与数据集合对应的合并音频数据；处理器52用于分别获取合并音频数据的音频特征，作为候选音频特征。

区别于前述实施例，对于数据集合中的各个子音频数据，采用合并的方式得到与数据集合对应的合并音频数据，并将其作为代表数据集合的音频数据，从而获取合并音频数据的音频特征，作为候选音频特征，能够有利于提高候选音频特征的准确性。

在一些公开实施例中，现场音频数据中至少包含属于查勘员的子音频数据，处理器52用于分别分析各个合并音频数据的第一音频质量，并统计第一音频质量满足预设质量条件的合并音频数据的音频数量；处理器52用于在音频数量少于预设数值的情况下，提示无法进行身份校验。

区别于前述实施例，现场音频数据中至少包含属于查勘员的子音频数据，且在分别获取合并音频数据的音频特征之前，分别分析各个合并音频数据的音频质量，并统计音频质量满足预设质量条件的合并音频数据的音频数量，从而在音频数量少于预设数值的情况下，提示无法进行身份校验，能够有利于提高后续身份校验的准确性。

在一些公开实施例中，处理器52用于选择最大特征相似度对应的候选音频特征，作为第二音频特征。

区别于前述实施例，通过选择最大特征相似度的候选音频特征，作为第二音频特征，能够有利于提高第二音频特征的准确性。

在一些公开实施例中，处理器52用于获取语音通信过程中的电话音频数据，并从电话音频数据中提取属于第一报案人的报案人音频数据；处理器52用于分析报案人音频数据的第二音频质量，并在第二音频质量满足预设质量条件的情况下，获取报案人音频数据的音频特征，作为第一音频特征。

区别于前述实施例，通过获取语音通信过程中的电话音频数据，并从电话音频数据中提取属于第一报案人的报案人音频数据，能够尽可能地排除其他音频的干扰，在此基础上，分析报案人音频数据的音频质量，并在音频质量满足预设质量条件的情况下，获取报案人音频数据的音频特征，作为第一音频特征，能够在确保第一音频特征是在报案人音频数据的音频质量满足预设质量条件的情况下提取得到的，从而能够有利于提高第一音频特征的准确性。

在一些公开实施例中，处理器52用于在第二音频质量不满足预设质量条件的情况下，提示无法进行身份校验。

区别于前述实施例，在报案人音频数据的音频质量不满足预设质量条件的情况下，提示无法进行身份校验，能够避免后续仍然进行身份校验而可能导致的误报，从而能够有利于降低后续身份校验的误报率。

在一些公开实施例中，处理器52用于在特征相似度小于预设阈值的情况下，确定第一报案人与第二报案人不为同一人；处理器52用于在特征相似度不小于预设阈值的情况下，确定第一报案人与第二报案人为同一人。

区别于前述实施例，在特征相似度小于预设阈值的情况下，确定第一报案人与第二报案人不为同一人，而在特征相似度不小于预设阈值的情况下，确定第一报案人与第二报案人为同一人，能够基于特征相似度与预设阈值之间的大小关系，来确定第一报案人与第二报案人是否为同一人，从而能够在电话报案环节与现场报案环节的过程中，通过定量分析来身份校验，进而能够有利于提高身份校验的准确性。

请参阅图6，图6是本申请存储装置60一实施例的框架示意图。如图6所示，存储装置60存储有能够被处理器运行的程序指令601，程序指令601用于实现上述任一身份校验方法实施例中的步骤。

上述方案，能够通过电话报案所采集的第一音频特征和现场报案所采集的第二音频特征，打通电话报案环节与现场报案环节之间的交互壁垒，从而能够提高电话报案环节与现场报案环节之间的交互性。此外，通过基于第一音频特征和第二音频特征之间的特征相似度，来确定第一报案人与第二报案人是否为同一人，还能够提高身份校验的准确性。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种身份校验方法，其特征在于，包括：

获取在与第一报案人语音通信过程中采集的第一音频特征，并获取现场采集的第二报案人的第二音频特征；其中，所述第一音频特征与所述第二音频特征为对相同案件所采集的音频特征；

基于所述第一音频特征和所述第二音频特征之间的特征相似度，确定所述第一报案人与所述第二报案人是否为同一人。

2.根据权利要求1所述的方法，其特征在于，所述获取现场采集的第二报案人的第二音频特征，包括：

获取现场报案过程中的现场音频数据；其中，所述现场音频数据包含属于各个现场人员的子音频数据；

利用各个所述子音频数据的声学特征，将各个所述子音频数据划分至多个数据集合；其中，同一所述数据集合中的所述子音频数据属于同一所述现场人员；

分别获取所述多个数据集合的音频特征，作为候选音频特征；

利用各个所述候选音频特征与所述第一音频特征之间的特征相似度，选择一个所述候选音频特征作为所述第二音频特征。

3.根据权利要求2所述的方法，其特征在于，所述分别获取所述多个数据集合的音频特征，作为候选音频特征，包括：

分别将各个所述数据集合中的子音频数据进行合并，得到与所述数据集合对应的合并音频数据；

分别获取所述合并音频数据的音频特征，作为所述候选音频特征。

4.根据权利要求3所述的方法，其特征在于，所述现场音频数据中至少包含属于查勘员的子音频数据；在所述分别获取所述合并音频数据的音频特征之前，所述方法还包括：

分别分析各个所述合并音频数据的第一音频质量，并统计所述第一音频质量满足预设质量条件的合并音频数据的音频数量；

在所述音频数量少于预设数值的情况下，提示无法进行身份校验。

5.根据权利要求2所述的方法，其特征在于，所述利用各个所述候选音频特征与所述第一音频特征之间的特征相似度，选择一个所述候选音频特征作为所述第二音频特征，包括：

选择最大所述特征相似度对应的候选音频特征，作为所述第二音频特征。

6.根据权利要求1所述的方法，其特征在于，所述获取在与第一报案人语音通信过程中采集的第一音频特征，包括：

获取语音通信过程中的电话音频数据，并从所述电话音频数据中提取属于所述第一报案人的报案人音频数据；

分析所述报案人音频数据的第二音频质量，并在所述第二音频质量满足预设质量条件的情况下，获取所述报案人音频数据的音频特征，作为所述第一音频特征。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在所述第二音频质量不满足所述预设质量条件的情况下，提示无法进行身份校验。

8.根据权利要求1所述的方法，其特征在于，所述基于所述第一音频特征和所述第二音频特征之间的特征相似度，确定所述第一报案人与所述第二报案人是否为同一人，包括：

在所述特征相似度小于预设阈值的情况下，确定所述第一报案人与所述第二报案人不为同一人；

在所述特征相似度不小于所述预设阈值的情况下，确定所述第一报案人与所述第二报案人为同一人。

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的身份校验方法。

10.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至8任一项所述的身份校验方法。