CN111429918A

CN111429918A - 一种基于声纹识别和意图分析的访电话诈骗方法和系统

Info

Publication number: CN111429918A
Application number: CN202010224867.0A
Authority: CN
Inventors: 黄辉中; 林晓纯
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-17

Abstract

本发明提供了一种基于声纹识别和意图分析的访电话诈骗方法和装置。在电话通话时，对通话语音进行预处理，确定声纹特征；将所述声纹特征与预设诈骗声纹特征进行对比，判断所述声纹特征是否存在诈骗记录；如果存在诈骗记录，发出第一报警信息；如果没有诈骗记录，根据所述声纹特征，获取通话语意；根据所述通话语意，获取语音意图；将所述语音意图与预设诈骗意图进行对比，判断所述语音意图是否为诈骗意图；如果存在诈骗意图，发出第二报警信息，并将所述诈骗意图对应的声纹特征标记为诈骗声纹特征；如果没有诈骗意图，在结束通话时，发出安全声纹提示。

Description

一种基于声纹识别和意图分析的访电话诈骗方法和系统

技术领域

本发明涉及防诈骗技术领域，特别涉及一种基于声纹识别和意图分析的访电话诈骗方法和系统。

背景技术

目前，电信诈骗是一种常见且时常发生的诈骗手段。因为一些老人或者年轻学生的防范意识不强，这种诈骗手段经常会在老人或者年轻学生身上产生作用。现在很多的电话防诈骗方面主要靠人自我的警觉性，但是人的自觉性在不同的年龄段会有不同的体现。因此通过科技手段进行防诈骗，是我们需要研究的方向。

发明内容

本发明提供一种基于声纹识别和意图分析的访电话诈骗方法和系统，用以解决很多老年人或者缺乏相关经验的人很容易上当受骗的情况。

一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，包括：

在电话通话时，对通话语音进行预处理，确定声纹特征；

将所述声纹特征与预设诈骗声纹特征进行对比，判断所述声纹特征是否存在诈骗记录；

如果存在诈骗记录，发出第一报警信息；

如果没有诈骗记录，根据所述声纹特征，获取通话语意；

根据所述通话语意，获取语音意图；

将所述语音意图与预设诈骗意图进行对比，判断所述语音意图是否为诈骗意图；

如果存在诈骗意图，发出第二报警信息，并将所述诈骗意图对应的声纹特征标记为诈骗声纹特征；

如果没有诈骗意图，在结束通话时，发出安全声纹提示。

作为本发明的一种实施例：所述在电话通话时，对通话语音进行预处理，确定声纹特征，包括：

基于大数据采集语音分离数据，构建语音分离模型；

将所述通话语音导入语音分离模型，获取多个语音片段；

采集所述多个语音片段中每个语音片段的语音属性；其中，

所述语音属性包括：语意、语速、声音性别、声音维度、声波和音频；

根据所述语音属性，确定所述多个语音片段的声波频率；

根据所述声波频率，确定声纹特征。

作为本发明的一种实施例：其特征在于，所述将所述声纹特征与预设诈骗声纹特征进行对比，判断所述声纹特征是否存在诈骗记录，包括：

采集诈骗人员的语音信息，基于LSTM神经网络构建诈骗声纹的相似度矩阵；

通过GE2E loss对所述相似度矩阵进行优化，得到最小损失函数；

将所述声纹特征导入所述最小损失函数，得到最小损失函数的函数值；

将所述函数值转化分百分制数值进行表示，根据所述百分制数值判断所述声纹特征是否存在诈骗记录；其中，

当所述百分之数值大于等于1时，所述声纹特征存在诈骗记录，当所述百分之数值小于1时，所述声纹特征不存在诈骗记录。

作为本发明的一种实施例：所述采集诈骗人员的语音信息，基于LSTM神经网络构建诈骗声纹的相似度矩阵，包括以下步骤：

采集N个诈骗人员，每个诈骗人员M句诈骗语音，排列组成Batch；

根据所述Batch，基于LSTM神经网络提取N*M句话的embeddings，然后求取每个embedding和每个人平均embedding的相似度；

根据所述每个embedding和每个人平均embedding的相似度，得到相似度矩阵：；

S_ji,k＝w·cos(e_ji,c_k)+b；

其中，(1<＝j<＝N；1<＝i<＝M；1<＝k<＝N)

所述e_ji中表示第i人第j句话对应的embedding，w和b是要训练的参数，C_K是第k人的embedding，由M句话的embeddings求平均得到，即:

其中，所述e_km表示第k的第m句话对应的embedding。

作为本发明的一种实施例：所述通过GE2E loss对所述相似度矩阵进行优化，得到最小损失函数，包括：

获取第K人的embedding和第j人的embedding；

将所述第K人的embedding和第j人的embedding带入softmax loss公式，得到最小损失函数：

所述S_ji表示第i人第j句话的相似度。

一种基于声纹识别和意图分析的访电话诈骗系统，其特征在于，包括：

第一处理模块：用于在电话通话时，对通话语音进行预处理，确定声纹特征；

第一判断模块：用于将所述声纹特征与预设诈骗声纹特征进行对比，判断所述诈骗声纹特征是否存在诈骗记录；

第一报警模块：用于在存在诈骗记录时，发出第一报警信息；

第二处理模块：用于在没有诈骗记录时，根据所述声纹特征，获取通话语意；

第一获取模块：用于通过所述通话语意，获取语音意图；

第二判断模块：用于将所述语音意图与预设诈骗意图进行对比，判断所述语音意图是否为诈骗意图；

第二报警模块：用于在存在诈骗意图时，发出第二报警信息，并将所述诈骗意图对应的声纹特征标记为诈骗声纹特征；

第三处理模块：用于在没有诈骗意图情况下，在结束通话时，发出安全声纹提示。

作为本发明的一种实施例，所述第一处理模块包括：

第一建模单元：用于根据大数据采集语音分离数据，构建语音分离模型；

第一获取单元：用于将所述通话语音导入语音分离模型，获取多个语音片段；

第一采集单元：用于采集所述多个语音片段中每段语音的语音属性；其中，

根据所述语音属性，确定所述多个语音片段的声波频率；

第一确定单元：根据所述声波频率，确定声纹特征。

作为本发明的一种实施例：所述第一判断模块包括：

第一建模单元：用于采集诈骗人员的语音信息，基于LSTM神经网络构建诈骗声纹的相似度矩阵；

第一处理单元：用于通过GE2E loss对所述相似度矩阵进行优化，得到最小损失函数；

第二获取单元：用于将所述声纹特征导入所述最小损失函数，得到最小损失函数的函数值；

第一判断单元：用于将所述函数值转化分百分制数值进行表示，根据所述百分制数值判断所述声纹特征是否存在诈骗记录；其中，

作为本发明的一种实施例，所述第一建模单元通过以下步骤获得相似度矩阵：

步骤1：采集N个诈骗人员，每个诈骗人员M句诈骗语音，排列组成Batch；

步骤2：根据所述Batch，基于LSTM神经网络提取N*M句话的embeddings，然后求取每个embedding和每个人平均embedding的相似度；

根据所述每个embedding和每个人平均embedding的相似度，得到相似度矩阵：S_ji,k＝w·cos(e_ji,c_k)+b；

其中，(1<＝j<＝N；1<＝i<＝M；1<＝k<＝N)

其中，所述e_km表示第k的第m句话对应的embedding。

作为本发明的一种实施例，所述第一处理单元通过以下步骤获得最小损失函数：

获取第K人的embedding和第j人的embedding；

所述S_ji表示第i人第j句话的相似度。

本发明的有益效果在于：本发明通过根据声学特征和语音意图判断通话语音中是否存在诈骗人员，然后发出提醒。可以在绝大部分情况下过滤掉电话诈骗语音诈骗，保护了缺乏警觉性的人。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明实施例中一种基于声纹识别和意图分析的访电话诈骗方法的方法流程图；

图2为本发明实施例中一种基于声纹识别和意图分析的访电话诈骗方法和系统的流程图；

图3为本发明的实施例中一种基于声纹识别和意图分析的访电话诈骗系统的系统结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明适用于通过语音通话的设备，不局限于手机、电脑、固定电话等。

如附图1所示本发明的一种基于声纹识别和意图分析的访电话诈骗方法，包括：

步骤100：在电话通话时，对通话语音进行预处理，确定声纹特征；

步骤101：将所述声纹特征与预设诈骗声纹特征进行对比，判断所述声纹特征是否存在诈骗记录；

步骤102：如果存在诈骗记录，发出第一报警信息；

步骤103：如果没有诈骗记录，根据所述声纹特征，获取通话语意；

步骤104：根据所述通话语意，获取语音意图；

步骤105：将所述语音意图与预设诈骗意图进行对比，判断所述语音意图是否为诈骗意图；

步骤106：如果存在诈骗意图，发出第二报警信息，并将所述诈骗意图对应的声纹特征标记为诈骗声纹特征；

步骤107：如果没有诈骗意图，在结束通话时，发出安全声纹提示。

本发明的原理在于：本发明根据对通话时的语音进行处理，得到通话人员的声纹特征；基于现有技术采集诈骗人员的语音，在具体实施时可以对接公安系统以及媒体采访诈骗人员的语音系统等；通过这些语音声纹特征，可以判断通话的人员中是否存在诈骗人员，作为第一次判断。

当第一次判断，不存在诈骗人员时，说明通话的人员都不存在诈骗记录，这时，根据语意进行第二次判断，同样基于现有的公安系统以及媒体采访诈骗人员的语音系统采集诈骗时，诈骗人员语音的语意，第二次判断不仅可以根据已经诈骗人员在诈骗时的语音，还可以根据预测的诈骗人员可能存在的语音的语意进行判断，作为第二次判断结果。

当第二次判断之后，如果存在诈骗意图，进行报警。当不存在诈骗意图时，在通话结束后，记录为安全声纹，并进行提示。

本发明的有益效果在于：本发明根据诈骗人员的声纹特征，以及语意意图通过两次的判断，判断通话语音是否存在诈骗人员。通过声纹特征可以根据现有的诈骗人员的声纹特征判断通话的人员中是否存在有诈骗记录的人，如果通话的人中有诈骗记录的人可以进行提醒。在第一次判断之后。通过语意意图再进行第二次判断，语意意图的判断可以防止没有通话记录的人员实行诈骗。双重检测判断，对于防诈骗来说也具有双重保障。

附图2为本发明的其中一种实施例：通过语音监控，获取通话人的语音特征，然后通过预设系统的语音特征进行匹配，预设系统连接公安或者媒体网络，收集已经存在诈骗现象的人的语音特征，当没有匹配的语音特征时，导入系统特征库，当能够匹配上预设系统的声纹特征时，发出警告。并对意图进行分析，对比历史骗人套路和意图判断是否存在骗人意图。有骗人意图发出警告，没有骗人意图，结束聊天。

基于大数据采集语音分离数据，构建语音分离模型；

将所述通话语音导入语音分离模型，获取多个语音片段；

采集所述多个语音片段中每个语音片段的语音属性；其中，

根据所述语音属性，确定所述多个语音片段的声波频率；

根据所述声波频率，确定声纹特征。

本发明的原理在于：本发明在语音预处理时，通过构建语音分离模型，通过每个语音片段的语意、语速、声音性别、声音维度、声波和音频多方面确定声波频率；最后根据声波频率作为声纹特征，这也是本发明对声纹的一次过滤过程。

本发明的有益效果在于：本发明通过语音属性得到通话语音的声纹特征。而根据声纹特征可以对已诈骗人员的声纹特征进行对比。

通过GE2E loss公式对所述相似度矩阵进行优化，得到最小损失函数；

本发明的原理在于：本发明通过LSTM神经网络构建诈骗声纹的相似度矩阵，然后得到最小损失函数，通过输入通话语音的来判断通话的语音的声纹特征判断是不是存在诈骗记录，具有诈骗记录在进行提醒。

本名的有益效果在于：本发明通过构建相似度矩阵，再通过优化后的最小损失函数，对通话的声纹特征进行计算，判断出通话的人中是不是存在具有诈骗记录的人。

S_ji,k＝w·cos(e_ji,c_k)+b；

其中，(1<＝j<＝N；1<＝i<＝M；1<＝k<＝N)

其中，所述e_km表示第k的第m句话对应的embedding。

本发明的原理在于：embeddings表示用一个低维的向量表示一个物体，或者语句。在本发明中可以作为声纹特征进行表示。从而得到声纹特征的相似度矩阵。

本发明的有益效果在于：本发明通过LSTM神经网络提取的embeddings，最后通过embeddings得到相似度矩阵。使得声纹特征可以作为向量进行计算。

获取第K人的embedding和第j人的embedding；

所述S_ji表示第i人第j句话的相似度。

本发明的原理在于：本发明基于相似度矩阵通过把通话语音的embedding输入相似度矩阵，最后通过softmax loss公式得到最小损失函数，计算出相似度。

本发明的有益效果在于：本发明通过最小损失函数在最小损失的情况下，得到通话语音和预设诈骗通话语音的相似情况，从而判断实施时的通话语音是不是又诈骗记录。

第一判断模块：用于将所述声纹特征与预设诈骗声纹特征进行对比，判断所述声纹特征是否存在诈骗记录；

第一获取模块：用于通过所述通话语意，获取语音意图；

作为本发明的一种实施例：所述第一判断模块包括：

其中，(1<＝j<＝N；1<＝i<＝M；1<＝k<＝N)

其中，所述e_km表示第k的第m句话对应的embedding。

获取第K人的embedding和第j人的embedding；

所述S_ji表示第i人第j句话的相似度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，包括：

在电话通话时，对通话语音进行预处理，确定声纹特征；

如果存在诈骗记录，发出第一报警信息；

如果没有诈骗记录，根据所述声纹特征，获取通话语意；

根据所述通话语意，获取语音意图；

如果没有诈骗意图，在结束通话时，发出安全声纹提示。

2.根据权利要求1所述的一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，所述在电话通话时，对通话语音进行预处理，确定声纹特征，包括：

基于大数据采集语音分离数据，构建语音分离模型；

将所述通话语音导入语音分离模型，获取多个语音片段；

采集所述多个语音片段中每个语音片段的语音属性；其中，

根据所述语音属性，确定所述多个语音片段的声波频率；

根据所述声波频率，确定声纹特征。

3.根据权利要求1所述的一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，所述将所述声纹特征与预设诈骗声纹特征进行对比，判断所述声纹特征是否存在诈骗记录，包括：

通过GE2Eloss公式对所述相似度矩阵进行优化，得到最小损失函数；

4.根据权利要求3所述的一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，所述采集诈骗人员的语音信息，基于LSTM神经网络构建诈骗声纹的相似度矩阵，包括以下步骤：

S_ji,k＝w·cos(e_ji,c_k)+b；

其中，(1<＝j<＝N；1<＝i<＝M；1<＝k<＝N)

其中，所述e_km表示第k的第m句话对应的embedding。

5.根据权利要求3所述的一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，所述通过GE2Eloss对所述相似度矩阵进行优化，得到最小损失函数，包括：

获取第K人的embedding和第j人的embedding；

所述S_ji表示第i人第j句话的相似度。

6.一种基于声纹识别和意图分析的访电话诈骗系统，其特征在于，包括：

第一获取模块：用于通过所述通话语意，获取语音意图；

7.根据权利要求6所述的一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，所述第一处理模块包括：

根据所述语音属性，确定所述多个语音片段的声波频率；

第一确定单元：根据所述声波频率，确定声纹特征。

8.根据权利要求6所述的一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，所述第一判断模块包括：

第一处理单元：用于通过GE2Eloss公式对所述相似度矩阵进行优化，得到最小损失函数；

9.根据权利要求8所述的一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，所述第一建模单元通过以下步骤获得相似度矩阵：

其中，(1<＝j<＝N；1<＝i<＝M；1<＝k<＝N)

其中，所述e_km表示第k的第m句话对应的embedding。

10.根据权利要求8所述的一种基于声纹识别和意图分析的访电话诈骗方法，其特征在于，所述第一处理单元通过以下步骤获得最小损失函数：

获取第K人的embedding和第j人的embedding；

所述S_ji表示第i人第j句话的相似度。