CN114006747A

CN114006747A - 交互安全管理方法、装置、计算机设备及可读存储介质

Info

Publication number: CN114006747A
Application number: CN202111265960.7A
Authority: CN
Inventors: 颜青玲
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-01

Abstract

本发明涉及人工智能技术领域，公开了一种交互安全管理方法、装置、计算机设备及可读存储介质，包括：获取客户端发送的线上语音信息；拦截线上语音信息，通过声纹识别模型判断线上语音信息的发出者是否为客户端的所有者；若是，则取消对线上语音信息的拦截；将线上语音信息发送至人机语音交互系统，并接收人机语音交互系统根据线上语音信息生成的反馈语音；将反馈语音发送至客户端。本发明避免了操作者需要操作大量流程方可实现身份认证的情况发生，实现了身份认证无感确认的技术效果，提高了信息交互效率及用户体验。

Description

交互安全管理方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及人工智能的生物识别技术领域，尤其涉及一种交互安全管理方法、装置、计算机设备及可读存储介质。

背景技术

人机语音交互系统是研究人与计算机之间通过相互理解的交流与通信，在最大程度上为人们完成信息管理，服务和处理等功能，使计算机真正成为人们工作学习的和谐助手的一门技术科学，当前通常使用人机语音交互系统提供信息服务和交易服务，用以降低人工成本的投入。

然而，发明人意识到，当人机语音交互系统在向客户端提供涉密信息服务或交易服务时，需要确认当前客户端的操作者是否为客户端所有者，故通常需要调用人脸识别系统和/或密码输入及验证系统等复杂系统对操作者的身份进行验证，导致操作者需要操作大量流程方可实现身份认证的情况发生，不仅操作繁琐，还导致信息交互效率低下，影响用户体验。

发明内容

本发明的目的是提供一种交互安全管理方法、装置、计算机设备及可读存储介质，用于解决现有技术存在的需要调用人脸识别系统和/或密码输入及验证系统等复杂系统对操作者的身份进行验证，导致操作者需要操作大量流程方可实现身份认证的情况发生，不仅操作繁琐，还导致信息交互效率低下，影响用户体验问题。

为实现上述目的，本发明提供一种交互安全管理方法，与人机语音交互系统连接，包括：

获取客户端发送的线上语音信息；

拦截所述线上语音信息，通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；若是，则取消对所述线上语音信息的拦截；

将所述线上语音信息发送至人机语音交互系统，并接收所述人机语音交互系统根据所述线上语音信息生成的反馈语音；

将所述反馈语音发送至所述客户端。

上述方案中，所述获取客户端发送的线上语音信息之后，所述方法还包括：

调用线下监听线程，用以通过客户端获取所有者的线下语音信息；

拦截所述线上语音信息，根据所述线下语音信息判断客户端的环境状态；若所述环境状态为胁迫，则删除所述线上语音信息并生成报警信息；若所述环境状态为非胁迫，则取消对所述线上语音信息的拦截。

拦截所述线上语音信息，通过预置的机器学习模型识别所述线上语音信息的说话场景；若所述说话场景为真人交互，则取消对所述线上语音信息的拦截；若所述所述说话场景为非真人交互，则删除所述线上语音信息并生成报警信息。

上述方案中，所述通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者，包括：

获取与所述客户端对应的声纹库，提取所述客户端预先在所述声纹库中注册的标准声纹模型；其中，所述标准声纹模型是根据客户端在注册时所发送的注册语音信息所生成；

通过所述声纹识别模型识别所述标准声纹模型和所述线上语音信息之间的线上相似度；

判断所述线上相似度是否超过预置的线上阈值，若是，则判定所述线上语音信息的发出者为所述客户端的所有者；若否，则判定所述线上语音信息的发出者不为所述客户端的所有者。

上述方案中，所述根据所述线下语音信息判断客户端的环境状态，包括：

通过预置的语音识别组件对所述线下语音信息进行语音识别，获得线下文本信息；

识别所述线下文本信息中是否具有预置的胁迫字段；若是，则判定所述客户端的环境状态为胁迫；若否，则判定所述客户端的环境状态为非胁迫。

上述方案中，所述将所述反馈语音发送至所述客户端之前，所述方法还包括：

判断所述反馈语音中是否具有授权指令；

若所述反馈语音中不具有所述授权指令，则将所述反馈语音发送至所述客户端；

若所述反馈语音中具有所述授权指令，则根据所述授权指令拦截所述反馈语音，并向所述客户端发送口令对话框；接收所述客户端通过所述口令对话框发送的口令语音信息，判断所述口令语音信息是否与预置的固定口令信息一致；若是，则将所述反馈语音发送至所述客户端；若否，则删除所述反馈信息并结束。

上述方案中，所述若所述环境状态为胁迫，则删除所述线上语音信息并生成报警信息之后，所述方法还包括：

根据环境状态为胁迫所生成报警信息构建伪反馈结果，将所述伪反馈结果发送至所述客户端；

将所述伪反馈结果上传至区块链中。

为实现上述目的，本发明还提供一种交互安全管理装置，与人机语音交互系统连接，包括：

线上语音模块，用于获取客户端发送的线上语音信息；

身份判断模块，用于拦截所述线上语音信息，通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；若是，则取消对所述线上语音信息的拦截；

信息交互模块，用于将所述线上语音信息发送至人机语音交互系统，并接收所述人机语音交互系统根据所述线上语音信息生成的反馈语音；

语音反馈模块，用于将所述反馈语音发送至所述客户端。

为实现上述目的，本发明还提供一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述计算机设备的处理器执行所述计算机程序时实现上述交互安全管理方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述可读存储介质存储的所述计算机程序被处理器执行时实现上述交互安全管理方法的步骤。

本发明提供的交互安全管理方法、装置、计算机设备及可读存储介质，通过声纹识别模型判断线上语音信息的发出者是否为客户端的所有者的方式，根据线上语音信息的声纹特征确认线上语音信息是否与该客户端预先在声纹库中所注册的声音一致，进而确认线上语音信息为客户端所有者所发出的；若是，则判定该线上语音信息的发出者为客户端的所有者；若否，则判定该线上语音信息的发出者并非该客户端的所有者；并且，将报警信息发送至客户端所有者的紧急联系人，或客户端所有者预先注册的安全应用上(例如：安全邮箱，微信等)进而保证后续交流/交易的安全性。

通过确认操作者为客户端所有者，用以实现客户端与人机语音交互系统之间的安全交流和交易；又由于对客户端所有者的身份、说话场景，以及环境状态的确认，无需客户端进行任何操作即可实现，避免了当前人机语音交互系统需要调用大量的人脸识别系统，密码输入及验证系统等复杂系统对操作者的身份进行验证，导致操作者需要操作大量流程方可实现身份认证的情况发生，实现了身份认证无感确认的技术效果，提高了信息交互效率及用户体验。

附图说明

图1为本发明交互安全管理方法实施例一的流程图；

图2为本发明交互安全管理方法实施例二中交互安全管理方法的环境应用示意图；

图3是本发明交互安全管理方法实施例二中交互安全管理方法的具体方法流程图；

图4为本发明交互安全管理装置实施例三的程序模块示意图；

图5为本发明计算机设备实施例四中计算机设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的交互安全管理方法、装置、计算机设备及可读存储介质，适用于人工智能的技术领域，为提供一种基于线上语音模块、身份判断模块、信息交互模块、语音反馈模块的交互安全管理方法。本发明通过获取客户端发送的线上语音信息；拦截所述线上语音信息，通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；若是，则取消对所述线上语音信息的拦截；若否，则删除所述线上语音信息并生成报警信息；将所述线上语音信息发送至人机语音交互系统，并接收所述人机语音交互系统根据所述线上语音信息生成的反馈语音；将所述反馈语音发送至所述客户端。

实施例一：

请参阅图1，本实施例的一种交互安全管理方法，与人机语音交互系统连接，包括：

S100：获取客户端发送的线上语音信息；

S102：拦截所述线上语音信息，通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；若是，则取消对所述线上语音信息的拦截；若否，则删除所述线上语音信息并生成报警信息；

S105：将所述线上语音信息发送至人机语音交互系统，并接收所述人机语音交互系统根据所述线上语音信息生成的反馈语音；

S107：将所述反馈语音发送至所述客户端。

在示例性的实施例中，通过向客户端发送能够录入所述线上语音信息的交互对话框，并从所述交互对话框中获取客户端以语音的方式录入所述线上语音信息。所述交互对话框是用于记录客户端所有者输入的语音信息，以及用于向客户端发送并播放反馈语音的交互界面，其中，所述交互界面可为app交互界面，h5交互界面，网页交互页面。

通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；若是，则取消对所述线上语音信息的拦截；若否，则删除所述线上语音信息并生成报警信息的方式，根据线上语音信息的声纹特征确认线上语音信息是否与该客户端预先在声纹库中所注册的声音一致，进而确认线上语音信息为客户端所有者所发出的；若是，则判定该线上语音信息的发出者为所述客户端的所有者；若否，则判定该线上语音信息的发出者并非该客户端的所有者；并且，将所述报警信息发送至所述客户端所有者的紧急联系人，或所述客户端所有者预先注册的安全应用上(例如：安全邮箱，微信等)进而保证后续交流/交易的安全性。

通过确认操作者为客户端所有者，用以实现客户端与人机语音交互系统之间的安全交流和交易；又由于对所述客户端所有者的身份、说话场景，以及环境状态的确认，无需客户端进行任何操作即可实现，避免了当前人机语音交互系统需要调用大量的人脸识别系统，密码输入及验证系统等复杂系统对操作者的身份进行验证，导致操作者需要操作大量流程方可实现身份认证的情况发生，实现了身份认证无感确认的技术效果，提高了信息交互效率及用户体验。

于所述图1中，所述S102通过以下标注展示：

S102-1：拦截所述线上语音信息；

S102-2：通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；

S102-3：若是，则取消对所述线上语音信息的拦截；

S102-4：若否，则删除所述线上语音信息并生成报警信息。

实施例二：

本实施例为上述实施例一的一种具体应用场景，通过本实施例，能够更加清楚、具体地阐述本发明所提供的方法。

下面，以在运行有交互安全管理方法的服务器中，通过对线上语音信息的发出者是否为客户端的所有者的情况进行声纹识别，为例，来对本实施例提供的方法进行具体说明。需要说明的是，本实施例只是示例性的，并不限制本发明实施例所保护的范围。

图2示意性示出了根据本申请实施例二的交互安全管理方法的环境应用示意图。

在示例性的实施例中，交互安全管理方法所在的服务器2通过网络分别连接人机语音交互系统3和客户端4；所述服务器2可以通过一个或多个网络提供服务，网络3可以包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或等等。网络可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，它们的组合和/或类似物。网络可以包括无线链路，例如蜂窝链路，卫星链路，Wi-Fi链路和/或类似物；所述客户端4可为智能手机、平板电脑、笔记本电脑、台式电脑等计算机设备。

图3是本发明一个实施例提供的一种交互安全管理方法的具体方法流程图，该方法具体包括步骤S200至S209。

S200：获取客户端发送的线上语音信息。

本步骤中，通过向客户端发送能够录入所述线上语音信息的交互对话框，并从所述交互对话框中获取客户端以语音的方式录入所述线上语音信息。

于本实施例中，所述交互对话框是用于记录客户端所有者输入的语音信息，以及用于向客户端发送并播放反馈语音的交互界面，其中，所述交互界面可为app交互界面，h5交互界面，网页交互页面。

在一个优选的实施例中，所述获取客户端发送的线上语音信息，包括：

S01；接收客户端发送的交互请求，根据所述交互请求向所述客户端发送交互对话框；

S02：获取所述客户端在所述交互对话框中录入的线上语音信息。

具体地，当客户端需要进行语音交流，用以办理具体业务时，接收客户端发送的交互请求，其中，所述交互请求中记载了客户端需要办理的目标业务；根据所述交互请求将交互对话框发送至所述客户端，并将所述目标业务与所述交互对话框进行关联，以便于客户端可围绕该目标业务与服务器之间通过所述线上语音信息进行沟通，提高了线上沟通效率。

S201：调用线下监听线程，用以通过客户端获取所有者的线下语音信息；

为识别客户端的所有者当前所处环境，以便于后续识别所述所有者当前环境是否安全，本步骤通过监听所述客户端接收到的线下语音信息的方式用以获取所有者在线下的说话内容，以便于后续通过分析所述线下语音信息来确定所述环境。

在一个优选的实施例中，所述监听所述客户端收集到的线下语音信息，包括：

S11：接收所述客户端通过所述交互对话框发送的监听许可信息。

S12：根据所述监听启动指令启动所述监听线程，用以监听所述客户端收集到的线下语音信息。

具体地，通过接收所述客户端通过所述交互对话框发送的监听许可信息，以确保接受客户端所有者的授权，对线下语音信息进行监听，避免因监听所有者私人信息而侵犯其个人隐私。

根据所述监听启动指令启动所述监听线程，实现收集所述线下语音信息的技术效果，于本实施例中，采用用于开启客户端的“麦克风”功能的计算机指令，并收集保存所述客户端麦克风所收集到的线下语音信息的堆栈作为所述监听线程。

进一步地，为避免监听线程过长时间的占用所述客户端的麦克风，所述根据所述监听启动指令启动所述监听线程，包括：

对所述监听线程设置启动时长，例如：10s；

根据所述监听启动指令启动所述监听线程；

当监听到所述监听线程的启动时间达到所述启动时长时，关闭所述监听线程，以避免所述客户端的麦克风被长时间占用，导致客户端运行不畅。

S202：拦截所述线上语音信息，通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；若是，则取消对所述线上语音信息的拦截；若否，则删除所述线上语音信息并生成报警信息。

为确认线上语音信息为客户端所有者所发出的，进而保证后续的交流安全性；本步骤通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；若是，则取消对所述线上语音信息的拦截；若否，则删除所述线上语音信息并生成报警信息的方式，根据线上语音信息的声纹特征确认线上语音信息是否与该客户端预先在声纹库中所注册的声音一致；若是，则判定该线上语音信息的发出者为所述客户端的所有者；若否，则判定该线上语音信息的发出者并非该客户端的所有者；并且，将所述报警信息发送至所述客户端所有者的紧急联系人，或所述客户端所有者预先注册的安全应用上(例如：安全邮箱，微信等)进而保证后续交流/交易的安全性。

在一个优选的实施例中，所述通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者，包括：

S21：获取与所述客户端对应的声纹库，提取所述客户端预先在所述声纹库中注册的标准声纹模型；其中，所述标准声纹模型是根据客户端在注册时所发送的注册语音信息所生成；

S22：通过所述声纹识别模型识别所述标准声纹模型和所述线上语音信息之间的线上相似度；

S23：判断所述线上相似度是否超过预置的线上阈值，若是，则判定所述线上语音信息的发出者为所述客户端的所有者；若否，则判定所述线上语音信息的发出者不为所述客户端的所有者。

具体地，采用声纹图谱作为所述标准声纹模型和所述线上语音信息，接收客户端发送的注册请求，根据所述注册请求创建与所述客户端关联的声纹库，其中，所述声纹库为用于保存所述标准声纹模型的数据库；接收所述客户端发送的标准语音信息，根据所述标准语音信息构建所述客户端的标准声纹模型，并将所述标准声纹模型保存至所述声纹库中；其中，所有者可通过阅读指定文本(包括：文字和/或数字)形成标准语音信息。

所述声纹识别模型为混合高斯-通用背景模型，其用于识别所述标准声纹模型和线上语音信息之间相似度，其中，混合高斯-通用背景模型(Gaussian Mixture Model-Universal Background Model，GMM-UBM)将声学特征投影到高维空间上，得到高维的均值超矢量。UBM采用大规模的说话人语料训练完成，因此可以进行说话人的共性特征的描述。然后，以UBM为初始模型，采用目标说话人数据进行基于最大后验概率(Maximum APosterior,MAP)的自适应训练，得到目标说话人的混合高斯模型(GMM)，即：所述标准声纹模型。其中，所述共性特征包括：共鸣方式特征、嗓音纯度特征、平均音高特征和音域特征。

所述混合高斯-通用背景模型还用于通过计算似然值的方法，对所述线上语音信息进行评分，用以评价所述线上语音信息的声纹特征与所述共性特征之间的相似程度；若所述评分超过预置的相似阈值，则判定所述线上语音信息的发出者为所述客户端的所有者；若所述评分未超过预置的相似阈值，则判定所述线上语音信息的发出者不为所述客户端的所有者。

于所述图3中，所述S202通过以下标注展示：

S202-1：拦截所述线上语音信息；

S202-2：通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；

S202-3：若是，则取消对所述线上语音信息的拦截；

S202-4：若否，则删除所述线上语音信息并生成报警信息。

S203：拦截所述线上语音信息，通过预置的机器学习模型识别所述线上语音信息的说话场景；若所述说话场景为真人交互，则取消对所述线上语音信息的拦截；若所述所述说话场景为非真人交互，则删除所述线上语音信息并生成报警信息。

为识别出所述线上语音信息所处场景，以避免因所述线上语音信息是通过录音、电话通话等形式所发出，导致后续的交流/交易的安全性降低的问题发生。本步骤通过机器学习模型识别所述线上语音信息的说话场景；若所述说话场景为真人交互，则取消对所述线上语音信息的拦截；若所述说话场景为非真人交互，则删除所述线上语音信息并生成报警信息的方式，避免出现使用录音来替代真人声音，或通过通信设备远程蒙骗客户端所有者说话，以蒙骗人机语音交互系统的情况发生；并且，将所述报警信息发送至所述客户端所有者的紧急联系人，或所述客户端所有者预先注册的安全应用上(例如：安全邮箱，微信等)进而保证后续的交流/交易的安全性。

具体地，采用深度神经网络作为所述机器学习模型，其用于识别所述线上语音信息是否是基于预置的说话场景(例如：录音、线上通话等形式)所发出的；其中，所述深度神经网络(Deep Neural Networks,DNN)是一种用于判别所述线上语音信息所在场景的计算机模型，其通过反向传播算法进行训练。于本实施例中，所述机器学习模型的训练方法，包括：

S31：获取所述注册语音信息，将所述注册语音信息的场景标签设为真人交互；

S32：对所述注册语音信息进行场景处理得到场景语音信息，并将所述场景语音信息的场景标签设为非真人交互；

本步骤中，所述场景处理包括：录音场景处理：将所述注册语音信息录入录音设备，播放所述录音设备获得场景标签为非真人交互的场景语音信息；

终端场景处理：将所述注册语音信息通过通信设备播放，获得场景标签为非真人交互的场景语音信息。

S33：以具有所述场景标签的所述注册语音信息和所述场景语音信息为训练样本，通过反向传播算法对深度神经网络进行训练，得到能够识别线上语音信息所处场景的所述机器学习模型。

本步骤中，所述反向传播算法，简称BP算法，是一种建立在梯度下降法的基础上，且适合于多层神经元网络的一种学习算法，于本实施例中，以所述注册语音信息和所述场景语音信息作为所述深度神经网络的输入，以所述场景标签，即：真人交互和非真人交互，作为所述深度神经网络的输出，对所述深度神经网络进行训练，最终得到能够根据输入的语音信息，准确判断该语音信息的说话场景的机器学习模型。

于所述图3中，所述S203通过以下标注展示：

S203-1：拦截所述线上语音信息；

S203-2：通过预置的机器学习模型识别所述线上语音信息的说话场景；

S203-3：若所述说话场景为真人交互，则取消对所述线上语音信息的拦截；

S203-4：若所述说话场景为非真人交互，则删除所述线上语音信息并生成报警信息。

S204：拦截所述线上语音信息，根据所述线下语音信息判断客户端的环境状态；若所述环境状态为胁迫，则删除所述线上语音信息并生成报警信息；若所述环境状态为非胁迫，则取消对所述线上语音信息的拦截。

为识别客户端所有者因处于被胁迫的状态，导致与人机语音交互系统交流的过程中出现秘密泄露或胁迫交易的情况发生，本步骤通过根据所述线下语音信息判断用户是否被胁迫的方式，对客户端所有者当前所处的环境进行判断，以快速反应该所有者当前所在环境；如果客户端当前所有者处于被胁迫的状态，则生成报警信息，进而确保客户端的所有者及所述所有者的生命财产安全。

在一个优选的实施例中，所述根据所述线下语音信息判断客户端的环境状态，包括：

S41：通过预置的语音识别组件对所述线下语音信息进行语音识别，获得线下文本信息；

本步骤中，采用AI-voice软件作为所述语音识别组件；其中，AI-voice软件可以实现在线语音转文字的功能，直接说话即可转换成文字；其次，AI-voice软件可以实现翻译的功能，可将接收到的线下语音信息自动翻译成多种语音，扩大了应用范围。

S42：识别所述线下文本信息中是否具有预置的胁迫字段；若是，则判定所述客户端的环境状态为胁迫；若否，则判定所述客户端的环境状态为非胁迫。

本步骤中，所述胁迫字段是客户端的所有者预先保存的文字口令，例如：121，对不起，我紧张等，一旦客户端的所有者说出了上述口令，则表明该所有者当前处于被胁迫状态；根据所述胁迫字段构建胁迫正则表达式，通过所述胁迫正则表达式识别所述线下文本信息中与所述胁迫字段一致的文字，若识别到与所述胁迫字段一致的文字，则表明客户端所有者当前处于胁迫状态。

于所述图3中，所述S204通过以下标注展示：

S204-1：拦截所述线上语音信息；

S204-2：根据所述线下语音信息判断客户端的环境状态；

S204-3：若所述环境状态为胁迫，则删除所述线上语音信息并生成报警信息；

S204-4：若所述环境状态为非胁迫，则取消对所述线上语音信息的拦截。

S205：将所述线上语音信息发送至人机语音交互系统，并接收所述人机语音交互系统根据所述线上语音信息生成的反馈语音。

本步骤中，对于操作者为客户端所有者，且该所有者未处于胁迫状态的，以及由所述所有者真人发出的线上语音信息发送至所述人机语音交互系统，并得到相应的反馈语音，用以实现客户端与人机语音交互系统之间的安全交流和交易。又由于对所述客户端所有者的身份、说话场景，以及环境状态的确认，无需客户端进行任何操作即可实现，实现了身份、场景和环境的无感确认的技术效果，提高了信息交互效率及用户体验。

S206：判断所述反馈语音中是否具有授权指令。

本步骤中，所述反馈语音以报文的形式存在，所述授权指令是人机语音交互系统在于所述客户端之间需要进行交易的场景，或需要沟通商业秘密的场景下，由人机语音交互系统所发出的；所述授权指令以消息头的形式保存在所述报文中。

S207，若所述反馈语音中不具有所述授权指令，则将所述反馈语音发送至所述客户端。

S208：若所述反馈语音中具有所述授权指令，根据所述授权指令拦截所述反馈语音，并向所述客户端发送口令对话框；接收所述客户端通过所述口令对话框发送的口令语音信息，判断所述口令语音信息是否与预置的固定口令信息一致；若是，则将所述反馈语音发送至所述客户端；若否，则删除所述反馈信息并结束。

为进一步地确保客户端的操作者为其所有者，本步骤根据所述人机语音交互系统发送的授权指令，拦截所述反馈语音，并向所述客户端发送口令对话框；接收所述客户端通过所述口令对话框发送的口令语音信息，并判断所述口令语音信息是否与预置的固定口令信息一致的方式，再次确认客户端当前的线上语音信息发出者即为其所有者，进一步的保证了客户端和人机语音交互系统之间交流与交易的安全性。其中，所述固定口令信息是客户端预先录制或输入的密码文本信息或密码语音信息。

在一个优选的实施例中，所述固定口令信息包括密码文本信息和/或密码语音信息；

所述判断所述口令语音信息是否与预置的固定口令信息一致，包括：

S81：通过预置的语音识别组件将所述口令语音信息转为口令文本信息，判断所述口令文本信息和所述密码文本信息是否一致；若是，则判定所述口令语音信息与所述固定口令信息一致；若否，则判定所述口令语音信息与所述固定口令信息不一致。

S82：通过所述声纹识别模型判断所述口令语音信息与所述密码语音信息是否一致；若是，则判定所述口令语音信息与所述固定口令信息一致；若否，则判定所述口令语音信息与所述固定口令信息不一致。

本步骤中，所述声纹识别模型为混合高斯-通用背景模型，其用于识别由所述密码语音信息构建的密码声纹模型和所述口令语音信息之间的相似度，其中，混合高斯-通用背景模型(Gaussian Mixture Model-Universal Background Model，GMM-UBM)将声学特征投影到高维空间上，得到高维的均值超矢量。UBM采用大规模的说话人语料训练完成，因此可以进行说话人的共性特征的描述。然后，以UBM为初始模型，采用目标说话人数据进行基于最大后验概率(Maximum A Posterior,MAP)的自适应训练，得到目标说话人的混合高斯模型(GMM)，即：所述密码声纹模型。其中，所述共性特征包括：共鸣方式特征、嗓音纯度特征、平均音高特征和音域特征。

所述混合高斯-通用背景模型还用于通过计算似然值的方法，对所述口令语音信息进行评分，用以评价所述口令语音信息的声纹特征与所述共性特征之间的相似程度；若所述评分超过预置的相似阈值，则判定所述口令语音信息的发出者为所述客户端的所有者；若所述评分未超过预置的相似阈值，则判定所述口令语音信息的发出者不为所述客户端的所有者。

于所述图3中，所述S208通过以下标注展示：

S208-1：根据所述授权指令拦截所述反馈语音，并向所述客户端发送口令对话框；

S208-2：接收所述客户端通过所述口令对话框发送的口令语音信息，判断所述口令语音信息是否与预置的固定口令信息一致；

S208-3：若是，则将所述反馈语音发送至所述客户端；

S208-4：若否，则删除所述反馈信息并结束。

S209：根据环境状态为胁迫所生成报警信息构建伪反馈结果，将所述伪反馈结果发送至所述客户端。

为避免处于胁迫环境的客户端操作者因无法顺利进行交易，导致被胁迫者伤害的情况发生，本步骤通过根据环境状态为胁迫所生成报警信息构建伪反馈结果，并将其发送至所述客户端的方式，避免因胁迫者发现所有者未按照其要求进行操作，而对所有者施加伤害的情况发生。

在一个优选的实施例中，所述根据环境状态为胁迫所生成报警信息构建伪反馈结果，将所述伪反馈结果发送至所述客户端，包括：

S91：通过预置的语音识别组件将所述线上语音信息转为线上文字信息；

S92：通过预置的伪反馈策略根据所述线上文本信息中的关键字生成伪反馈结果；其中，所述关键字反映了所述客户端需要开展的业务操作；

本步骤中，所述伪反馈策略包括记录有所述关键字的关键表，以及与所述关键字关联的反馈策略，通过预置的关键正则表达式获取所述线上文本信息中的关键字，例如：购买产品，提供信息，提供账号密码等。

示例性地，所述伪反馈策略可包括：

若所述关键字为购买产品，其所对应的反馈策略可为，该产品已售罄，或交易已完成；

若所述关键字为提供信息，其所对应的反馈策略可为：查无此信息，或当前无法连接；

若所述关键字为提供账号密码，其所对应的反馈策略可为：该账户已注销，或当前无法连接等；

因此，通过构建伪反馈策略用以避免因胁迫者发现所有者已生成报警信息并进行报警，导致胁迫者对所有者进行伤害的情况发生。

S93：将所述伪反馈结果发送至所述客户端并生成报警信息。

本步骤中，将所述报警信息发送至报警指挥中心，并将所述报警信息发送至所述客户端所有者的紧急联系人，或所述客户端所有者预先注册的安全应用上(例如：安全邮箱，微信等)。

在一个优选的实施例中，所述将所述伪反馈结果发送至所述客户端之后，所述方法还包括：

将所述伪反馈结果上传至区块链中。

需要说明的是，基于伪反馈结果得到对应的摘要信息，具体来说，摘要信息由伪反馈结果进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证伪反馈结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

实施例三：

请参阅图4，本实施例的一种交互安全管理装置1，与人机语音交互系统3连接，包括：

线上语音模块10，用于获取客户端发送的线上语音信息；

身份判断模块12，用于拦截所述线上语音信息，通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；若是，则取消对所述线上语音信息的拦截；若否，则删除所述线上语音信息并生成报警信息；

信息交互模块15，用于将所述线上语音信息发送至人机语音交互系统，并接收所述人机语音交互系统根据所述线上语音信息生成的反馈语音；

语音反馈模块17，用于将所述反馈语音发送至所述客户端。

可选的，所述线上语音模块10还包括：

对话场景单元101，用于接收客户端发送的交互请求，根据所述交互请求向所述客户端发送交互对话框；

语音接收单元102，用于获取所述客户端在所述交互对话框中录入的线上语音信息。

可选的，所述交互安全管理装置1还包括：

线下语音模块11，用于调用线下监听线程，用以通过客户端获取所有者的线下语音信息；

可选的，所述线下语音模块11还包括：

许可确认模块111，用于接收所述客户端通过所述交互对话框发送的监听许可信息。

语音监听单元112，用于根据所述监听启动指令启动所述监听线程，用以监听所述客户端收集到的线下语音信息。

可选的，所述身份判断模块12还包括：

模型识别单元121，用于获取与所述客户端对应的声纹库，提取所述客户端预先在所述声纹库中注册的标准声纹模型；其中，所述标准声纹模型是根据客户端在注册时所发送的注册语音信息所生成；

线上相似单元122，用于通过所述声纹识别模型识别所述标准声纹模型和所述线上语音信息之间的线上相似度；

线上判断单元123，用于判断所述线上相似度是否超过预置的线上阈值，若是，则判定所述线上语音信息的发出者为所述客户端的所有者；若否，则判定所述线上语音信息的发出者不为所述客户端的所有者。

可选的，所述交互安全管理装置1还包括：

真人识别模块13，用于拦截所述线上语音信息，通过预置的机器学习模型识别所述线上语音信息的说话场景；若所述说话场景为真人交互，则取消对所述线上语音信息的拦截；若所述所述说话场景为非真人交互，则删除所述线上语音信息并生成报警信息。

可选的，所述真人识别模块13还包括：

注册标记单元131，用于获取所述注册语音信息，将所述注册语音信息的场景标签设为真人交互；

非真人创制单元132，用于对所述注册语音信息进行场景处理得到场景语音信息，并将所述场景语音信息的场景标签设为非真人交互；

模型训练单元133，用于以具有所述场景标签的所述注册语音信息和所述场景语音信息为训练样本，通过反向传播算法对深度神经网络进行训练，得到能够识别线上语音信息所处场景的所述机器学习模型。

可选的，所述交互安全管理装置1还包括：

胁迫判断模块14，用于拦截所述线上语音信息，根据所述线下语音信息判断客户端的环境状态；若所述环境状态为胁迫，则删除所述线上语音信息并生成报警信息；若所述环境状态为非胁迫，则取消对所述线上语音信息的拦截。

可选的，所述胁迫判断模块14还包括：

文本转换单元141，用于通过预置的语音识别组件对所述线下语音信息进行语音识别，获得线下文本信息；

胁迫判断单元142，用于识别所述线下文本信息中是否具有预置的胁迫字段；若是，则判定所述客户端的环境状态为胁迫；若否，则判定所述客户端的环境状态为非胁迫。

可选的，所述交互安全管理装置1还包括：

授权判断单元16，用于判断所述反馈语音中是否具有授权指令。

可选的，所述交互安全管理装置1还包括：

口令判断单元18，用于根据所述授权指令拦截所述反馈语音，并向所述客户端发送口令对话框；接收所述客户端通过所述口令对话框发送的口令语音信息，判断所述口令语音信息是否与预置的固定口令信息一致；若是，则将所述反馈语音发送至所述客户端；若否，则删除所述反馈信息并结束。

可选的，所述口令判断单元18还包括：

口令文本比对单元181，用于通过预置的语音识别组件将所述口令语音信息转为口令文本信息，判断所述口令文本信息和所述密码文本信息是否一致；若是，则判定所述口令语音信息与所述固定口令信息一致；若否，则判定所述口令语音信息与所述固定口令信息不一致。

口令语音比对单元182，用于通过所述声纹识别模型判断所述口令语音信息与所述密码语音信息是否一致；若是，则判定所述口令语音信息与所述固定口令信息一致；若否，则判定所述口令语音信息与所述固定口令信息不一致。

可选的，所述交互安全管理装置1还包括：

伪反馈模块19，用于根据环境状态为胁迫所生成报警信息构建伪反馈结果，将所述伪反馈结果发送至所述客户端。

可选的，所述伪反馈模块19还包括：

线上文字转换单元191，用于通过预置的语音识别组件将所述线上语音信息转为线上文字信息；

伪反馈构建单元192，用于通过预置的伪反馈策略根据所述线上文本信息中的关键字生成伪反馈结果；其中，所述关键字反映了所述客户端需要开展的业务操作；

伪反馈输出单元193，用于将所述伪反馈结果发送至所述客户端并生成报警信息。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本技术方案应用于人工智能的生物识别领域，通过声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者；其中，采用声纹图谱作为所述线上语音信息，以及所述声纹识别模型中用于与所述线上语音信息比对的标准声纹模型，用以实现对线上语音信息和所述标准声纹模型之间的相似度进行声纹识别。

实施例四：

为实现上述目的，本发明还提供一种计算机设备5，实施例三的交互安全管理装置的组成部分可分散于不同的计算机设备中，计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器51、处理器52，如图5所示。需要指出的是，图5仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器51可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器51也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例三的交互安全管理装置的程序代码等。此外，存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器52在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中，处理器52用于运行存储器51中存储的程序代码或者处理数据，例如运行交互安全管理装置，以实现实施例一和实施例二的交互安全管理方法。

实施例五：

为实现上述目的，本发明还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储实现所述交互安全管理方法的计算机程序，被处理器52执行时实现实施例一和实施例二的交互安全管理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种交互安全管理方法，与人机语音交互系统连接，其特征在于，包括：

获取客户端发送的线上语音信息；

将所述反馈语音发送至所述客户端。

2.根据权利要求1所述的交互安全管理方法，其特征在于，所述获取客户端发送的线上语音信息之后，所述方法还包括：

3.根据权利要求1所述的交互安全管理方法，其特征在于，所述获取客户端发送的线上语音信息之后，所述方法还包括：

4.根据权利要求1所述的交互安全管理方法，其特征在于，所述通过预置的声纹识别模型判断所述线上语音信息的发出者是否为所述客户端的所有者，包括：

5.根据权利要求2所述的交互安全管理方法，其特征在于，所述根据所述线下语音信息判断客户端的环境状态，包括：

6.根据权利要求1所述的交互安全管理方法，其特征在于，所述将所述反馈语音发送至所述客户端之前，所述方法还包括：

判断所述反馈语音中是否具有授权指令；

7.根据权利要求2所述的交互安全管理方法，其特征在于，所述若所述环境状态为胁迫，则删除所述线上语音信息并生成报警信息之后，所述方法还包括：

将所述伪反馈结果上传至区块链中。

8.一种交互安全管理装置，与人机语音交互系统连接，其特征在于，包括：

线上语音模块，用于获取客户端发送的线上语音信息；

语音反馈模块，用于将所述反馈语音发送至所述客户端。

9.一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机设备的处理器执行所述计算机程序时实现权利要求1至7任一项所述交互安全管理方法的步骤。

10.一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，其特征在于，所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7任一项所述交互安全管理方法的步骤。