CN113158662A

CN113158662A - 音频数据的实时监测方法及装置

Info

Publication number: CN113158662A
Application number: CN202110458569.2A
Authority: CN
Inventors: 江文乐; 沈超建; 魏薇郦; 刘金山
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-23

Abstract

本发明可用于人工智能技术领域，本发明提供了一种音频数据的实时监测方法及装置，音频数据的实时监测方法包括：实时接收用户的音频数据；根据预构建的深度学习模型以及所述音频数据生成文字流数据；对所述文字流数据进行自然语言分析，以生成所述音频数据的监测结果。本发明克服了现有银行对客服务话术质检的不足，融合边缘计算、实时语音转文字、自然语言处理等方式，提供一种耗时毫秒级、能够实时反馈并管控的客服违禁话术检测的方法。

Description

音频数据的实时监测方法及装置

技术领域

本发明属于人工智能技术领域，具体涉及一种音频数据的实时监测方法及装置。

背景技术

在银行业客服服务场景中，如远程银行中心外呼、个人金融产品及理财产品营销等场景中，需要保证客服话术的规范性和专业性，才能保证银行对客服务的质量和效率。因此，对于客服开展业务时的话术内容的质检和管控尤为重要。目前大多数银行采用的主要是人工质检抽检和人工智能事后质检的方法。

对于人工质检而言，现有技术中通常采用人工听取客服录音的方式来进行质检评定，这需要银行配备相应数量的质检员，质检员则需要按照给定业务场景的话术模板来抽检评判客服对客服务的录音质量、违禁话术。对于人工智能事后质检而言，客服结束服务后，服务录音文件将由本地上传至数据中心，数据中心的质检服务器对一个个录音文件进行ASR语音转文字，再根据质检模型对转化文本与话术模板、敏感词库进行比对分析，一般是T+1天后才能对前一天的录音结果生成报表。

发明内容

本发明属于人工智能技术领域，其所提供的音频数据的实时监测方法及装置，克服了现有技术中音频数据监测的不足，并融合边缘计算、实时语音转文字、自然语言处理等方法，一方面提高了数据传输效率。通过边缘计算与缓存装置，在本地进行实时语音流识别分析并传导检测结果，无需传输音频文件到数据中心进行分析，减少传输带宽、加速话术检测效率。另一方面，实现了对音频服务的实时监管，能够做到检测全覆盖、违禁话术检测结果毫秒级通知，实时反馈给客服或者现场监管人员，便于即时处理问题。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种音频数据的实时监测方法，包括：

实时接收用户的音频数据；

根据预构建的深度学习模型以及所述音频数据生成文字流数据；

对所述文字流数据进行自然语言分析，以生成所述音频数据的监测结果。

一实施例中，生成所述深度学习模型的方法包括以下步骤：

对所述音频数据进行数据标注，以生成标注数据；

对所述标注数据进行样本切分，以生成切分数据；

基于设计卷积神经网络构建所述深度学习模型的初始模型；

根据所述切分数据对所述初始模型进行训练，以生成所述深度学习模型。

一实施例中，所述根据预构建的深度学习模型以及所述音频数据生成文字流数据，包括：

基于边缘计算方法，根据所述深度学习模型生成所述文字流数据。

一实施例中，音频数据的实时监测方法还包括：

将所述监测结果以json字符串的形式进行封装；

根据封装后的json字符串生成所述音频数据对应的监测文本；所述监测文本包括：客服ID、场所ID、对客服务唯一标识、句子开始及结束时间、词识别内容、违禁话术识别结果、违禁话术出现频率、结果类型标识以及段落ID。

第二方面，本发明提供一种音频数据的实时监测装置，包括：

数据接收模块，用于实时接收用户的音频数据；

文字流生成模块，用于根据预构建的深度学习模型以及所述音频数据生成文字流数据；

监测结果生成模块，用于对所述文字流数据进行自然语言分析，以生成所述音频数据的监测结果。

一实施例中，音频数据的实时监测装置还包括：学习模型生成模块，用于生成所述深度学习模型，所述学习模型生成模块包括：

标注数据生成单元，用于对所述音频数据进行数据标注，以生成标注数据；

切分数据生成单元，用于对所述标注数据进行样本切分，以生成切分数据；

初始模型构建单元，用于基于设计卷积神经网络构建所述深度学习模型的初始模型；

学习模型生成单元，用于根据所述切分数据对所述初始模型进行训练，以生成所述深度学习模型。

一实施例中，所述文字流生成模块具体用于基于边缘计算方法，根据所述深度学习模型生成所述文字流数据。

一实施例中，音频数据的实时监测装置还包括：

结果封装模块，用于将所述监测结果以json字符串的形式进行封装；

检测文本生成模块，用于根据封装后的json字符串生成所述音频数据对应的监测文本；所述监测文本包括：客服ID、场所ID、对客服务唯一标识、句子开始及结束时间、词识别内容、违禁话术识别结果、违禁话术出现频率、结果类型标识以及段落ID。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现音频数据的实时监测方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现音频数据的实时监测方法的步骤。

从上述描述可知，本发明实施例提供的音频数据的实时监测方法及装置，首先实时接收用户的音频数据；接着，根据预构建的深度学习模型以及音频数据生成文字流数据；最后对文字流数据进行自然语言分析，以生成音频数据的监测结果。本发明克服了现有银行对客服务话术质检的不足，融合边缘计算、实时语音转文字、自然语言处理等方式，提供了一种银行对客服务违禁话术实时检测的系统及方法。具体地，本发明具有以下有益效果：

1.提高了数据传输效率。通过银行对客服务场所设置的边缘计算与缓存装置，在本地进行实时语音流识别分析并传导检测结果，无需传输音频文件到数据中心进行分析，减少传输带宽、加速话术检测效率。

2.实现了对服务的实时监管。相较于现阶段银行的人工抽检与T+1日后才能查看检测报表的人工智能事后质检，该方案能够做到检测全覆盖、违禁话术检测结果毫秒级通知，实时反馈给客服或者现场监管人员，便于即时处理问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例中音频数据的实时监测方法流程示意图一；

图2为本发明的实施例中音频数据的实时监测方法流程示意图二；

图3为本发明的实施例中音频数据的实时监测方法中步骤400的流程示意图；

图4为本发明的实施例中音频数据的实时监测方法中步骤200的流程示意图；

图5为本发明的实施例中音频数据的实时监测方法流程示意图三；

图6为本发明的具体应用实例中音频数据的实时监测方法的场景实施示意图；

图7为本发明的具体应用实例中音频数据的实时监测系统的方块图；

图8为本发明的具体应用实例中音频采集装置的方块图；

图9为本发明的具体应用实例中边缘计算与缓存装置的方块图；

图10为本发明的具体应用实例中客服终端设备的方块图；

图11为本发明的具体应用实例中监管人员终端设备的方块图；

图12为本发明的具体应用实例中数据中心AI质检模型与服务配置装置的方块图；

图13为本发明的具体应用实例中数据中心数据存储装置的方块图；

图14为本发明的具体应用实例中音频数据的实时监测方法的流程示意图；

图15为本发明的具体应用实例中音频数据的实时监测装置的结构示意图一；

图16为本发明的具体应用实例中音频数据的实时监测装置的结构示意图二；

图17为本发明的具体应用实例中学习模型生成模块40的结构示意图；

图18为本发明的具体应用实例中音频数据的实时监测装置的结构示意图三；

图19为本发明的实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的实施例提供一种音频数据的实时监测方法的具体实施方式，参见图1，该方法具体包括如下内容：

步骤100：实时接收用户的音频数据。

具体地，基于WebSocket协议，与音频采集装置数据传输装置建立长连接，以接收实时音频流数据。WebSocket是一种在单个TCP连接上进行全双工通信的协议。WebSocket通信协议于2011年被IETF定为标准RFC 6455，并由RFC7936补充规范。WebSocket API也被W3C定为标准。WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就直接可以创建持久性的连接，并进行双向数据传输。具体地，WebSocket协议具有以下有意效果：

较少的控制开销。在连接创建后，服务器和客户端之间交换数据时，用于协议控制的数据包头部相对较小。在不包含扩展的情况下，对于服务器到客户端的内容，此头部大小只有2至10字节(和数据包长度有关)；对于客户端到服务器的内容，此头部还需要加上额外的4字节的掩码。相对于HTTP请求每次都要携带完整的头部，此项开销显著减少了。

更强的实时性。由于协议是全双工的，所以服务器可以随时主动给客户端下发数据。相对于HTTP请求需要等待客户端发起请求服务端才能响应，延迟明显更少；即使是和Comet等类似的长轮询比较，其也能在短时间内更多次地传递数据。

保持连接状态。与HTTP不同的是，Websocket需要先创建连接，这就使得其成为一种有状态的协议，之后通信时可以省略部分状态信息。而HTTP请求可能需要在每个请求都携带状态信息(如身份认证等)。

更好的二进制支持。Websocket定义了二进制帧，相对HTTP，可以更轻松地处理二进制内容。

可以支持扩展。Websocket定义了扩展，用户可以扩展协议、实现部分自定义的子协议。如部分浏览器支持压缩等。

更好的压缩效果。相对于HTTP压缩，Websocket在适当的扩展支持下，可以沿用之前内容的上下文，在传递类似的数据时，可以显著地提高压缩率。

步骤200：根据预构建的深度学习模型以及所述音频数据生成文字流数据。

具体地，将音频数据进行数据标注、样本均衡、样本切分之后，然后将其输入至设计卷积神经网络中，以生成文字流数据。

步骤300：对所述文字流数据进行自然语言分析，以生成所述音频数据的监测结果。

在步骤300中，由深度学习模型结合话术模板库对语音文本进行自然语言分析以获得识别结果，并根据所述识别结果向客服推送违禁话术检测信息。如果客服没有及时处理实时检测反馈结果或出现较多话术违禁词，现场监管人员也可以在其配备的终端设备上得到消息通知，从而可以现场核实异常情况并主动中止服务进程。由于检测数据类型为实时语音流数据、数据传输距离短，客服及现场监管人员均可以得到实时检测反馈。服务结束后，完整检测结果由边缘计算服务器上传至数据中心，而完整录音文件则由客服终端设备本地后台上传至数据中心，待日后抽检复查。

从上述描述可知，本发明实施例提供的音频数据的实时监测方法，首先实时接收用户的音频数据；接着，根据预构建的深度学习模型以及音频数据生成文字流数据；最后对文字流数据进行自然语言分析，以生成音频数据的监测结果。本发明克服了现有银行对客服务话术质检的不足，融合边缘计算、实时语音转文字、自然语言处理等方式，提供一种耗时毫秒级、能够实时反馈并管控的客服违禁话术检测的系统与方法。

一实施例中，参见图2，音频数据的实时监测方法还包括：

步骤400：生成所述深度学习模型，参见图3，步骤400进一步包括：

步骤401：对所述音频数据进行数据标注，以生成标注数据；

数据标注是对未经处理的初级数据,包括语音、图片、文本、视频等进行加工处理,并转换为机器可识别信息的过程。原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用。简单来说，数据标注就是数据标注员借助标注工具，对图像、文本、语音、视频等数据进行拉框、描点、转写等操作，以产出满足AI机器学习标注数据集的过程。

步骤402：对所述标注数据进行样本切分，以生成切分数据；

可以理解的是，样本切分是利用支持集中的K个训练图像对来“学习”一个模型，使得该模型能对训练图像对中出现的类别的新样本能够实现分割。另一方面，在样本切分的过程中，要保证样本均衡，学习到弱势类的特征，测试过程要反应真实的数据集分布。

步骤403：基于设计卷积神经网络构建所述深度学习模型的初始模型；

步骤404：根据所述切分数据对所述初始模型进行训练，以生成所述深度学习模型。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。主要涉及三类方法：(1)基于卷积运算的神经网络系统，即卷积神经网络(CNN)。(2)基于多层神经元的自编码神经网络，包括自编码(Auto encoder)以及近年来受到广泛关注的稀疏编码两类(Sparse Coding)。(3)以多层自编码神经网络的方式进行预训练，进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。

通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示后，用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”(feature learning)或“表示学习”(representation learning)。

具体地，首先定义算法公式，也就是神经网络的前向算法。一般使用现成的网络，如inceptionV4，mobilenet等。接着，定义loss，选择优化器，以使loss最小，对数据进行迭代训练，使loss到达最小。在测试集或者验证集上对准确率进行评估，在训练过程中，以finetune网络为例，首先训练fc层，迭代几个epoch后保存模型；然后基于得到的模型，训练整个网络，一般迭代40-60个epoch可以得到稳定的结果。total_loss会一直下降的，过程中可以评测下模型在测试集上的表现。

一实施例中，参见图4，步骤200具体包括：

步骤201：基于边缘计算方法，根据所述深度学习模型生成所述文字流数据。

边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。其应用程序在边缘侧发起，产生更快的网络服务响应，满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间，或处于物理实体的顶端。而云端计算，仍然可以访问边缘计算的历史数据。具体地，将实时语音流数据传输到现场部署的边缘计算服务器，在边缘计算服务器中，将所述实时语音流数据进行文本转录处理以获得语音文本。

另外，若果不依赖对客服务场所边缘计算与缓存装置，直接在客服终端(如PC机)设置实时语音转写模块、自然语言处理模块和检测结果生成模块，会让整个话术检测流程的数据传输距离和整体耗时进一步降低，但对客服终端硬件诸如CPU、内存等要求特别高，成本高昂且不利于全行推广，也不利于后续硬件设备以及模型的维护。

一实施例中，参见图5，音频数据的实时监测方法还包括：

步骤500：将所述监测结果以json字符串的形式进行封装；

步骤600：根据封装后的json字符串生成所述音频数据对应的监测文本；

所述监测文本包括：客服ID、场所ID、对客服务唯一标识、句子开始及结束时间、词识别内容、违禁话术识别结果、违禁话术出现频率、结果类型标识以及段落ID。

为进一步地说明本方案，本发明还以银行客服为例，提供音频数据的实时监测方法的具体应用实例。

在银行客服的服务过程中，需要监控对话过程中的违禁用语，以更好地服务于客户，现有技术中对此一般采用以下两种方法：

质检人工质检：以抽检为主，抽检比例可能仅达到1％—5％，质检员对于3分钟时长的录音进行质检可能需要大于3分钟的时间，有些录音需要重复听几遍，效率极低。该方式不仅人力需求成本高，而且对于所述通话内容的质检结果并不能实时地反馈给客服，只能是作为客服后续改进服务质量的参考，也没办法做到实时的管控。

人工智能事后质检：利用ASR以及NLP技术，现有人工智能质检技术确实可以做到不需要人工干预即可完成客服录音甚至录像的质检，检查覆盖率也能达到100％。但是，由于这种技术方案依赖的数据是完整的录音或录像文件，且质检模型是放在数据中心服务器上，由于银行内部不同应用交互、数据传输以及质检分析的累加耗时较长，一般是T+1天后才能对前一天的录音结果生成报表，难以达到实时反馈以及实时管控的效果，只能作为事后改进服务质量的依据。

参见图6，利用客服对客服务场所的录音设备，实时采集语音流数据，在客服对客服务过程中，将实时语音流数据传输到现场部署的边缘计算服务器，在边缘计算服务器中，将所述实时语音流数据进行文本转录处理以获得语音文本，再由深度学习模型结合话术模板库对语音文本进行自然语言分析以获得识别结果，并根据所述识别结果向客服推送违禁话术检测信息。如果客服没有及时处理实时检测反馈结果或出现较多话术违禁词，现场监管人员也可以在其配备的终端设备上得到消息通知，从而可以现场核实异常情况并主动中止服务进程。由于检测数据类型为实时语音流数据、数据传输距离短，客服及现场监管人员均可以得到实时检测反馈。服务结束后，完整检测结果由边缘计算服务器上传至数据中心，而完整录音文件则由客服终端设备本地后台上传至数据中心，待日后抽检复查。

当银行业监管政策出现变动，银行客服话术模板库需要更新，银行先在数据中心的服务配置与模型训练中心完成全量话术模板库及算法参数、网络设计的更新，并对质检模型进行训练。待数据中心AI质检模型更新完备后，向行内各服务场所部署的边缘计算服务器推送升级策略，完成各个边缘计算服务器的质检模型与话术模板库的更新及维护。

基于上述情景，本发明具体应用实例还提供一种音频数据的实时监测系统，参见图7，该系统包括：音频采集装置1；边缘计算与缓存装置2；客服终端设备3；监管人员终端设备4；数据中心AI质检模型与服务配置装置5；数据存储装置6。

图8为音频采集装置1的方块图，每一台客服终端设备均需要配备一台该装置。在客服对客服务过程中，这些装置负责采集实时语音流数据，这些实时语音流数据既会传输到边缘计算服务器也会缓存到客服终端设备本地。

音频采集模块101，用于采集实时语音，由客服控制。

数据传输模块102，用于将实时语音流数据传输到边缘计算服务器和客服终端设备。

图9所示为边缘计算与缓存装置的方块图，在银行对客服务场所如远程银行中心、银行理财产品销售网点等区域，根据实际业务量和监管需求，每个对客服务场所至少配置一台该装置。在客服对客服务过程中，这些装置负责接收实时音频流数据、实时语音转写(Real-time ASR)、自然语言处理(NLP)、生成报表、传发消息文本等。

实时音频流接收模块201，基于WebSocket协议，与音频采集装置数据传输模块102建立长连接，用于接收实时音频流数据。

实时音频流缓存库202，用于缓存一段时间内的实时音频流数据，音频数据存储格式为pcm。

实时语音转写模块203，用于识别接收的实时音频流数据，并返回带有时间戳的文字流数据。

自然语言处理模块204，用于对实时语音转写模块203识别到的文字流数据进行自然语言分析以获得识别结果。

检测结果生成模块205，用于将自然语言处理模块204所生成的识别结果以json字符串的形式进行封装，用于生成对完整服务话术检测报表。生成文本包括但不限于客服ID、场所ID、对客服务唯一标识、句子开始及结束时间、词识别内容、违禁话术识别结果、违禁话术出现频率、结果类型标识、段落ID等。

消息转发模块206，用于将检测结果生成模块205输出的消息进行转发处理，检测结果消息会实时发送到客服终端设备；若检测结果消息中的违禁话术出现频率到达设定的阈值，该消息还会发送至现场监管人员终端设备；根据对客服务唯一标识，将完整服务话术检测报表上传至数据中心数据存储装置。

音视频缓存数据删除模块207，用于将实时音频流缓存库202中超过一定时间范围内的音频数据流缓存删除。

话术模板库208，用于自然语言处理模块204中文本相似度分析、词法分析文本纠错等。

模板库同步模块209，用于接收数据中心AI质检模型与服务配置装置的话术模板库升级推送，来更新本地话术模板库208。

模型同步模块210，用于接收数据中心AI质检模型与服务配置装置的模型升级推送，来更新本地实时语音转写模块203和自然语言处理模块204。

图10所示为客服终端设备的结构示意图，在银行对客服务场所，当服务内容有监管需求时，用于客服开展对客服务，每个客服需要至少配备一台该设备。该设备负责接收检测结果消息、查看实时服务话术质量、查看并管理服务进程、接收、存储并传输音频文件等。

消息接收模块301，用于接收边缘计算与缓存装置消息转发模块206检测结果消息。

音频接收模块302，用于接收音频采集装置数据传输模块102传输的音频数据。

总控模块303，用于客服管理音频采集、对客服务进程、查看对客服务话术监测报表、处理话术违禁结果等。

音频文件存储模块304，用于存储音频接收模块302接收的音频文件。

音频数据传输模块305，用于传输音频文件存储模块304存储的音频文件，音频文件会上传至数据中心数据湖。

音频缓存删除模306块，用于删除音频文件存储模块304中超过指定时间范围内的历史音频文件。

图11所示为监管人员终端设备的结构示意图，在银行对客服务场所，根据实际业务和监管需求，现场监管人员需要至少配备一台该设备。该设备负责接收异常检测结果消息、产看现场所有对客服务进程及服务话术检测报表、管理所有客服对客服务进程等。

消息接收模块401，用于接收边缘计算与缓存装置消息转发模块206检测结果消息。

总控模块402，用于让现场监管人员产看现场所有对客服务进程及服务话术检测报表、管理所有客服对客服务进程。

图12所示为数据中心AI质检模型与服务配置装置的方块图，在银行数据中心设置。该装置负责全行AI话术质检模型的参数配置、训练、更新以及全量话术模板库的更新以及维护。

模型训练模块501，用于训练实时语音转文本和自然语言处理的深度学习模型等。

配置模块502，用于数据标注、样本均衡、样本切分、设计卷积神经网络和配置算法参数等。

全量模型503，用于存储备份经过模型训练模块501训练更新后的全量深度学习模型。

全量话术模板库504，用于存储备份最新的全行对客服务话术模板库。

模型更新策略下发模块505，用于向全行对客服务场所边缘计算与缓存装置模型同步模块210推送模型更新策略。

话术模板库更新策略下发模块506，用于向全行对客服务场所边缘计算与缓存装置模板库同步模块209推送模板库更新策略。

图13所示为数据中心数据存储装置，在银行数据中心设置。改装置负责存储全行全量对客服务话术检测报表和对客服务录音、录像等非结构化数据。

全量报表数据库601，用于存储全行全量边缘计算与缓存装置消息转发模块206传输的对客服务话术检测报表。

数据湖602，用于存储全行全量客服终端设备音频数据传输模块305传输的音频数据。

参见图14，基于上述的音频数据的实时监测系统，本发明具体应用实例所提供的音频数据的实时监测方法包括：

S1：客服在客服终端设备3总控模块303开启对客服务流程。

S2：音频采集装置1音频采集模块101采集服务实时音频流数据，数据传输模块102传输实时音频流数据。

S3：边缘计算与缓存装置2的实时音频流接收模块201接收实时音频流数据并缓存到缓存库202。

S4：边缘计算与缓存装置2的实时语音转写模块203识别实时音频流数据并转写为文本。

S5：边缘计算与缓存装置2的自然语言处理模块204对来自模块203的文字流数据进行自然语言分析以获得识别结果。

S6：边缘计算与缓存装置2的检测结果生成模块205封装服务话术检测结果消息。

S7：边缘计算与缓存装置2的消息转发模块206根据对客服务唯一标识，将205生成的完整服务话术检测报表上传至数据存储装置6。

S8：判断是否存在违禁话术。如果存在，转至步骤S9。如果不存在，转至步骤S13。

S9：判断违禁话术频率超过设定阈值。如果未超过，跳转至步骤S13。

S10：边缘计算与缓存装置2的消息转发模块206将异常检测结果消息发送至客服终端设备3和监管人员终端设备4。

S11：客服使用客服终端设备3总控模块303或者监管人员使用客服使用监管人员终端设备4总控模块402中止该服务流程。

S12：客服终端设备3音频数据传输模块305上传音频文件至数据存储装置6。

S13：边缘计算与缓存装置2的消息转发模块206将话术检测结果消息发送至客服终端设备3。

S14：客服使用客服终端设备3总控模块303处理话术违禁通知、结束服务流程，并跳转至步骤S12。

从上述描述可知，本发明实施例提供的音频数据的实时监测方法，首先实时接收用户的音频数据；接着，根据预构建的深度学习模型以及音频数据生成文字流数据；最后对文字流数据进行自然语言分析，以生成音频数据的监测结果。本发明克服了现有银行对客服务话术质检的不足，融合边缘计算、实时语音转文字、自然语言处理等方式，提供了一种银行对客服务违禁话术实时检测的系统及方法。具体地，本发明具有以下有益效果：

基于同一发明构思，本申请实施例还提供了一种音频数据的实时监测装置，可以用于实现上述实施例所描述的方法，如下面的实施例。由于音频数据的实时监测装置解决问题的原理与音频数据的实时监测方法相似，因此音频数据的实时监测装置的实施可以参见音频数据的实时监测方法实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本发明的实施例提供一种能够实现音频数据的实时监测方法的音频数据的实时监测装置的具体实施方式，参见图15，音频数据的实时监测装置具体包括如下内容：

数据接收模块10，用于实时接收用户的音频数据；

文字流生成模块20，用于根据预构建的深度学习模型以及所述音频数据生成文字流数据；

监测结果生成模块30，用于对所述文字流数据进行自然语言分析，以生成所述音频数据的监测结果。

一实施例中，参见图16，音频数据的实时监测装置还包括：学习模型生成模块40，用于生成所述深度学习模型，参见图17，所述学习模型生成模块40包括：

标注数据生成单元401，用于对所述音频数据进行数据标注，以生成标注数据；

切分数据生成单元402，用于对所述标注数据进行样本切分，以生成切分数据；

初始模型构建单元403，用于基于设计卷积神经网络构建所述深度学习模型的初始模型；

学习模型生成单元404，用于根据所述切分数据对所述初始模型进行训练，以生成所述深度学习模型。

一实施例中，参见图18，音频数据的实时监测装置还包括：

结果封装模块50，用于将所述监测结果以json字符串的形式进行封装；

检测文本生成模块60，用于根据封装后的json字符串生成所述音频数据对应的监测文本；所述监测文本包括：客服ID、场所ID、对客服务唯一标识、句子开始及结束时间、词识别内容、违禁话术识别结果、违禁话术出现频率、结果类型标识以及段落ID。

从上述描述可知，本发明实施例提供的音频数据的实时监测装置，首先实时接收用户的音频数据；接着，根据预构建的深度学习模型以及音频数据生成文字流数据；最后对文字流数据进行自然语言分析，以生成音频数据的监测结果。本发明克服了现有银行对客服务话术质检的不足，融合边缘计算、实时语音转文字、自然语言处理等方式，提供了一种银行对客服务违禁话术实时检测的系统及方法。具体地，本发明具有以下有益效果：

下面参考图19，其示出了适于用来实现本申请实施例的电子设备600的结构示意图。

如图19所示，电子设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡，调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装如存储部分608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述基于数据机房场景下的人员距离确定方法的步骤，该步骤包括：

步骤100：实时接收用户的音频数据；

步骤200：根据预构建的深度学习模型以及所述音频数据生成文字流数据；

在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上该仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种音频数据的实时监测方法，其特征在于，包括：

实时接收用户的音频数据；

2.根据权利要求1所述的音频数据的实时监测方法，其特征在于，生成所述深度学习模型的方法包括以下步骤：

对所述音频数据进行数据标注，以生成标注数据；

对所述标注数据进行样本切分，以生成切分数据；

基于设计卷积神经网络构建所述深度学习模型的初始模型；

3.根据权利要求1所述的音频数据的实时监测方法，其特征在于，所述根据预构建的深度学习模型以及所述音频数据生成文字流数据，包括：

4.根据权利要求1所述的音频数据的实时监测方法，其特征在于，还包括：

将所述监测结果以json字符串的形式进行封装；

5.一种音频数据的实时监测装置，其特征在于，包括：

数据接收模块，用于实时接收用户的音频数据；

6.根据权利要求5所述的音频数据的实时监测装置，其特征在于，还包括：学习模型生成模块，用于生成所述深度学习模型，所述学习模型生成模块包括：

7.根据权利要求5所述的音频数据的实时监测装置，其特征在于，所述文字流生成模块具体用于基于边缘计算方法，根据所述深度学习模型生成所述文字流数据。

8.根据权利要求5所述的音频数据的实时监测装置，其特征在于，还包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述音频数据的实时监测方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4任一项所述音频数据的实时监测方法的步骤。