CN113037610A

CN113037610A - 语音数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113037610A
Application number: CN202110209612.1A
Authority: CN
Inventors: 李斌; 高帅; 罗程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-25
Anticipated expiration: 2041-02-25
Also published as: CN113037610B

Abstract

本申请涉及一种语音数据处理方法、装置、计算机设备和存储介质。所述方法包括：通过即时通讯平台触发网络通话；若网络通话的参与者包括存档方，则调用存档方的声音采集设备对存档方通话内容进行采集得到第一语音数据；获取网络通话的非存档方的第二语音数据；将第一语音数据和第二语音数据录制在不同的声道，得到录音文件。该方法在根据网络通话的参与者包括存档方时，自动触发录音，能够减少人工操作，使得网络通话录音操作便捷。将存档方和非档存方的语音数据录制在不同的声道，当有需求对存档方的服务质量进行评估时，可提取录音文件中存档方的声音数据，无需人工从整段话中定位到服务方的语音内容，能够降低服务质量监控的成本。

Description

语音数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音技术领域，特别是涉及一种语音数据处理方法、装置、计算机设备和存储介质。

背景技术

由于网络电话的资费相较于传统电话便宜，加上互联网技术的发展的带动作用，使得网络电话的应用范围越来越广。

网络电话应用最多的一个场景是服务方通过网络电话为用户提供服务，包括客户服务、售后服务、售前服务以及销售服务等。通常为了对服务质量进行把控，在服务方提供服务时，会对通话内容进行录音。然而传统的录音方式同时录下了服务方和客户方，即对话双方的语音。当需要对服务质量进行监控时，需要从整段对话中定位到服务方的语音内容。

即传统的服务质量监控，只能采用人工听录音的方式，这就需要占用在量人力资源，使得服务质量监控的成本高，操作不便。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低成本的语音数据处理方法、装置、计算机设备和存储介质。

一种语音数据处理方法，所述方法包括：

通过即时通讯平台触发网络通话；

若所述网络通话的参与者包括存档方，则调用所述存档方的声音采集设备对存档方通话内容进行采集得到第一语音数据；

获取网络通话的非存档方的第二语音数据；

将所述第一语音数据和所述第二语音数据录制在不同的声道，得到录音文件。

一种语音数据处理装置，所述装置包括：

通话模块，用于通过即时通讯平台触发网络通话；

录音模块，用于若所述网络通话的参与者包括存档方，则调用存档方的声音采集设备对存档方通话内容进行采集得到第一语音数据；

声音获取模块，用于获取网络通话的非存档方的第二语音数；

录制模块，用于将所述第一语音数据和所述第二语音数据录制在不同的声道，得到录音文件。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

通过即时通讯平台触发网络通话；

获取网络通话的非存档方的第二语音数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

通过即时通讯平台触发网络通话；

获取网络通话的非存档方的第二语音数据；

上述语音数据处理方法、装置、计算机设备和存储介质，在网络通话的参与者包括存档方时，自动触发录音，能够减少人工操作，使得网络通话录音操作便捷。同时，将存档方和非档存方的语音数据录制在不同的声道，当有需求对存档方的服务质量进行评估时，可提取录音文件中存档方的声音数据，无需人工从整段话中定位到服务方的语音内容，能够降低服务质量监控的成本。

附图说明

图1为一个实施例中语音数据处理方法的应用环境图；

图2为一个实施例中语音数据处理方法的流程示意图；

图3为另一个实施例中语音数据处理方法的流程示意图；

图4为一个实施例中语音数据处理装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音数据处理方法，可以应用于如图1所示的应用环境中。其中，终端101安装有即时通讯应用，能够进行网络电话，终端101与电话终端102通过VOIP通话。其中，终端101连接有耳麦设备，存档方通过耳麦设备能够接听对方的语音，同时采集存档方的语音。具体地，终端101通过即时通讯平台触发网络通话；若所述网络通话的参与者包括存档方，则调用所述存档方的声音采集设备对存档方通话内容进行采集得到第一语音数据；获取网络通话的非存档方的第二语音数据；将所述第一语音数据和所述第二语音数据录制在不同的声道，得到录音文件。

其中，终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一个实施例中，如图2所示，提供了一种语音数据处理方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，通过即时通讯平台触发网络通话。

其中，即时通讯平台可以是一个企业级的管理平台，提供接口可实现企业接入客户的即时通讯账户，以实现企业对用户的管理。通过即时通讯平台，企业向用户提供服务，则企业员工作为服务方。企业可向用户提供售前咨询服务，售后服务。即时通讯平台关联用户的电话联系方式和即时通讯账户，通过触发网络通话，可实现平台的企业用户与客户的网络通话。

具体地，可以是企业服务方通过即时通讯平台拨打客户电话，触发网络通话。还可以是企业服务方通过即时通讯平台接听客户拨打的服务电话。

步骤204，若所述网络通话的参与者包括存档方，则调用所述存档方的声音采集设备对存档方通话内容进行采集得到第一语音数据。

即时通讯平台可实现企业方和客户的即时通讯和网络通话，即时通讯平台也可实现非企业用户之间的即时通讯和网络通话，即普通个人用户之间也能够使用即时通讯平台进行即时通讯和网络通话。

存档方是指有需求且有权限对网络通话内容进行存档的一方，通常存档方是提供服务的服务方，即企业员工。非存档方相对于存档方而言，通常为接收服务的一方，通常为企业客户。同时，还可根据需求，将普通客服人员设置为普通服务人员，将特定的客服人员(如重要岗位的客服人员)设置为存档方，如将涉及的核心服务部门的客服人员设置为存档方。例如，金融行业客服将具有账户变更处理权限的客服人员设置为存档方。其中，存档方设置好后，具有存档方标识。

具体地，网络通话内容的声音录制在存档方终端实施。如图3所示，存档方与一个或多个非存档方进行网络通话。即一个客服可以与一个或多个客户进行网络通话。若此次通话有存档员工，则打开录音标志，否则此次通话不进行录音。如，普通岗位的客服与客户进行网络通话时，由于普通岗位的客服人员不是存档员工，则不进行录音。又如，特殊岗位(如具有账户权限变更的岗位，审核岗位等)与客户进行网络通话时，由于这些岗位的客服人员是存档员工，则进行录音。

具体地，若所述网络通话的参与者包括提供服务的存档方，则开启录音标志，根据所述录音标志播报通话参与者开始录音。即，如果录音标志打开，则根据录音标志播报通话参与者开始录音。如录音标志打开，则插入一个语音播报至非存档方“为保障您的权益，本次通话将被录音”，从而通知客户录音的存在，以提示客户录音的事实，起到了录音告知的义务。

打开录音标志后，存档方终端对录音存档操作进行初始化，初始化录音参数。具体地，给定一个存档文件路径和音频采样率，设置存档文件的音频通道，如将存档文件的音频通道设置为左声道或右声道，并初始化编码参数，再根据音频采样率提前给麦克风录制存放的循环缓冲区，并分配20帧音频数据大小的内存。

存档方的麦克风录制线程负责录制存档方的音频数据，并写入一个循环缓冲区。具体地，启动存档方的麦克风音频录制，将录制采集到的音频数据写入已经提前准备好的循环缓冲区中，得到第一语音数据。

步骤206，获取网络通话的非存档方的第二语音数据。

具体地，存档方接收网络通话的非存档方音频文件，作为第二语音数据。

步骤208，将所述第一语音数据和所述第二语音数据录制在不同的声道，得到录音文件。

企业对企业员工与客户的服务电话有录音需求时，可设置通话录音功能。当根据用户识别标识识别到网络通话的参与者包括了存档方(如网络通话的参与者包括了企业员工的身份标识，则可确定通话的参与者包括了存档方)，则根据身份识别标识将存档方和非存档方的语音数据录制在不同的声道，得到录音文件。

在音频领域，双声道就是实现立体声的原理，包括了左声道和右声道。在空间放置两个互成一定角度的扬声器，每个扬声器单独由一个声道提供信号。而每个声道的信号在录制的时候就经过了处理：处理的原则就是模仿人耳在自然界听到声音时的生物学原理(人是双耳的，听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置)。从而一个扬声器播放左声道的声音，一个扬声器播放右声道的声音。

本实施例中，基于双声道的原理，将存档方的语音数据和非存档方的分别录制在不同的声道，实现存档方和非存档方的语音数据双轨存档。如，将存档方声音存储在右声道，将非存档方声音存储在左声道。由于对话双方的声音是分开存储的，且服务方的服务质量评价是针对存档方的语音数据而言。因此，当有需求对存档方的服务质量进行评估时，可以直接分辨出对话双方声音来源，对存档方的语音数据进行质检分析。

同时，传统的网络通话的录音方式中，需要人工触发录音。如，在电话机上触发录音按键，才能启动录音。而本实施例中，省去了人工操作程序，由系统自动根据网络通话的参与者的身份标识识别，若参与者包括存档方，则自动启动录音程序，节省的操作，给录音操作带来的便捷。

上述的语音数据处理方法，在网络通话的参与者包括存档方时，自动触发录音，能够减少人工操作，使得网络通话录音操作便捷。同时，将存档方和非档存方的语音数据录制在不同的声道，当有需求对存档方的服务质量进行评估时，可提取录音文件中存档方的声音数据，无需人工从整段话中定位到服务方的语音内容，能够降低服务质量监控的成本。

在另一个实施例中，对于通话内容有多方的情况，例如电话会议的场景，一个客服同时与多个其它用户进行多方会谈，为接收到多个非存档方的语音数据。为避免文件过大，如图3所示，存档方的音频播放线程负责对用户音频进行混音。

具体地，接收多个非存档方的音频文件，对所述音频文件解码，将解码后的多个音频文件进行混音，得到网络通话的非存档方的第二语音数据。具体地，对通话中其他用户的音频进行收包，然后再对音频解码，如果有多个用户存在，需要将多个非存档方解码后的音频进行混音成一个音频用于播放，播放线程再从循环缓冲区中取出与混音数据相同长度的音频进行编码，其中用户混音结果为左声道，存档方麦克风录制音频为右声道，最终保存到音频格式的文件，如mp3文件。

具体地，录制时，根据当前第二语音数据的长度，从循环缓冲区中取出相同长度的麦克风采集音频，即将第二语音数据作为左声道，第一语音数据作为右声道，进行音频编码，然后根据存档文件路径保存为mp3文件，当通话结束时，停止录音存档，然后将存档文件进行上报，便于企业对存档文件的获取。

本实施例中，在有多个非存档方参与网络通话时，存档方将接收到的多个非存档方的音频文件解码后进行混音，得到一路混音数据，进而将一路混音数据和存档方的音频数据分通道存储，能够减少音频数据大小。

在另一个实施例中，语音数据处理方法还包括：对所述录音文件进行处理，评估所述存档方的服务质量。

如前面所提到的，存档方声音和非存档方声音存储在不同的声道。因此，通过提取录音文件中存档方声音所在声道的声音数据，即可得到存档方的声音数据。根据存档方的声音数据，即可对存档方的服务质量进行评价。

具体地，对所述录音文件进行处理，评估所述存档方的服务质量，包括：从所述录音文件提取存档方对应声道的声道文件；对所述声道文件进行语音识别，转换为服务文本文件；根据所述服务文本文件，评估所述存档方的服务质量。

具体地，从录音文件中提取存档方对应的声道文件，如右声道文件，对右声道文件进行语音识别，转换为服务文本文件。即将语音转换为文本保留，方便后期浏览，质检人员不需要一直听录音才能进行评判，大大提高了工作效率。其中，将语音转换为文本，可采用预先训练好的声学模型进行识别。

企业可预先设置服务质量监控的敏感词，敏感词可包括常规敏感词，例如攻击性或侮辱性的词语，还可包括行业敏感词，例如金融行业中的“推荐股票”等。

若服务文本中包括预设敏感词，则生成报务质量预警信息，向上级主管部门报告。服务质量预警信息包括了存档方信息、对话的非存档方信息以及通话的录音信息。由上级主管部门人工进行复检查。

在另一个实施例中，语音数据处理方法还包括：对所述声道文件进行分帧处理；对各帧声道文件转换为语音频谱图；根据所述语音频谱图对存档方进行情绪识别，当识别到所述存档方情绪异常，则生成服务质量预警信息。

情绪识别指能够分析存档方的语气语调等，从而判断服务人员的情绪波动状况。为提高服务质量，通常需要客服人员具有良好的情绪。本实施例中，可通过对网络通话内容进行录制，进而识别客服人员的情绪，以实现服务质量监控。

具体地，将提取的存档方的声道文件分帧，对每一帧声道文件转换为语音频谱分析图。语音频谱分析图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。由于是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，颜色深，表示该点的语音能量越强。通过分析语音频谱分析图不同频段的信号强度随时间的变化情况，能够反映声音大小和声音速度，通过声音大小和声音速度能够评估情绪。例如，在生气这种情绪的作用下，说话声音通常会增大，声间速度通常会增快。

其中，可采用采用傅里叶变换将声道文件转换为语音频谱图。傅立叶变换是将时域信号分解为不同频率的正弦信号和余弦信号之和的积分变换，它可分析信号的成分，也可用这些成分合成信号。本实施例优选采用傅里叶变换获得语音频谱，从而通过图像识别技术对语谱图中的信号成分进行分析和识别。

具体地，可预先用于对语音频谱图进行情绪识别的模型，学习各种情况下语音频谱图的图像特征。在实际应用时，利用训练好的情绪识别模型对语音频谱图进行识别，识别存档方的情绪。识别到所述存档方情绪异常，则生成服务质量预警信息，向上级主管部门报告。服务质量预警信息包括了存档方信息、对话的非存档方信息以及通话的录音信息。由上级主管部门人工进行复检查。

在实际应用中，当识别到存档方情绪异常时，可紧急断线或者转接到其他存档方，防止冲突升级。

本申请的语音数据处理方法可应用于企业对语音通话进行存档。例如企业即时通讯平台中，某企业的客服在使用企业即时通讯平台与用户进行voip语音通话时，自动开启语音存档功能；客服作为存档方，其麦克风录制的声音和接收到用户的声音将同时分别作为右声道和左声道保存在同一个音频文件中；当企业需要对客服质量进行检测分析时，可以容易的根据左声道和右声道，分辨出声音来源是用户还是客服。该方法可在PC、MAC、Android、iOS等多平台通用，满足现代化办公需求；多方接入时，对非存档方进行混音，避免文件内容过大；对存档方和非存档方的语音进行双轨存储，方便用户进行质检分析。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种语音数据处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：通话模块、录音模块和监控模块，其中：

通话模块402，用于通过即时通讯平台触发网络通话。

录音模块404，用于若所述网络通话的参与者包括存档方，则调用存档方的声音采集设备对存档方通话内容进行采集得到第一语音数据；

声音获取模块406，用于获取网络通话的非存档方的第二语音数；

录制模块408，用于将所述第一语音数据和所述第二语音数据录制在不同的声道，得到录音文件。

上述的语音数据处理装置，在网络通话的参与者包括存档方时，自动触发录音，能够减少人工操作，使得网络通话录音操作便捷。同时，将存档方和非档存方的语音数据录制在不同的声道，当有需求对存档方的服务质量进行评估时，可提取录音文件中存档方的声音数据，无需人工从整段话中定位到服务方的语音内容，能够降低服务质量监控的成本。

在另一个实施例中，若通话的非存档方有多个，声音获取模块，用于接收多个非存档方的音频文件，对所述音频文件解码，将解码后的多个音频文件进行混音，得到网络通话的非存档方的第二语音数据。

在另一个实施例中，声音处理装置还包括播报模块，用于若所述网络通话的参与者包括提供服务的存档方，则开启录音标志，根据所述录音标志播报通话参与者开始录音。通过语音播报，通知客户录音的存在，以提示客户录音的事实，起到了录音告知的义务。

在另一个实施例中，还包括监控模块，用于对所述录音文件进行处理，评估所述存档方的服务质量。

在另一个实施例中，监控模块，包括：

声道处理模块，用于从所述录音文件提取存档方对应声道的声道文件；

转换模块，用于对所述声道文件进行语音识别，转换为服务文本文件；

质量评估模块，用于根据所述服务文本文件，评估所述存档方的服务质量。

在另一个实施例中，质量评估模块，用于若所述服务文本文件中包括预设敏感词，则生成服务质量预警信息。

在另一个实施例中，监控模块，还包括：

分帧处理模块，用于对所述声道文件进行分帧处理；

频谱转换模块，用于对各帧声道文件转换为语音频谱图；

情绪识别模块，用于根据所述语音频谱图对存档方进行情绪识别，当识别到所述存档方情绪异常，则生成服务质量预警信息。

关于语音数据处理装置的具体限定可以参见上文中对于语音数据处理方法的限定，在此不再赘述。上述语音数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏、麦克风和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

通过即时通讯平台触发网络通话；

获取网络通话的非存档方的第二语音数据；

2.根据权利要求1所述的方法，其特征在于，若通话的非存档方有多个，获取网络通话的非存档方的第二语音数据，包括：

接收多个非存档方的音频文件；

对所述音频文件解码，将解码后的多个音频文件进行混音，得到网络通话的非存档方的第二语音数据。

3.根据权利要求1所述的方法，其特征在于，若所述网络通话的参与者包括存档方，则开启录音标志，根据所述录音标志播报通话参与者开始录音。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述录音文件进行处理，评估所述存档方的服务质量。

5.根据权利要求4所述的方法，其特征在于，对所述录音文件进行处理，评估所述存档方的服务质量，包括：

从所述录音文件提取存档方对应声道的声道文件；

对所述声道文件进行语音识别，转换为服务文本文件；

根据所述服务文本文件，评估所述存档方的服务质量。

6.根据权利要求5所述的方法，其特征在于，根据所述服务文本文件，评估所述存档方的服务质量，包括：

若所述服务文本文件中包括预设敏感词，则生成服务质量预警信息。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述声道文件进行分帧处理；

对各帧声道文件转换为语音频谱图；

根据所述语音频谱图对存档方进行情绪识别，当识别到所述存档方情绪异常，则生成服务质量预警信息。

8.一种语音数据处理装置，其特征在于，所述装置包括：

通话模块，用于通过即时通讯平台触发网络通话；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。