CN113689862B

CN113689862B - 一种客服坐席语音数据的质检方法和系统

Info

Publication number: CN113689862B
Application number: CN202110970432.5A
Authority: CN
Inventors: 张帅
Original assignee: Nanjing Youfei Baoke Information Technology Co ltd
Current assignee: Nanjing Youfei Baoke Information Technology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2024-03-22
Anticipated expiration: 2041-08-23
Also published as: CN113689862A

Abstract

本发明公开了一种客服坐席语音数据的质检方法和系统，该方法包括：读取音频采样文件中的语音片段；对语音片段进行语音活动检测VAD处理确定待识别语音文件并记录未进行VAD处理的未处理时长，基于自动语音识别ASR对待识别语音文件进行识别获取目标文本；根据与待识别语音文件对应的第一总字节数、未处理时长、音频采样文件的每毫秒字节数确定目标文本的开始时间，并根据与语音片段对应的第二总字节数和每毫秒字节数的比值确定目标文本的结束时间；在语音通话结束后，根据用户发送的质检指令播放音频采样文件并基于开始时间和结束时间向用户显示目标文本，在基于音频进行质检时同步显示对应的文本，提高了客服坐席语音数据的质检效率。

Description

一种客服坐席语音数据的质检方法和系统

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种客服坐席语音数据的质检方法和系统。

背景技术

目前，呼叫中心已经成为企业提供线上综合业务信息的重要方式，呼叫中心的坐席根据企业的需求开展外呼或呼入的话务业务，以受理客户的意见反馈、咨询建议等业务，或针对企业的产品进行市场调查、电话销售、售后跟踪等业务。在呼叫中心开展上述话务业务的过程中，需要保证坐席与客户的通话内容的规范性和专业性，才能保证坐席所提供的话务服务的质量和效率，因此，对于所述通话内容的质检尤为重要。

现有技术中通常采用人工听取通话录音的方式来进行质检评定，并不能进行相应的文本展示，质检效率低。

因此，如何提高客服坐席语音数据的质检效率，是目前有待解决的技术问题。

发明内容

本发明提供一种客服坐席语音数据的质检方法，用以解决现有技术中客服坐席语音数据的质检效率低的技术问题。

该方法包括：

在语音通话的音频采样文件的未读取字节数达到预设字节数时，基于所述未读取字节数读取语音片段，并记录所述语音片段的序号；

对所述语音片段进行语音活动检测VAD处理确定待识别语音文件并记录未进行VAD处理的未处理时长，基于自动语音识别ASR对所述待识别语音文件进行识别获取目标文本；

根据与所述待识别语音文件对应的第一总字节数、所述未处理时长、所述音频采样文件的每毫秒字节数确定所述目标文本的开始时间，并根据与所述语音片段对应的第二总字节数和所述每毫秒字节数的比值确定所述目标文本的结束时间；

在所述语音通话结束后，根据用户发送的质检指令播放所述音频采样文件并基于所述开始时间和所述结束时间向用户显示所述目标文本；

其中，所述第二总字节数是根据已读取片段数和所述预设字节数的乘积确定的，所述已读取片段数是根据所述序号确定的，所述第一总字节数是从所述第二总字节数中剔除与所述VAD处理对应的静默字节数后确定的。

在本申请一些实施例中，根据公式一确定所述开始时间，所述公式一为：

其中，t1为所述开始时间，sn为所述第一总字节数，t为所述未处理时长，bn为所述每毫秒字节数。

在本申请一些实施例中，所述第一总字节数是根据公式二确定的，所述公式二为：

sn＝(s-sub)*b

其中，s为所述已读取片段数，sub为与所述静默字节数对应的静默状态偏移量，b为所述预设字节数。

在本申请一些实施例中，

t＝te-ts

其中，ts为未进行VAD处理的开始时间，te为未进行VAD处理的结束时间。

在本申请一些实施例中，所述方法还包括：

在检测到所述语音通话时，根据所述语音通话的音频格式、预设采样率和预设采样位数对所述语音通话进行采样获取所述音频采样文件并存储。

在本申请一些实施例中，所述预设字节数据是根据所述音频格式确定的，所述预设字节数在所述音频格式为PCM时为第一字节数，所述预设字节数在所述音频格式为silk时为第二字节数。

在本申请一些实施例中，在基于自动语音识别ASR对所述待识别语音文件进行识别获取目标文本之后，所述方法还包括：

基于AI算法对所述目标文本进行识别，若所述目标文本为与客户问题对应的问题文本，将所述目标文本发送到预设知识库；

若所述预设知识库中存在与所述目标文本匹配的推荐回答，将所述推荐回答推送到前端进行展示；

若所述预设知识库中不存在所述推荐回答，对所述目标文本进行标注并保存到所述预设知识库。

在本申请一些实施例中，在基于AI算法对所述目标文本进行识别之后，所述方法还包括：

若所述目标文本为与客服坐席对应的回答文本，将所述目标文本发送到所述预设知识库；

若所述目标文本与所述预设知识库中的预设非法文本匹配，发出回答错误的提示信息。

相应的，本发明还提供了一种客服坐席语音数据的质检系统，所述系统包括：

读取模块，用于在语音通话的音频采样文件的未读取字节数达到预设字节数时，基于所述未读取字节数读取语音片段，并记录所述语音片段的序号；

识别模块，用于对所述语音片段进行语音活动检测VAD处理确定待识别语音文件并记录未进行VAD处理的未处理时长，基于自动语音识别ASR对所述待识别语音文件进行识别获取目标文本；

确定模块，用于根据与所述待识别语音文件对应的第一总字节数、所述未处理时长、所述音频采样文件的每毫秒字节数确定所述目标文本的开始时间，并根据与所述语音片段对应的第二总字节数和所述每毫秒字节数的比值确定所述目标文本的结束时间；

质检模块，用于在所述语音通话结束后，根据用户发送的质检指令播放所述音频采样文件并基于所述开始时间和所述结束时间向用户显示所述目标文本；

相应的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如上所述的客服坐席语音数据的质检方法。

通过应用以上技术方案，在语音通话的音频采样文件的未读取字节数达到预设字节数时，基于未读取字节数读取语音片段，并记录语音片段的序号；对语音片段进行语音活动检测VAD处理确定待识别语音文件并记录未进行VAD处理的未处理时长，基于自动语音识别ASR对待识别语音文件进行识别获取目标文本；根据与待识别语音文件对应的第一总字节数、未处理时长、音频采样文件的每毫秒字节数确定目标文本的开始时间，并根据与语音片段对应的第二总字节数和每毫秒字节数的比值确定目标文本的结束时间；在语音通话结束后，根据用户发送的质检指令播放音频采样文件并基于开始时间和结束时间向用户显示目标文本；其中，第二总字节数是根据已读取片段数和预设字节数的乘积确定的，已读取片段数是根据序号确定的，第一总字节数是从第二总字节数中剔除与VAD处理对应的静默字节数后确定的，在基于音频进行质检时同步显示对应的文本，提高了客服坐席语音数据的质检效率，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种客服坐席语音数据的质检方法的流程示意图；

图2示出了本发明另一实施例提出的一种客服坐席语音数据的质检方法的流程示意图；

图3示出了本发明实施例提出的一种客服坐席语音数据的质检系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种客服坐席语音数据的质检方法，如图1所示，所述方法包括以下步骤：

步骤S101，在语音通话的音频采样文件的未读取字节数达到预设字节数时，基于所述未读取字节数读取语音片段，并记录所述语音片段的序号。

本实施例中，语音通话为客服坐席与客户的语音通话，具体的，客服坐席与客户之间建立websocket连接并认证token成功后进行语音通话。对语音通话进行采样获取音频采样文件，按照预设字节数对音频采样文件进行循环读取，即在语音通话的音频采样文件的未读取字节数达到预设字节数时，基于未读取字节数读取语音片段，记录所述语音片段的序号，该序号可以从0开始，每读取一个语音片段加1。通过该序号可以确定已读取的语音片段数，即已读取片段数。

为了可靠的获取音频采样文件，在本申请一些实施例中，所述方法还包括：

本实施例中，音频格式可以包括PCM(Pulse Code Modulation，脉冲编码调制)和silk，预设采样率可以为8000Hz，预设采样位数可以为16。

为了提高音频采样效率，在本申请一些实施例中，所述预设字节数据是根据所述音频格式确定的，所述预设字节数在所述音频格式为PCM时为第一字节数，所述预设字节数在所述音频格式为silk时为第二字节数。

本实施例中，不同的音频格式对应不同的预设字节数，第一字节数可以为10240，第二字节数可以为3200。

步骤S102，对所述语音片段进行语音活动检测VAD处理确定待识别语音文件并记录未进行VAD处理的未处理时长，基于自动语音识别ASR对所述待识别语音文件进行识别获取目标文本。

本实施例中，VAD(Voice Activity Detection，语音活动检测)，目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。在用户没有讲话时，就没有语音分组的发送，从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态，也不发送语音分组。当检测到突发的活动声音时才生成语音信号，并加以传输。

在读取语音片段到进行VAD处理之间为未进行VAD处理的未处理时长，对语音片段进行VAD处理确定待识别语音文件并记录该未处理时长，然后基于ASR(Automatic SpeechRecognition，自动语音识别)对所述待识别语音文件进行识别获取目标文本。ASR是一种将人的语音转换为文本的技术，具体的识别过程对于本领域技术人员是显而易见的，在此不再赘述。

为了提高客服坐席的服务质量，在本申请一些实施例中，在基于自动语音识别ASR对所述待识别语音文件进行识别获取目标文本之后，所述方法还包括：

本实施例中，基于AI(Artificial Intelligence，人工智能)算法对所述目标文本进行识别，若目标文本为与客户问题对应的问题文本，将目标文本发送到预设知识库，从预设知识库中寻找是否存在与目标文本匹配的推荐回答，若存在，将推荐回答推送到前端进行展示，便于客服坐席进行参考；若不存在，对目标文本进行标注并保存到预设知识库，以便后续维护人员进行针对性的维度，如给出对该目标文本的推荐回答并更新预设知识库。

为了提高质检效率，在本申请一些实施例中，在基于AI算法对所述目标文本进行识别之后，所述方法还包括：

本实施例中，为了及时对客服坐席的回答进行质检，预设知识库中包括预设非法文本，例如“欺骗”、“太差了”、“打过N次电话”、“投诉”等，若目标文本为与客服坐席对应的回答文本且该目标文本与预设非法文本匹配，说明客服坐席的回答是错误的，向质检人员及客服坐席界面发出回答错误的提示信息。

步骤S103，根据与所述待识别语音文件对应的第一总字节数、所述未处理时长、所述音频采样文件的每毫秒字节数确定所述目标文本的开始时间，并根据与所述语音片段对应的第二总字节数和所述每毫秒字节数的比值确定所述目标文本的结束时间。

本实施例中，由于对语音片段进行了VAD处理，其中的静默字节是不进行ASR处理的，因此造成音频采样文件与进行ASR处理的音频不一致，需要确定目标文本的开始时间和结束时间，以便后续与音频采样文件进行对应展示。根据与待识别语音文件对应的第一总字节数、未处理时长、音频采样文件的每毫秒字节数确定目标文本的开始时间，并根据与语音片段对应的第二总字节数和每毫秒字节数的比值确定目标文本的结束时间，第二总字节数是根据已读取片段数和预设字节数的乘积确定的，第一总字节数是从第二总字节数中剔除与VAD处理对应的静默字节数后确定的。

为了准确的确定开始时间，在本申请一些实施例中，根据公式一确定所述开始时间，所述公式一为：

需要说明的是，以上优选实施例的方案仅为本申请所提出的一种具体实现方案，其他根据第一总字节数、未处理时长、每毫秒字节数确定目标文本的开始时间的方式均属于本申请的保护范围。

为了可靠的确定第一总字节数，在本申请一些实施例中，所述第一总字节数是根据公式二确定的，所述公式二为：

sn＝(s-sub)*b

本实施例中，该静默状态偏移量为静默字节数与预设字节数的比值。

为了可靠的确定未处理时长，在本申请一些实施例中，t＝te-ts

步骤S104，在所述语音通话结束后，根据用户发送的质检指令播放所述音频采样文件并基于所述开始时间和所述结束时间向用户显示所述目标文本。

本实施例中，在语音通话结束后，当接收到用户(如质检人员)发送的质检指令，根据该质检指令播放音频采样文件并基于开始时间和结束时间向用户显示目标文本。

为了进一步阐述本发明的技术思想，现结合具体的应用场景，对本发明的技术方案进行说明。

本申请实施例提供一种客服坐席语音数据的质检方法，如图2所示，该方法包括以下步骤：

步骤S201，websocket获取字节，写入PCM文件。

在步骤S201之间建立语音通话。

步骤S202，确定PCM文件的未读字节数。

步骤S203，未读取字节数＞10240，若是执行步骤S204，否则执行步骤S202。

步骤S204，读取语音片段并记录序号。

步骤S205，进行VAD处理，记录静默字节数。

步骤S206，调用ASR接口，获取目标文本。

步骤S207，确定目标文本的开始时间和结束时间。

本步骤中，基于前述步骤S103确定目标文本的开始时间和结束时间，具体过程不再赘述。

步骤S208，通话结束后，基于质检指令播放PCM文件和显示各目标文件。

与本申请实施例中的一种客服坐席语音数据的质检方法向对应，本申请实施例还提了一种客服坐席语音数据的质检系统，如图3所示，所述系统包括：

读取模块301，用于在语音通话的音频采样文件的未读取字节数达到预设字节数时，基于所述未读取字节数读取语音片段，并记录所述语音片段的序号；

识别模块302，用于对所述语音片段进行语音活动检测VAD处理确定待识别语音文件并记录未进行VAD处理的未处理时长，基于自动语音识别ASR对所述待识别语音文件进行识别获取目标文本；

确定模块303，用于根据与所述待识别语音文件对应的第一总字节数、所述未处理时长、所述音频采样文件的每毫秒字节数确定所述目标文本的开始时间，并根据与所述语音片段对应的第二总字节数和所述每毫秒字节数的比值确定所述目标文本的结束时间；

质检模块304，用于在所述语音通话结束后，根据用户发送的质检指令播放所述音频采样文件并基于所述开始时间和所述结束时间向用户显示所述目标文本；

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种客服坐席语音数据的质检方法，其特征在于，所述方法包括：

在语音通话的音频采样文件的未读取字节数达到预设字节数时，基于所述未读取字节数读取语音片段，并记录所述语音片段的序号；客服坐席与客户之间建立websocket连接并认证token成功后进行语音通话；

对所述语音片段进行语音活动检测VAD处理确定待识别语音文件并记录未进行VAD处理的未处理时长，其中，在读取语音片段到进行VAD处理之间为未进行VAD处理的未处理时长；然后基于自动语音识别ASR对所述待识别语音文件进行识别获取目标文本；

其中，所述第二总字节数是根据已读取片段数和所述预设字节数的乘积确

定的，所述已读取片段数是根据所述序号确定的，所述第一总字节数是从所述第二总字节数中剔除与所述VAD处理对应的静默字节数后确定的。

2.如权利要求1所述的方法，其特征在于，根据公式一确定所述开始时间，所述公式一为：

3.如权利要求2所述的方法，其特征在于，所述第一总字节数是根据公式二确定的，所述公式二为：

sn＝(s-sub)*b

4.如权利要求2所述的方法，其特征在于，

t＝te-ts

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，所述预设字节数是根据所述音频格式确定的，所述预设字节数在所述音频格式为PCM时为第一字节数，所述预设字节数在所述音频格式为silk时为第二字节数。

7.如权利要求1所述的方法，其特征在于，在基于自动语音识别ASR对所述待识别语音文件进行识别获取目标文本之后，所述方法还包括：

8.如权利要求7所述的方法，其特征在于，在基于AI算法对所述目标文本进行识别之后，所述方法还包括：

9.一种客服坐席语音数据的质检系统，其特征在于，所述系统包括：

识别模块，用于对所述语音片段进行语音活动检测VAD处理确定待识别语音文件并记录未进行VAD处理的未处理时长，其中，在读取语音片段到进行VAD处理之间为未进行VAD处理的未处理时长；基于自动语音识别ASR对所述待识别语音文件进行识别获取目标文本；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-8任一项所述的客服坐席语音数据的质检方法。