CN116959435B

CN116959435B - 呼叫通话的语义识别方法、设备及存储介质

Info

Publication number: CN116959435B
Application number: CN202311211350.8A
Authority: CN
Inventors: 谢国斌; 徐约可; 马明; 刘昆
Original assignee: Shenzhen Dadaoyun Technology Co ltd
Current assignee: Shenzhen Dadaoyun Technology Co ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-08
Anticipated expiration: 2043-09-20
Also published as: CN116959435A

Abstract

本发明涉及语音控制领域，公开了一种呼叫通话的语义识别方法、设备及存储介质。该方法包括：根据预处理分析，对语音数据降噪切割处理，生成降噪音频片段集；根据语音分析算法，对降噪音频片段集进行语义识别处理，生成预测结果集；根据情感分析算法，对降噪音频片段集进行情感识别处理，生成情感标签集；根据声纹分析算法，对降噪音频片段集进行声纹识别处理，生成声纹标签集；对预测结果集进行打标处理，生成标记结果集；对标记结果集进行分类组合处理，生成组合结果集；根据文本分析算法，对组合结果集进行筛选处理，得到目标识别结果。在本发明实施例中，解决了当前的呼叫通话语音的无法有效准确的识别来源和内容的技术问题。

Description

呼叫通话的语义识别方法、设备及存储介质

技术领域

本发明涉及语音控制领域，尤其涉及一种呼叫通话的语义识别方法、设备及存储介质。

背景技术

目前电话呼叫系统的现状是总体是相对成熟的，电话呼叫已成为人们日常生活和商业活动中不可或缺的一部分。许多企业和组织都建立了庞大的电话呼叫系统，用于处理大量的呼叫流量，依赖电话呼叫与客户进行沟通、提供支持和解决问题。

在电话呼叫系统中，语音分析呼叫系统起着越来越重要的作用。它可以帮助企业自动化处理电话呼叫，提高工作效率和客户满意度。同时，语音呼叫分析系统还可以提供有关呼叫内容和客户反馈的有用信息，帮助企业改进产品和服务，优化业务流程。

但是由于呼叫通话是双方行为，声音来源存在至少是两方及以上，因此，单纯的识别语音内容后进行情感分析和语义理解对于区分客户立场、了解真实客户意图是存在障碍的，系统使用方仍然需要逐个点开个录音文件，听取录音，根据声音来源来分析通话内容。因此，针对当前的呼叫通话语音的无法有效准确的识别来源和内容的技术问题，需要一种新的技术来解决当前问题。

发明内容

本发明的主要目的在于解决当前的呼叫通话语音的无法有效准确的识别来源和内容的技术问题。

本发明第一方面提供了一种呼叫通话的语义识别方法，包括步骤：

接收语音数据；

根据预置预处理分析，对所述语音数据降噪切割处理，生成降噪音频片段集；

根据预置语音分析算法，对所述降噪音频片段集进行语音识别处理，生成预测结果集；

根据预置情感分析算法，对所述降噪音频片段集进行情感识别处理，生成情感标签集；

根据预置声纹分析算法，对所述降噪音频片段集进行声纹识别处理，生成声纹标签集；

基于所述情感标签集与所述声纹标签集，对所述预测结果集进行打标处理，生成标记结果集；

利用所述声纹标签集的种类，对所述标记结果集进行分类组合处理，生成组合结果集；

根据预置文本分析算法，对所述组合结果集进行筛选处理，得到目标识别结果。

可选的，在本发明第一方面的第一种实现方式中，所述根据预置预处理分析，对所述语音数据降噪切割处理，生成降噪音频片段集包括：

基于预置傅里叶变换，对所述语音数据进行频域转换处理，生成频域语音数据；

根据预置谱减算法，对所述频域语音数据进行降噪处理，生成频域降噪语音数据；

基于预置傅里叶逆变换，对所述频域降噪语音数据进行逆转换处理，得到降噪音频；

根据预置切片算法，对所述降噪音频进行切割处理，生成降噪音频片段集。

可选的，在本发明第一方面的第二种实现方式中，所述根据预置谱减算法，对所述频域语音数据进行降噪处理，生成频域降噪语音数据包括：

对所述频域语音数据进行复数绝对值平方处理，得到频域语音数据对应的语音功率谱；

根据预置谱减公式和预置噪声功率谱，对所述语音功率谱进行谱减处理，生成纯净功率谱；

对所述纯净功率谱进行滤波运算处理，生成频域降噪语音数据。

可选的，在本发明第一方面的第三种实现方式中，所述根据预置语音分析算法，对所述降噪音频片段集进行语音识别处理，生成预测结果集包括：

基于预置RNN-text神经网络，对所述降噪音频片段集的每个元素逐一进行语音识别处理，组合生成预测结果集。

可选的，在本发明第一方面的第四种实现方式中，所述根据预置情感分析算法，对所述降噪音频片段集进行情感识别处理，生成情感标签集包括：

基于预置LSTM神经网络，对所述降噪音频片段集的每个元素逐一进行情感识别处理，组合生成情感标签集。

可选的，在本发明第一方面的第五种实现方式中，所述基于所述情感标签集与所述声纹标签集，对所述预测结果集进行打标处理，生成标记结果集包括：

读取所述情感标签集与所述降噪音频片段集的第一映射关系，读取所述声纹标签集与所述降噪音频片段集的第二映射关系，读取所述预测结果集与所述降噪音频片段集的第三映射关系；

基于所述第一映射关系、所述第二映射关系、所述第三映射关系，将所述情感标签集的元素、所述声纹标签集的元素标记于所述预测结果集的元素上，生成标记结果集。

可选的，在本发明第一方面的第六种实现方式中，所述根据预置声纹分析算法，对所述降噪音频片段集进行声纹识别处理，生成声纹标签集包括：

基于预置时延神经网络，对所述降噪音频片段集的每个元素逐一进行声纹识别处理，组合生成声纹标签集。

可选的，在本发明第一方面的第七种实现方式中，所述根据预置文本分析算法，对所述组合结果集进行筛选处理，得到目标识别结果包括：

基于预置CRNN神经网络，对所述组合结果集的每个元素进行语义分析处理，得到带有目标特征的组合结果；

将所述带有目标特征的组合结果确认为目标识别结果。

本发明第二方面提供了一种呼叫通话的语义识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述呼叫通话的语义识别设备执行上述的呼叫通话的语义识别方法。

本发明的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的呼叫通话的语义识别方法。

在本发明实施例中，对通话语音数据进行先进行降噪拆分，然后对每个片段进行语义、情感、声纹分析，然后基于情感、声纹标签对每个拆分的语义进行标记，基于声纹标签进行分类组合，生成组合结果。最后，对组合结果进行情感和语义的识别和筛选，实现对目标对象的语音结果筛选，实现了追溯呼叫通话中一个声源的语义文本生成，解决了当前的呼叫通话语音的无法有效准确的识别来源和内容的技术问题。

附图说明

图1为本发明实施例中呼叫通话的语义识别方法的第一个实施例示意图；

图2为本发明实施例中呼叫通话的语义识别方法的102步骤的一个实施例示意图；

图3为本发明实施例中呼叫通话的语义识别方法的1022步骤的一个实施例示意图；

图4为本发明实施例中呼叫通话的语义识别方法的106步骤的一个实施例示意图；

图5为本发明实施例中呼叫通话的语义识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种呼叫通话的语义识别方法、设备及存储介质。

下面将参照附图更详细地描述本发明公开的实施例。虽然附图中显示了本发明公开的某些实施例，然而应当理解的是，本发明公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本发明公开的附图及实施例仅用于示例性作用，并非用于限制本发明公开的保护范围。

在本发明公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中呼叫通话的语义识别方法的一个实施例包括：

101、接收语音数据；

102、根据预置预处理分析，对所述语音数据降噪切割处理，生成降噪音频片段集；

在101-102步骤中，语音数据可以是一段通话录音，包含多个声音来源的数据，不同声音来源的音频数据。

对通话语音数据先进行降噪处理，降噪方法可以使用LMS算法或者是窗口滤波降噪等方式进行降噪处理，得到降噪音频。然后对降噪音频基于时域的波峰变化进行切割处理，将降噪音频切割成多个片段，按照原有时序排序，生成降噪音频片段集。

进一步的，请参阅图2，图2为本发明实施例中呼叫通话的语义识别方法的102步骤的一个实施例，在102步骤中包含以下步骤：

1021、基于预置傅里叶变换，对所述语音数据进行频域转换处理，生成频域语音数据；

1022、根据预置谱减算法，对所述频域语音数据进行降噪处理，生成频域降噪语音数据；

1023、基于预置傅里叶逆变换，对所述频域降噪语音数据进行逆转换处理，得到降噪音频；

1024、根据预置切片算法，对所述降噪音频进行切割处理，生成降噪音频片段集。

在1021-1024步骤中，语音数据F先进行傅里叶变换，得到频域语音数据F₁（W），W为数据采样率一般为1-256。利用谱减法，对语音数据进行谱减处理，谱减法是一种对频域数据进行降噪的方法，得到频域降噪语音数据F₂（W）。再使用傅里叶逆变换，对频域降噪语音数据F₂（W）转换回时域，得到降噪音频。最后再基于降噪音频的时域波峰变化进行切割处理，将降噪音频切割成多个片段，按照原有时序排序，生成降噪音频片段集。

进一步的，请参阅图3，图3为本发明实施例中呼叫通话的语义识别方法的1022步骤的一个实施例，在1022步骤中包含以下步骤：

10221、对所述频域语音数据进行复数绝对值平方处理，得到频域语音数据对应的语音功率谱；

10222、根据预置谱减公式和预置噪声功率谱，对所述语音功率谱进行谱减处理，生成纯净功率谱；

10223、对所述纯净功率谱进行滤波运算处理，生成频域降噪语音数据。

在10221-10223步骤中，频域语音数据对应的语音功率谱的计算过程可以使用该方程表示：P₁（W）=|F₁（W）|²，其中P₁（W）为域语音数据对应的语音功率谱，F₁（W）为频域语音数据。

谱减公式可以执行以下方式：

其中，a、b、c为常数，P₁频域语音数据对应的语音功率谱，P₂为预置噪声功率谱，P₃为纯净功率谱。

最后，采用该滤波方式生成频域降噪语音数据，具体滤波方式如下：

其中，P₃为纯净功率谱，P₂为预置噪声功率谱，F₁为频域语音数据，F₂为频域降噪语音数据。

103、根据预置语音分析算法，对所述降噪音频片段集进行语音识别处理，生成预测结果集；

在本实施例中，语音分析算法主要采用神经网络，对降噪音频片段集每个片段进行语音识别，识别的多个字段按照原有音频排序，生成预测结果集。

具体的，在103步骤中可以执行以下步骤：

1031、基于预置RNN-text神经网络，对所述降噪音频片段集的每个元素逐一进行语音识别处理，组合生成预测结果集。

在1031步骤中，语音分析过程使用较为成熟RNN-text神经网络，将所述降噪音频片段集的每个元素逐一进行语音识别为文本数据，按照原有音频排序生成预测结果集。

104、根据预置情感分析算法，对所述降噪音频片段集进行情感识别处理，生成情感标签集；

在本实施例中，情感分析过程中主要对降噪音频片段的进行语音的情感识别，对每个降噪音频的片段识别出情感如：高亢、平静、失落等标签，标签排序按照降噪音频的顺序排列，生成情感标签集。

具体的，在104步骤中可以执行以下步骤：

1041、基于预置LSTM神经网络，对所述降噪音频片段集的每个元素逐一进行情感识别处理，组合生成情感标签集。

在1031步骤中，情感识别的处理上，使用LSTM神经网络对每个降噪音频片段逐一识别，然后将识别的情感标签按照降噪音频的顺序排列，生成情感标签集。

105、根据预置声纹分析算法，对所述降噪音频片段集进行声纹识别处理，生成声纹标签集；

在本实施例中，声纹识别主要是为了针对每个降噪音频片段的声音来源，对每个降噪音频片段的进行声纹识别后，得到一个标签，将所有标签按照降噪音频的顺序排列，生成声纹标签集。

具体的，在105步骤中可以执行以下步骤：

1051、基于预置时延神经网络，对所述降噪音频片段集的每个元素逐一进行声纹识别处理，组合生成声纹标签集。

在本实施例中，时延神经网络(time delay neural network，tdnn)是在声纹识别中较为成熟的方案，以tdnn的倒数第一层或第二层隐藏层作为声纹特征输出，输出特征向量x-vector，基于该向量进行聚类分类，生成多个声纹标签，组合生成声纹标签集。

106、基于所述情感标签集与所述声纹标签集，对所述预测结果集进行打标处理，生成标记结果集；

在本实施例中，声纹标签集按照对应降噪音频片段集顺序对预测结果集进行打标，情感标签集按照对应应降噪音频片段集顺序对预测结果集进行打标，打标两次后生成标记结果集。

进一步的，请参阅图4，图4为本发明实施例中呼叫通话的语义识别方法的106步骤的一个实施例，在106步骤中可以执行以下步骤：

1061、读取所述情感标签集与所述降噪音频片段集的第一映射关系，读取所述声纹标签集与所述降噪音频片段集的第二映射关系，读取所述预测结果集与所述降噪音频片段集的第三映射关系；

1062、基于所述第一映射关系、所述第二映射关系、所述第三映射关系，将所述情感标签集的元素、所述声纹标签集的元素标记于所述预测结果集的元素上，生成标记结果集。

在1061-1062步骤中，情感标签集、降噪音频片段集、声纹标签集、预测结果集的并没有顺序对应关系，而是映射关系。由此读取情感标签集与降噪音频片段集的第一映射关系，读取声纹标签集与降噪音频片段集的第二映射关系，读取预测结果集与降噪音频片段集的第三映射关系。第一、二、三映射关系的基础为降噪音频片段集，因此基于降噪音频片段集的映射对象，对预测结果集的每个元素进行打标，由此生成标记结果集。

107、利用所述声纹标签集的种类，对所述标记结果集进行分类组合处理，生成组合结果集；

在本实施例中，将同类的声纹标签打标的标记结果，按照降噪音频片段集的先后顺序组合，生成各类声纹标签组合的数据，也即是组合结果集。

108、根据预置文本分析算法，对所述组合结果集进行筛选处理，得到目标识别结果。

在本实施例中，目标为识别客户的文本，根据预置文本分析算法，对组合结果集中每个组合结果的文本数据进行文本语义识别，从中筛选出组合结果集的客户语音对应文本数据，也即是目标识别结果。

进一步的，在108步骤中可以执行以下步骤：

1081、基于预置CRNN神经网络，对所述组合结果集的每个元素进行语义分析处理，得到带有目标特征的组合结果；

1082、将所述带有目标特征的组合结果确认为目标识别结果。

在本实施例中，文本的语义识别可以使用CRNN神经网络，按照全连接层将组合结果集进行特征识别，从中找到带有客户特征的组合结果，并将带有客户特征的组合结果作为目标识别结果进行输出。实际上也可以将客服作为目标特征进行特征识别，得到带有客服特征的组合结果，也即是目标识别结果。

图5是本发明实施例提供的一种呼叫通话的语义识别设备的结构示意图，该呼叫通话的语义识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）510（例如，一个或一个以上处理器）和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对呼叫通话的语义识别设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在呼叫通话的语义识别设备500上执行存储介质530中的一系列指令操作。

基于呼叫通话的语义识别设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，Free BSD等等。本领域技术人员可以理解，图5示出的呼叫通话的语义识别设备结构并不构成对基于呼叫通话的语义识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述呼叫通话的语义识别方法的步骤。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种呼叫通话的语义识别方法，其特征在于，包括步骤：

接收语音数据；

根据预置文本分析算法，对所述组合结果集进行筛选处理，得到目标识别结果；

其中，所述根据预置语音分析算法，对所述降噪音频片段集进行语音识别处理，生成预测结果集包括：

基于预置RNN-text神经网络，对所述降噪音频片段集的每个元素逐一进行语音识别处理，组合生成预测结果集；

其中，所述根据预置情感分析算法，对所述降噪音频片段集进行情感识别处理，生成情感标签集包括：

基于预置LSTM神经网络，对所述降噪音频片段集的每个元素逐一进行情感识别处理，组合生成情感标签集；

其中，所述基于所述情感标签集与所述声纹标签集，对所述预测结果集进行打标处理，生成标记结果集包括：

基于所述第一映射关系、所述第二映射关系、所述第三映射关系，将所述情感标签集的元素、所述声纹标签集的元素标记于所述预测结果集的元素上，生成标记结果集；

其中，所述根据预置声纹分析算法，对所述降噪音频片段集进行声纹识别处理，生成声纹标签集包括：

2.根据权利要求1所述的呼叫通话的语义识别方法，其特征在于，所述根据预置预处理分析，对所述语音数据降噪切割处理，生成降噪音频片段集包括：

3.根据权利要求2所述的呼叫通话的语义识别方法，其特征在于，所述根据预置谱减算法，对所述频域语音数据进行降噪处理，生成频域降噪语音数据包括：

4.根据权利要求1所述的呼叫通话的语义识别方法，其特征在于，所述根据预置文本分析算法，对所述组合结果集进行筛选处理，得到目标识别结果包括：

将所述带有目标特征的组合结果确认为目标识别结果。

5.一种呼叫通话的语义识别设备，其特征在于，所述呼叫通话的语义识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述呼叫通话的语义识别设备执行如权利要求1-4中任一项所述的呼叫通话的语义识别方法。

6.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的呼叫通话的语义识别方法。