CN112420028A

CN112420028A - 一种用于对语音信号进行语义识别的系统及方法

Info

Publication number: CN112420028A
Application number: CN202011412947.5A
Authority: CN
Inventors: 程钢; 张飞; 贾岩峰; 韩慎勇; 丁正; 顾晓东; 祝敬安; 韦红
Original assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Current assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-02-26
Anticipated expiration: 2040-12-03
Also published as: CN112420028B

Abstract

本发明实施例公开了一种用于对语音信号进行语义识别的系统及方法，本发明实施例在电信通讯网络中设置基于注意力机制(Attention)的端到端系统(LAS，Listen,Attention,Spell)、BERT模型及基于神经网络构建的语音文本混合子系统，其中，电信通讯网络中的语音信号输入到LAS中进行语音识别后，得到高维声学特征表示及对应的文本信息，将对应的文本信息输入给BERT模型，将高维声学特征表示输入给语音文本混合子系统中；BERT模型对输入的对应的文本信息进行处理得到高维文本特征表示后，输入给语音文本混合子系统；语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理，得到语义识别结果。本发明通过语音和语义两个模态的信息融合，显著提升对语音信号进行语义识别的准确率。

Description

一种用于对语音信号进行语义识别的系统及方法

技术领域

本发明涉及计算机人工智能技术领域，特别涉及一种用于对语音信号进行语义识别的系统及方法。

背景技术

在过去30年间，电信通讯技术得到非常好的普及，基于电信通信技术设置的电信通讯网络给人们生活带来便利的同时，也有不法分子使用电信通讯网络进行诈骗活动，给人们生活带来非常大的潜在风险。随着计算机人工智能技术的飞速发展和普及，会尝试将人工智能技术应用到电信通讯网络中，对电信通讯网络中的语音进行语音识别，以确认是否是电信诈骗。图1为现有技术提供的电信通讯网络中基于语音识别技术进行的电信反诈骗应用的方法流程图，通常，在电信通讯网络中增加由供应商提供的语音识别系统，对电信通讯网络的电信通话中的语音进行识别后，得到对应的文本信息，基于预先设置的诈骗关键词列表对对应的文本信息进行检索，根据检索结果确认是否为诈骗电信通话。在这里，关键词检索仅仅是一个正则匹配过程或模糊匹配过程。

采用图1所述的方式进行电信反诈骗应用，存在以下缺陷：供应商提供的语音识别系统有很大可能与当前的应用场景不匹配，导致语音识别的效果，特别是对一些专有名词识别准确率不高，直接导致后续的诈骗关键词列表无法检索到，导致识别失败。其中对对应的文本信息进行检索采用的是正则匹配过程或模糊匹配过程，并没有对对应的文本信息进行上下文理解，导致匹配的结果可用性不高，检索结果的准确率低。

综上，目前在电信通讯网络中所应用的语音识别技术缺乏对语音信息的理解，导致语音识别得到的语义准确率低，泛化能力差，推广性不强及时效性能弱等问题。

发明内容

有鉴于此，本发明实施例提供了一种用于对语音信号进行语义识别的系统，该系统在电信通讯网络对语音信号进行语义识别时，提高语义识别的准确率。

本发明实施例还提供一种语义识别的方法，该方法在电信通讯网络对语音信号进行语义识别时，提高语义识别的准确率。

本发明实施例是这样实现的：

一种用于对语音信号进行语义识别的系统，所述系统设置在电信通信网络中，包括：基于注意力机制的端到端系统LAS、BERT模型及语音文本混合子系统，其中，

LAS，用于获取电信通讯网络中的语音信号，进行语音识别后，得到高维声学特征表示及对应的文本信息，将语音识别结果输入给BERT模型，将高维声学特征表示输入给语音文本混合子系统中；

BERT模型，用于对LAS输入的对应的文本信息进行处理得到高维文本特征表示后，输入给语音文本混合子系统；

语音文本混合子系统，用于对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行分类处理，得到语义识别结果。

较佳地，所述LAS是采用基于注意力机制的神经网络训练得到的，由编码模块、注意力机制模块及解码模块组成，其中，

编码模块，用于对电信通讯网络中的语音信号进行编码，形成高维特征表示；

注意力机制模块，用于对所形成的高维特征表示进行语义预测相关部分的提取后，将提取后的高维特征表示发送给解码模块；

解码模块，用于接收注意力机制模块发送的提取后的高维特征表示，进行语义预测，得到高维声学特征表示及对应的文本信息。

较佳地，所述LAS在训练时采用

进行训练，

其中，θ表示LAS采用的神经网络参数，x表示语音信号，y表示语音信号对应的文本信息。

较佳地，所述BERT模型采用无监督文本预料进行预训练后得到。

较佳地，所述语音文本混合子系统采用神经网络训练得到，包括：池化层模块及多层感知MLP自然语言神经子网络，其中，

池化层模块，用于分别对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行池化后，输入到MLP自然语言神经子网络中；

MLP自然语言神经子网络，用于对经过池化的高维声学特征表示及高维文本特征表示进行处理，得到语义识别结果。

较佳地，所述系统应用在所述电信通讯网络中的反电信诈骗业务中，所述语音文本混合子系统，还用户进行分类处理，得到的语义识别结果为电信诈骗语音或非电信诈骗语音。

一种用于对语音信号进行语义识别的方法，该方法包括：

在电信通讯网络中设置基于LAS、BERT模型及语音文本混合子系统；

电信通讯网络中的语音信号输入到LAS中进行语音识别后，得到高维声学特征表示及对应的文本信息，将语音识别结果输入给BERT模型，将高维声学特征表示输入给语音文本混合子系统中；

BERT模型对输入的对应的文本信息果进行处理得到高维文本特征表示后，输入给语音文本混合子系统；

语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理，得到语义识别结果。

较佳地，所述LAS是采用基于注意力机制的神经网络训练得到的；

所述BERT模型是采用无监督文本预料经过预训练后得到的；

所述语音文本混合子系统采用神经网络训练得到的。

较佳地，所述方法应用在所述电信通讯网络中的反电信诈骗业务中，所述语音文本混合子系统进行分类处理时，得到的语义识别结果为电信诈骗语音或非电信诈骗语音。

如上所见，本发明实施例在电信通讯网络中设置基于注意力机制(Attention)的端到端系统(LAS，Listen,Attention,Spell)、BERT模型及基于神经网络构建的语音文本混合子系统，其中，电信通讯网络中的语音信号输入到LAS中进行语音识别后，得到高维声学特征表示及对应的文本信息，将对应的文本信息输入给BERT模型，将高维声学特征表示输入给语音文本混合子系统中；BERT模型对输入的对应的文本信息进行处理得到高维文本特征表示后，输入给语音文本混合子系统；语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理，得到语义识别结果。由于本发明实施例在用于对语音信号进行语义识别时，不仅仅可以获取到语音识别的文本特征，而且还可以得到语音的声学特征，在最终由语音文本混合子系统识别时给语音的语义理解提供能够更加丰富的信息，从而显著地提升用于对语音信号进行语义识别的准确率。

附图说明

图1为本发明实施例提供的一种用于对语音信号进行语义识别的系统结构示意图；

图2为本发明实施例提供的LAS的机构示意图；

图3为本发明实施例提供的语音文本混合子系统结构示意图；

图4为本发明实施例提供的一种用于对语音信号进行语义识别的方法流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

从背景技术可以看出，造成电信通讯网络中语音信号的语义识别的准确率不高的原因主要是因为供应商提供的语音识别系统在识别语音时由于语音信号差而不准确，导致的对应文本不准确，而基于正则匹配方式或模糊匹配方式进一步对对应文本进行欺诈关键词的检索时，检索能力不够，无法理解结合对应文本的上下文理解对应文本的语义，导致了得到检索结果的准确率低。

为了解决这个问题，本发明实施例在电信通讯网络中设置基于LAS、BERT模型及基于神经网络构建的语音文本混合子系统，其中，电信通讯网络中的语音信号输入到LAS中进行语音识别后，得到高维声学特征表示及对应的文本信息，将对应的文本信息输入给BERT模型，将高维声学特征表示输入给语音文本混合子系统中；BERT模型对输入的对应的文本信息进行处理得到高维文本特征表示后，输入给语音文本混合子系统；语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理，得到用于对语音信号进行语义识别的语义识别结果。

由于本发明实施例在用于对语音信号进行语义识别时，不仅仅可以获取到语音识别的文本特征，而且还可以得到语音的声学特征，在最终由语音文本混合子系统识别时给语音的语义理解提供能够更加丰富的信息，从而显著地提升用于对语音信号进行语义识别的准确率。

具体地说，本发明实施例在电信通讯网络中实现用于对语音信号进行语义识别时采用了LAS技术作为语义识别的基础框架，并结合了BERT模型对对应的文本信息进行准确地语义理解后，最终使用采用音+语音多模态技术构建基于神经网络的语音文本混合子系统进行分类处理，得到最终的语义识别结果。

图1为本发明实施例提供的一种用于对语音信号进行语义识别的系统结构示意图，所述系统设置在电信通信网络中，包括：LAS、BERT模型及基于神经网络构建的语音文本混合子系统，其中，

从该系统可以看出，LAS主要用于将语音信号转换为文本且从中提取出高维声表示，而BERT模型主要对文本信息进行准确语义的理解，得出高维文本特征表示，而语音文本混合子系统在进行分类处理时，则基于高维声学特征表示和高维文本特征表示得出用于对语音信号进行语义识别的语义识别结果，使得得到的识别结果更加准确。

所述系统应用在所述电信通讯网络中的反电信诈骗业务中，所述语音文本混合子系统，还用户进行分类处理，得到的语义识别结果为电信诈骗语音或非电信诈骗语音。

在这里，高维声学特征表示及高维文本特征表示分别是采用向量表示的，高维的含义是向量的纬度设定的比较高，比如设定为至少大于三维的设定纬度，其向量中的信息表示含量比较多。具体高维声学特征表示及高维文本特征表示的纬度，分别是由LAS和BERT模型确定的。

以下对该系统的每个模块进行详细说明。

图2为本发明实施例提供的LAS的机构示意图，该LDS由编码(encoder)模块、注意力机制(Attention)模块及解码(decoder)模块组成，其中，

实际上，LAS也是神经网络的一种，其是经过训练构建得到的。在训练时，采用了公式(1)表示的神经网络进行训练，

其中，θ表示LAS采用的神经网络参数，x表示语音信号，y表示语音信号对应的预测语义，通过优化语音信号对应语义的最大似然函数，来不断更新迭代模型参数θ，从而完成LAS的训练，训练结束后。在训练结束后，得到训练好的LAS，通过训练好的LAS就可以对语音信号进行处理，得到高维声学特征表示及对应的文本信息。

BERT模型是当前自然语音理解(NLU)网络最流行且效果最优的语义预训练模型，其通过定于掩码语言模型(Mask Language Model)这个任务，通过海量的无监督文本预料，就可以学习到文本特征表示，供下游的NLU网络使用。本发明实施例通过互联网抓取海量的无监督文本预料，使得BERT模型进行预训练。在使用经过了预训练的BERT模型时，则将LAS输出的对应的文本信息输入到该BERT模型中，获得高维文本特征表示，得到的高维文本特征有很强的语义信息。

图3为本发明实施例提供的语音文本混合子系统结构示意图，包括：池化层模块及多层感知(MLP)自然语言神经子网络，其中，

本发明实施例的语音文本混合子系统是经过训练得到的，其在进行分类处理时，不仅仅依据了BERT模型处理后的语义特征，而且还依据了LAS识别得到的高纬度声学特征，所以在进行分类时更加准确。

图4为本发明实施例提供的一种用于对语音信号进行语义识别方法流程图，其具体步骤包括：

步骤401、在电信通讯网络中设置基于LAS、BERT模型及基于神经网络构建的语音文本混合子系统；

步骤402、电信通讯网络中的语音信号输入到LAS中进行语音识别后，得到高维声学特征表示及对应的文本信息，将语音识别结果输入给BERT模型，将高维声学特征表示输入给语音文本混合子系统中；

步骤403、BERT模型对输入的对应的文本信息果进行处理得到高维文本特征表示后，输入给语音文本混合子系统；

步骤404、语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理，得到语义识别结果。

所述方法应用在所述电信通讯网络中的反电信诈骗业务中，所述语音文本混合子系统进行分类处理时，得到的语义识别结果为电信诈骗语音或非电信诈骗语音。在该方法中，LAS是经过训练得到的，LAS是基于注意力机制的神经网络；BERT模型是采用了海量的无监督文本预料经过了预训练后得到的，其可以准确对对应的文本信息进行准确的语义理解；语音文本混合子系统是经过训练得到的，其根据LAS得到的高维声学特征表示及BERT模型得到的高纬文本特征表示，进行分类处理，得到了最终的语义识别结果。

可以看出，本发明实施例针对电信通讯网络中的电信反诈骗应用，可以将语音信号转换为诈骗类型的分类结果，整个任务核心技术形成闭环，可以有效地针对电信业务的痛点进行有效地解决，并且将语音识别和语义理解解耦成功能模块，可以单独使用，于此同时还在其中设置了语音文本混合子系统来综合处理声学特征和文本特征，有效提升业务场景的性能。

本发明实施例通过使用海量的无监督文本预料对BERT模型进行预训练，将语音识别结果进行高维度的语义特征表示出，有效地降低了文本的标注数量，并且可以非常高准确度地进行诈骗类型分类。本发明实施例在使用BERT模型编码得到高维度语义特征表示的同时，还综合使用语音信号的高维度声学特征表示，缓解由于语音识别准确的不够导致诈骗分类不准确的问题；结合语音和文本，使得电信通讯网络在进行诈骗语义识别时的性能和准确率大幅提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用于对语音信号进行语义识别的系统，其特征在于，所述系统设置在电信通信网络中，包括：基于注意力机制的端到端系统LAS、BERT模型及语音文本混合子系统，其中，

2.如权利要求1所述的系统，其特征在于，所述LAS是采用基于注意力机制的神经网络训练得到的，由编码模块、注意力机制模块及解码模块组成，其中，

3.如权利要求1或2所述的系统，其特征在于，所述LAS在训练时采用

进行训练，

4.如权利要求1所述的系统，其特征在于，所述BERT模型采用无监督文本预料进行预训练后得到。

5.如权利要求1所述的系统，其特征在于，所述语音文本混合子系统采用神经网络训练得到，包括：池化层模块及多层感知MLP自然语言神经子网络，其中，

6.如权利要求1所述的系统，其特征在于，所述系统应用在所述电信通讯网络中的反电信诈骗业务中，所述语音文本混合子系统，还用户进行分类处理，得到的语义识别结果为电信诈骗语音或非电信诈骗语音。

7.一种用于对语音信号进行语义识别的方法，其特征在于，该方法包括：

8.如权利要求7所述的方法，其特征在于，所述LAS是采用基于注意力机制的神经网络训练得到的；

所述BERT模型是采用无监督文本预料经过预训练后得到的；

所述语音文本混合子系统采用神经网络训练得到的。

9.如权利要求7所述的方法，其特征在于，所述方法应用在所述电信通讯网络中的反电信诈骗业务中，所述语音文本混合子系统进行分类处理时，得到的语义识别结果为电信诈骗语音或非电信诈骗语音。