CN114550741A

CN114550741A - 一种语义识别的方法和系统

Info

Publication number: CN114550741A
Application number: CN202011338810.XA
Authority: CN
Inventors: 王一; 鲁哲宇
Original assignee: Shaoxing Qiwu Network Technology Co ltd
Current assignee: Shaoxing Qiwu Network Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-05-27

Abstract

本发明涉及计算机技术领域，尤其为一种语义识别的方法和系统，包括以下步骤：S1，语音信号的采样和量化；S2，通过预处理模块对输入的原始语音信号进行处理；S3，特征提取；S4，语音解码和搜索算法；S5，文本输出，通过特征提取从语音信号中提取出语音的特征序列，提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量；声学模型训练用lstm+ctc训练，得到语音特征到音素的映射；语言模型训练用SRILM工具做LM的训练得到3‑gram and 4‑gram，是词与词、词与句子的映射；字典是字词对应的音素index集合，是字词和音素之间的映射，能够有效的提高语义分析的准确度。

Description

一种语义识别的方法和系统

技术领域

本发明涉及计算机技术领域，具体为一种语义识别的方法和系统。

背景技术

随着人工智能技术的发展，对句子的语义识别逐渐发展起来，对句子的语义识别可以应用到各种场景中，其中，运用最广泛的就是电子商务中处理投诉信息且确定对应的定责信息，以下以电子商务中处理投诉信息且确定对应的定责信息，对如何具体进行句子的语义识别进行说明。

随着计算机及互联网技术的发展，电子商务逐渐发展起来。电子商务(ElectronicCommerce)是以信息网络技术为手段，以商品交换为中心的商务活动。随着电子商务的发展，由电子商务服务商基于互联网提供售卖商品的服务，使得人们可以在家直接方便地进行网上购物。在电子商务提供各种服务时，常常通过互联网在电子商务服务商与客户之间进行通信，以沟通各种服务相关事宜。其中，客户在进行电子商务过程中，常常会对电子商务的各个环节作出评价，在此过程中，也可能产生投诉信息，且将投诉发送给电子商务服务商，电子商务服务商在接收到后，对投诉信息进行分析，确定对应的确定定责信息，从而完成整个电子商务过程。

现有的电子商务服务商在处理投诉信息且确定对应的定责信息时，主要采用人工与机器学习算法的结合方式来完成。具体地说，将接收到的投诉信息拼接在一起，构成长文本，再基于所构成的长文本采用设置的机器学习算法，对长文本进行文本分类，得到对应的定责信息，从而实现定责问题。

为了能够更好的分析和实现计算机客服的对话交流，实现准确的识别语义信息，因此需要一种语义识别的方法和系统对上述问题做出改善。

发明内容

本发明的目的在于提供一种语义识别的方法和系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种语义识别的方法和系统，包括以下步骤：

S1，语音信号的采样和量化；

S2，通过预处理模块对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的，将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)、语音信号的加窗处理；

S3，特征提取：去除语音信号中对于语音识别无用的冗余信息，保留能够反映语音本质特征的信息，并用一定的形式表示出来，也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列，以便用于后续处理；

S4，语音解码和搜索算法；

S5，文本输出。

优选的，所述S1语音信号的采样和量化，语音信号是一个时间和幅度都连续变化的一维模拟信号，而语音识别的过程是一个对语音信号进行数字处理的过程，在对语音信号处理之前，必须要对其进行数字化，这个过程就是模/数(A/D)转化、模/数转化过程要经过采样和量化两个过程，从而得到时间和幅度上的离散数字信号，根据奈奎斯特采样定律，采样频率应为原始信号频率的两倍以上，才能使采样过程中不会丢失信息，而且能从采样信号中准确的重构原始信号的波形，正常人的发音范围是从40Hz到340OHz左右。

优选的，所述S2语音信号的预加重语音信号从嘴唇辐射后，高频端大约在800Hz以上有6dB/倍频的衰减，因此，在对语音信号进行分析之前，一般要对语音信号加以提升(预加重)。

优选的，所述S2语音信号的加窗处理为了能对语音信号进行处理，语音频谱特性和语音特征参数恒定，因此需将语音信号划分为一个一个的短时段，每一个短时段称为一帧，为了从语音信号中切去出样本信号，就要用时间窗函数乘以原始语音信号，这种操作就称为加窗。

优选的，所述S2语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段，准确的端点检测不仅可以减少计算量，而且可以提高系统的识别率，常用的端点检测是基于双门限比较法的端点检测，就是根据语音信号的特征参数(能量和过零率)进行清音，噪音判别，从而完成端点检测的，经过对语音信号的预处理之后就要进行特征参数的提取。

优选的，所述S3特征提取采用Sphinx，在sphinx中也是用MFCC特征的，MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数，在sphinx中，用帧frames去分割语音波形，每帧大概10ms，然后每帧提取可以代表该帧语音的39个数字，这39个数字也就是该帧语音的MFCC特征，用特征向量来表示。

优选的，所述S4语音解码和搜索算法包括语音数据库、特征提取、声学模型训练、声学模型、字典、语音模型、语音模型训练、文本数据库，所述算法选用主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法中的一种。

优选的，包括特征提取、声学模型、语音模型和字典，所述特征提取从语音信号中提取出语音的特征序列，提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量；

所述声学模型训练用lstm+ctc训练，得到语音特征到音素的映射；

所述语言模型训练用SRILM工具做LM的训练得到3-gram and 4-gram，是词与词、词与句子的映射；

所述字典是字词对应的音素index集合，是字词和音素之间的映射。

与现有技术相比，本发明的有益效果是：

本发明中，通过特征提取从语音信号中提取出语音的特征序列，提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量；声学模型训练用lstm+ctc训练，得到语音特征到音素的映射；语言模型训练用SRILM工具做LM的训练得到3-gram and 4-gram，是词与词、词与句子的映射；字典是字词对应的音素index集合，是字词和音素之间的映射，对语言文本进行语义分析映射，能够有效的提高语义分析的准确度。

附图说明

图1为本发明整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：

一种语义识别的方法和系统，包括以下步骤：

S1，语音信号的采样和量化；

S4，语音解码和搜索算法；

S5，文本输出。

所述S1语音信号的采样和量化，语音信号是一个时间和幅度都连续变化的一维模拟信号，而语音识别的过程是一个对语音信号进行数字处理的过程，在对语音信号处理之前，必须要对其进行数字化，这个过程就是模/数(A/D)转化、模/数转化过程要经过采样和量化两个过程，从而得到时间和幅度上的离散数字信号，根据奈奎斯特采样定律，采样频率应为原始信号频率的两倍以上，才能使采样过程中不会丢失信息，而且能从采样信号中准确的重构原始信号的波形，正常人的发音范围是从40Hz到340OHz左右。

所述S2语音信号的预加重语音信号从嘴唇辐射后，高频端大约在800Hz以上有6dB/倍频的衰减，因此，在对语音信号进行分析之前，一般要对语音信号加以提升(预加重)，“预加重的目的是滤除低频干扰，尤其是50Hz或者60Hz的工频干扰，提升对语音识别有用的高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析”。

所述S2语音信号的加窗处理为了能对语音信号进行处理，我们可以假定在1Oms～30ms之间语音信号是平稳的，语音频谱特性和语音特征参数恒定，因此需将语音信号划分为一个一个的短时段，每一个短时段称为一帧，为了从语音信号中切去出样本信号，就要用时间窗函数乘以原始语音信号，这种操作就称为加窗。

所述S2语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段，准确的端点检测不仅可以减少计算量，而且可以提高系统的识别率，常用的端点检测是基于双门限比较法的端点检测，就是根据语音信号的特征参数(能量和过零率)进行清音，噪音判别，从而完成端点检测的，经过对语音信号的预处理之后就要进行特征参数的提取。

所述S3特征提取采用Sphinx，在sphinx中也是用MFCC特征的，MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数，在sphinx中，用帧frames去分割语音波形，每帧大概10ms，然后每帧提取可以代表该帧语音的39个数字，这39个数字也就是该帧语音的MFCC特征，用特征向量来表示。

所述S4语音解码和搜索算法包括语音数据库、特征提取、声学模型训练、声学模型、字典、语音模型、语音模型训练、文本数据库，所述算法选用主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法中的一种。

一种语义识别系统，包括特征提取、声学模型、语音模型和字典，所述特征提取从语音信号中提取出语音的特征序列，提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量；

实施例：语音信号的采样和量化，语音信号是一个时间和幅度都连续变化的一维模拟信号，而语音识别的过程是一个对语音信号进行数字处理的过程，在对语音信号处理之前，必须要对其进行数字化，这个过程就是模/数(A/D)转化、模/数转化过程要经过采样和量化两个过程，从而得到时间和幅度上的离散数字信号，根据奈奎斯特采样定律，采样频率应为原始信号频率的两倍以上，才能使采样过程中不会丢失信息，而且能从采样信号中准确的重构原始信号的波形，正常人的发音范围是从40Hz到340OHz左右；具体来说就是输入一段语音信号，要找到一个文字序列(由字或者词组成)，使得它与语音信号的匹配程度最高，这个匹配程度，一般都是用概率来表示的，用X表示语音信号，用W表示文字序列，则要解的是下面这个问题：W^＊＝argmaxP(W|X)但是一般语音是由文字产生的，已知文字才能发出语音，所以对于上面的条件概率公式我们想要已知结果求该条件下发生概率，这时候自然而然就想到贝叶斯公式：

由于我们要优化W,P(X)可以看作常数，可以省略分母。由上边的步骤来看，求文字串、计算语言模型概率、求音素串、求音素分界点、计算声学模型概率几个步骤似乎是依次进行的。其实不然，在实际编码过程中，因为文字串、音素分界点都有非常多种可能，枚举是不现实的。实际中，这几个步骤同时进行并互相制约，随时砍掉不够优的可能，最终在可接受的时间内求出最优解：W^＊＝argmaxP(W|X)，通过预处理模块对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的，将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)、语音信号的加窗处理；语音信号的预加重语音信号从嘴唇辐射后，高频端大约在800Hz以上有6dB/倍频的衰减，因此，在对语音信号进行分析之前，一般要对语音信号加以提升(预加重)，“预加重的目的是滤除低频干扰，尤其是50Hz或者60Hz的工频干扰，提升对语音识别有用的高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析”；语音信号的加窗处理为了能对语音信号进行处理，我们可以假定在1Oms～30ms之间语音信号是平稳的，语音频谱特性和语音特征参数恒定，因此需将语音信号划分为一个一个的短时段，每一个短时段称为一帧，为了从语音信号中切去出样本信号，就要用时间窗函数乘以原始语音信号，这种操作就称为加窗；语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段，准确的端点检测不仅可以减少计算量，而且可以提高系统的识别率，常用的端点检测是基于双门限比较法的端点检测，就是根据语音信号的特征参数(能量和过零率)进行清音，噪音判别，从而完成端点检测的，经过对语音信号的预处理之后就要进行特征参数的提取；特征提取：特征提取采用Sphinx，在sphinx中也是用MFCC特征的，MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数，在sphinx中，用帧frames去分割语音波形，每帧大概10ms，然后每帧提取可以代表该帧语音的39个数字，这39个数字也就是该帧语音的MFCC特征，用特征向量来表示，也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列，以便用于后续处理；语音解码和搜索算，语音解码和搜索算法通过语音数据库、特征提取、声学模型训练、声学模型、字典、语音模型、语音模型训练、文本数据库，算法选用主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法中的一种对语言语义进行解码分析，通过特征提取从语音信号中提取出语音的特征序列，提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量；通过声学模型训练用lstm+ctc训练，得到语音特征到音素的映射；通过语言模型训练用SRILM工具做LM的训练得到3-gramand 4-gram，是词与词、词与句子的映射；通过字典是字词对应的音素index集合，是字词和音素之间的映射，对文本语义分析输出。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种语义识别的方法，其特征在于：包括以下步骤：

S1，语音信号的采样和量化；

S4，语音解码和搜索算法；

S5，文本输出。

2.根据权利要求1所述的一种语义识别的方法，其特征在于：所述S1语音信号的采样和量化，语音信号是一个时间和幅度都连续变化的一维模拟信号，而语音识别的过程是一个对语音信号进行数字处理的过程，在对语音信号处理之前，必须要对其进行数字化，这个过程就是模/数(A/D)转化、模/数转化过程要经过采样和量化两个过程，从而得到时间和幅度上的离散数字信号，根据奈奎斯特采样定律，采样频率应为原始信号频率的两倍以上，才能使采样过程中不会丢失信息，而且能从采样信号中准确的重构原始信号的波形，正常人的发音范围是从40Hz到340OHz左右。

3.根据权利要求1所述的一种语义识别的方法，其特征在于：所述S2语音信号的预加重语音信号从嘴唇辐射后，高频端大约在800Hz以上有6dB/倍频的衰减，因此，在对语音信号进行分析之前，一般要对语音信号加以提升(预加重)。

4.根据权利要求1所述的一种语义识别的方法，其特征在于：所述S2语音信号的加窗处理为了能对语音信号进行处理，语音频谱特性和语音特征参数恒定，因此需将语音信号划分为一个一个的短时段，每一个短时段称为一帧，为了从语音信号中切去出样本信号，就要用时间窗函数乘以原始语音信号，这种操作就称为加窗。

5.根据权利要求1所述的一种语义识别的方法，其特征在于：所述S2语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段，准确的端点检测不仅可以减少计算量，而且可以提高系统的识别率，常用的端点检测是基于双门限比较法的端点检测，就是根据语音信号的特征参数(能量和过零率)进行清音，噪音判别，从而完成端点检测的，经过对语音信号的预处理之后就要进行特征参数的提取。

6.根据权利要求1所述的一种语义识别的方法，其特征在于：所述S3特征提取采用Sphinx，在sphinx中也是用MFCC特征的，MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数，在sphinx中，用帧frames去分割语音波形，每帧大概10ms，然后每帧提取可以代表该帧语音的39个数字，这39个数字也就是该帧语音的MFCC特征，用特征向量来表示。

7.根据权利要求1所述的一种语义识别的方法，其特征在于：所述S4语音解码和搜索算法包括语音数据库、特征提取、声学模型训练、声学模型、字典、语音模型、语音模型训练、文本数据库，所述算法选用主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法中的一种。

8.一种语义识别系统，包括特征提取、声学模型、语音模型和字典，其特征在于：

所述特征提取从语音信号中提取出语音的特征序列，提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量；