CN112992131A

CN112992131A - 一种在复杂场景下提取目标人声的乒乓球指令的方法

Info

Publication number: CN112992131A
Application number: CN202110155034.8A
Authority: CN
Inventors: 李晓飞; 张竹松
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-18

Abstract

本发明公开了一种在复杂场景下提取目标人声的乒乓球指令的方法，建立一个语音分离的系统，该系统包括三个部分，一是语音降噪，二是语音分离，三是声纹识别。对一个由多重噪声干扰的声音，首先经过语音降噪的处理，将环境噪声给去除。下一阶段的目标就是将目标语音和其他不同人说话的声音分离开。我们将语音传入到语音分离的系统当中进行处理，在语音分离的系统中会对语音进行分离，输出的是分离之后的各个不同人说话的语音。最后一步就是识别出分离出来的语音哪个是我们所需要的，我们采用声纹识别的方式，来获取我们所需要的语音。在此之前我们已经记录了用户的声纹，我们一一进行对比，就可以获得相对纯净的，没有干扰的目标语音。

Description

一种在复杂场景下提取目标人声的乒乓球指令的方法

技术领域

本发明涉及一种在复杂场景下提取目标人声的乒乓球指令的方法，属于远场语音识别技术领域。

背景技术

随着社会的快速发展，人们的生活方式也越来越多样化和智能化。在乒乓球训练上，传统的训练方式都是寻找一个陪练，再寻找一个教练。在与陪练训练的同时，教练在旁边观察你的打球方式，以便发现你身上存在的问题，来进行针对性的训练。这种传统的训练方式耗费大量的人力和钱财，而且训练的效果还不好。以此我们提出了更加智能的乒乓球训练方式。采用语音控制的乒乓球发球机。常规的乒乓球发球机都是采用遥控器控制的，并不是非常的智能。为此我们破解了遥控器，使用语音来对发球机控制。遥控器所拥有的功能，语音控制都能完成。在语音控制上，我们必须准确的识别用户所发出的乒乓球指令，然而在进行乒乓球训练时，所处的环境并不是安静的。而是一个非常复杂的环境，包括乒乓球发球机自己的噪声，乒乓球落地之后乒乒乓乓的声音，最严重的干扰还是其他不同人说话的声音。众多的声音混杂在一起，使得想要准确的识别用户所发出的指令变得异常困难，即使提取出来，也有可能不是完整的指令集，导致乒乓球发球机不能正常的工作。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种在复杂场景下提取目标人声的乒乓球指令的方法。

为达到上述目的，本发明提供一种在复杂场景下提取目标人声的乒乓球指令的方法，包括以下步骤：

语音采集设备在乒乓球馆实时采集以打乒乓球为背景的噪声信号，采集到的噪声信号包含不同人说话的声音、环境噪声和乒乓球碰撞的声音；

为分析采集到的噪声信号，对噪声信号进行建模仿真处理，分析噪声信号的统计特性，建立乒乓球训练背景下的噪声信号模型，去除噪声信号中的环境噪声，只保留不同人说话的声音；

采用声纹提取模块对训练人员的声音进行采集，记录下每个训练人员的声音特征；

设定乒乓球发球机指令，乒乓球发球机指令包括乒乓球发球机的发球指令、乒乓球发球机的关机指令、乒乓球发球机的唤醒指令和乒乓球发球机的开机指令；

实时重复采集噪声信号，基于噪声信号模型来去除噪声信号中的乒乓球碰撞的声音，只保留不同人说话的声音；

不同人说话的声音与记录的训练人员的声音特征对比并判断是否有相互匹配的，有匹配的则识别不同人说话的声音中是否有乒乓球发球机指令，如果有乒乓球发球机指令则乒乓球发球机执行相应动作。

优先地，由于输入的噪声信号是不平稳的，采用噪声估计法处理非平稳的噪声信号，公式如下：

其中，λ表示帧数，k表示频点索引，Y表示频域的带噪语音谱，σ表示噪声谱，α表示平滑因子，平滑因是固定值；

为了区别不同人的声音，利用不同人的语音特征MFCC的不同来判断，记录不同人的声纹特征，提取过程如下：

预加重处理：将语音信号通过一个高通滤波器进行滤波处理：

H(z)＝1-μz^-1；

其中，μ为常量，z是高通滤波器的自变量；

分帧先将N个噪声信号集合成一个观测单位，称为帧；

加窗：将每帧乘以一个汉明窗，以增加帧左端和帧右端的连续性；

其中，0≤n≤N-1,0<a<1,a取值的不同会产生不同的汉明窗；

快速傅里叶变换：

由于在时域上的变换通常很难看出不同人说话的声音的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布代表不同语音的特性；所以在每帧乘上汉明窗后，每帧再经过快速傅里叶变换以得到在频谱上的能量分布：

其中，0≤k≤N，其中x(n)表示输入的语音信号，j表示虚数，N表示傅里叶变换的点数；三角带通滤波器将频谱上的能量分布通过一组Mel尺度的滤波器组，定义一个有M个三角带通滤波器的滤波器组；

三角带通滤波器的滤波器组中，各f(m)之间的间隔随着m值的减小而缩小，随着m值得增大而增宽，三角带通滤波器的频率响应的公式如下：

其中，f(m)表示各个三角带通滤波器，0≤k≤N；

三角带通滤波器对频谱进行平滑化，并消除谐波的作用，突显不同人说话的声音的共振峰，降低运算量；

计算每个滤波器组输出的对数能量：

其中0≤m≤M，M为三角滤波器的个数；X_a(k)表示每帧信号的在频谱上的能量分布；

H_m(k)表示三角带通滤波器的频率响应；

对数能量进行离散余弦变换：

基于上述公式，获得噪声信号中不同人说话的声音的特征向量，根据不同人说话的声音的特征向量的不同判断噪声信号中哪个声音是训练人员发出的声音。

优先地，如果不同人说话的声音与记录的训练人员的声音特征对比后判断为不匹配，则乒乓球发球机不动作；

如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配，则判断不同人说话的声音中是否有乒乓球发球机的发球指令，如果有乒乓球发球机的发球指令则乒乓球发球机发球；

如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配，则判断不同人说话的声音中是否有乒乓球发球机的关机指令，如果有乒乓球发球机的关机指令则乒乓球发球机关机；

如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配，则判断不同人说话的声音中是否有乒乓球发球机的唤醒指令，如果有乒乓球发球机的唤醒指令则乒乓球发球机关闭节能模式并正常运行；

如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配，则判断不同人说话的声音中是否有乒乓球发球机的开机指令，如果有乒乓球发球机的开机指令则乒乓球发球机开机。

优先地，包括语音降噪模块，收集打乒乓球时的噪声信号，基于仿真建模之后得到的噪声信号模型去除噪声信号中的环境噪声，环境噪声包括乒乓球碰撞的声音和人走路声音。

优先地，包括：

语音分离模块，将训练人员的说话的声音与其他人说话声分离；

声纹识别模块，识别训练人员所发出的乒乓球发球机指令。

优先地，利用仿真处理之后获得的噪声信号模型完成对环境噪声的消除；

将环境噪声消除之后的噪声信号作为语音分离模块的输入，并进行语音分离；

将训练人员发出的乒乓球发球机指令和其他人说话声分离；

语音分离模块的输出就是每个人说话的语音；

声纹识别模块，以每个人说话的语音为输入，进行声纹识别来判断分离之后的哪个语音是属于训练人员的声音特征。

优先地，在比较安静的场合下，让训练人员读一篇文章，同时语音采集设备采集训练人员的声音，以此来记录训练人员的声纹特征。

优先地，噪声信号基于训练人员佩戴的蓝牙耳机或麦克风采集。

优先地，μ的值介于0.9–1.0之间，通常取0.97；N的值为256或512，涵盖的时间为20～30ms；a取0.46；M取22-26。

本发明所达到的有益效果：

传统的乒乓球训练中需要另一个人进行陪练，费时费力费钱，如果没有专业的人进行指导其效果也是不佳，难以提高水平，智能乒乓球训练解决了上述的问题，根据发球指令的不同我们进行不同的训练。本发明解决了在嘈杂环境中使发球机能够准确识别哪个声音是训练人员发出的乒乓球指令而过滤掉其他无关的声音。使得训练人员在进行乒乓球训练中更加的有效，方便。

附图说明

图1是整个系统流程图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

一种在复杂场景下提取目标人声的乒乓球指令的方法，包括以下步骤：

语音采集设备在乒乓球馆采集以打乒乓球为背景的噪声信号，采集到的噪声信号包含人说话声和乒乓球碰撞等环境噪声；

采用声纹提取模块对训练人员的声纹进行采集，记录下每个训练人员的声音特征；

设定乒乓球发球机指令，包括乒乓球发球机的发球指令、乒乓球发球机的关机指令、乒乓球发球机的唤醒指令和乒乓球发球机的开机指令；

对乒乓球发球机设置唤醒指令，当训练人员唤醒乒乓球发球机之后，通过麦克风收集噪声信号；

基于噪声信号模型来去除噪声信号中的乒乓球碰撞的声音，只保留人说话声；

人说话声与记录的声音特征对比并判断是否有相互匹配的，有匹配的则识别人说话声中是否有乒乓球发球机指令，如果有乒乓球发球机指令则乒乓球发球机执行相应动作。

优先地，如果人说话声与记录的声音特征对比后判断为不匹配，则乒乓球发球机不动作；

如果人说话声与记录的声音特征对比后判断为匹配，则判断人说话声中是否有乒乓球发球机的发球指令，如果有乒乓球发球机的发球指令则乒乓球发球机发球；

如果人说话声与记录的声音特征对比后判断为匹配，则判断人说话声中是否有乒乓球发球机的关机指令，如果有乒乓球发球机的关机指令则乒乓球发球机关机；

如果人说话声与记录的声音特征对比后判断为匹配，则判断人说话声中是否有乒乓球发球机的唤醒指令，如果有乒乓球发球机的唤醒指令则乒乓球发球机关闭节能模式并正常运行；

如果人说话声与记录的声音特征对比后判断为匹配，则判断人说话声中是否有乒乓球发球机的开机指令，如果有乒乓球发球机的开机指令则乒乓球发球机开机。

优先地，包括：

语音分离模块，将训练人员的人说话声与其他人说话声分离；

声纹识别模块，利用声纹识别训练人员所发出的乒乓球发球机指令。

将环境噪声消除之后的语音信号作为语音分离模块的输入，进行语音分离；

将训练人员发出的乒乓球发球机指令和其他人的说话声分离；

语音分离模块的输出就是每个人说话的语音；

声纹识别模块，以每个人说话的语音为输入，进行声纹识别来判断分离之后的哪个语音是属于训练人员的声音特征；

优先地，噪声信号基于训练人员佩戴的蓝牙耳机采集。

语音采集设备为麦克风，语音降噪模块、语音分离模块和声纹识别模块上述部件在现有技术中可采用的型号很多，本领域技术人员可根据实际需求选用合适的型号，本实施例不再一一举例。

语音识别的基本原理就是通过麦克风收集到我们说的语音之后，对语音进行一系列处理的过程，包括使用移动窗函数进行分帧处理，然后将帧识别成状态，把状态组合成音素，把因素组合成单词。以上语音识别的前提是语音是纯净的语音，但在本项目中存在很多的噪声的干扰。去除相应的干扰之后，再进行准确的语音识别转化为文本信息，我们再利用获得的文本信息来控制乒乓球发球机的发球。

在本发明中的唤醒词的作用是让乒乓球发球机处于工作状态，乒乓球发球机在识别唤醒词之前，对其他的乒乓球指令集不做任何的回应。识别唤醒词之后，才对目标用户说出来的乒乓球指令集进行识别。

当识别训练人员的唤醒指令时，乒乓球发球机进入工作状态，利用麦克风接受训练人员所说出来的乒乓球指令集，在打乒乓球这个场景之下，会接收到训练人员的声音和其他人的交谈声以及环境噪声。为此我们必须去除环境噪声，分离训练人员的乒乓球指令和其他人说话声。

首先我们将噪声信号输入到一个语音降噪的系统中，利用仿真处理之后获得的噪声频谱完成对环境噪声的消除。由于输入的噪声信号是不平稳的，用传统的基于数字信号处理的方法不能达到可靠的处理效果，比如谱减法和滤波法。为此我们采用用于处理非平稳噪声的噪声估计法，算法原理如下：

这里λ表示帧数，k表示频点索引，Y表示频域的带噪语音谱，σ表示噪声谱，α表示平滑因子，这类噪声估计算法就是要求出时频相关平滑因子，然后就可以用上式来估计噪声，平滑因子可以基于信噪比来求，也可以是一个固定的值。但更常用的是基于频点k处语音存在或不存在的概率来计算。利用估计出来的噪声谱，就可以消除带噪语音中的乒乓球的声音，就可以获得只包含人说话声的语音数据。

经过上一步得到只包含人说话声的语音数据，为了得到训练人员发出的乒乓球指令，需要进一步进行语音分离，将训练人员发出的乒乓球指令和其他人说话声分离开。将上一步得到的语音作为语音分离模块的输入，并进行语音分离。语音分离模块的输出就是各个人说话的语音数据。具体过程如下：

构建一个语音分离的模块，该模块采用TasNet(Time-domain Audio SeparationNetwork)是时域的方法(直接输入混合语音，不经过STFT等变化得到声音特征)，由编码器、分离网络和解码组成，与频域方法相比，编码过程不是固定的而是网络学到的(通过分离网络得到两个mask，学到的mask与编码器输出相乘再经过解码器得分离的声音，训练过程使用PIT方法，编解码器都是一维卷积(相当于全连接层线性变换)。编码器Encoder实质上是一个线性变换，将16维输入信号变为512维，这个变换过程相当于做匹配滤波，Encoder的512维的权重就是匹配滤波的权重。而解码器是与编码器相反的过程，将编码器的512维的输出和分离网络输出的mask的点乘结果作为输入，做线性变换后得到分离的语音信号。在训练过程中，编码器和解码器不一定是可逆的，不需要对编码器和解码器做额外要求。TasNet核心工作：提出使用时域音频分离网络，即编码器-解码器框架直接在时域对信号建模，并在非负编码器输出上执行声源分离。

声纹识别就是两种语音放在一起进行对比，基于此必须获得语音的特征。最常用的语音特征就是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以，人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。语音特征MFCC提取过程如下：

预加重处理其实是将语音信号通过一个高通滤波器

H(z)＝1-μz^-1；

分帧先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右；预加重的目的是提升高频部分，使信号的频谱变得平坦。

加窗

快速傅里叶变换：

三角带通滤波器

三角带通滤波器有两个主要目的：对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。此外，还可以降低运算量。

计算每个滤波器组输出的对数能量：

离散余弦变换

经过上述过程就可以获得语音数据的特征向量，获得特征向量之后就可以对其进行识别。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种在复杂场景下提取目标人声的乒乓球指令的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法，其特征在于，由于输入的噪声信号是不平稳的，采用噪声估计法处理非平稳的噪声信号，公式如下：

H(z)＝1-μz^-1；

其中，μ为常量，z是高通滤波器的自变量；

分帧先将N个噪声信号集合成一个观测单位，称为帧；

其中，0≤n≤N-1,0<a<1,a取值的不同会产生不同的汉明窗；

快速傅里叶变换：

其中，0≤k≤N，其中x(n)表示输入的语音信号，j表示虚数，N表示傅里叶变换的点数；

三角带通滤波器将频谱上的能量分布通过一组Mel尺度的滤波器组，定义一个有M个三角带通滤波器的滤波器组；

其中，f(m)表示各个三角带通滤波器，0≤k≤N；

计算每个滤波器组输出的对数能量：

H_m(k)表示三角带通滤波器的频率响应；

对数能量进行离散余弦变换：

3.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法，其特征在于，如果不同人说话的声音与记录的训练人员的声音特征对比后判断为不匹配，则乒乓球发球机不动作；

4.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法，其特征在于，包括语音降噪模块，收集打乒乓球时的噪声信号，基于仿真建模之后得到的噪声信号模型去除噪声信号中的环境噪声，环境噪声包括乒乓球碰撞的声音和人走路声音。

5.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法，其特征在于，包括：

声纹识别模块，识别训练人员所发出的乒乓球发球机指令。

6.根据权利要求5所述的一种在复杂场景下提取目标人声的乒乓球指令的方法，其特征在于，利用仿真处理之后获得的噪声信号模型完成对环境噪声的消除；

将训练人员发出的乒乓球发球机指令和其他人说话声分离；

语音分离模块的输出就是每个人说话的语音；

7.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法，其特征在于，在比较安静的场合下，让训练人员读一篇文章，同时语音采集设备采集训练人员的声音，以此来记录训练人员的声纹特征。

8.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法，其特征在于，噪声信号基于训练人员佩戴的蓝牙耳机或麦克风采集。

9.根据权利要求2所述的一种在复杂场景下提取目标人声的乒乓球指令的方法，其特征在于，μ的值介于0.9–1.0之间，通常取0.97；N的值为256或512，涵盖的时间为20～30ms；a取0.46；M取22-26。