CN112992131A - 一种在复杂场景下提取目标人声的乒乓球指令的方法 - Google Patents
一种在复杂场景下提取目标人声的乒乓球指令的方法 Download PDFInfo
- Publication number
- CN112992131A CN112992131A CN202110155034.8A CN202110155034A CN112992131A CN 112992131 A CN112992131 A CN 112992131A CN 202110155034 A CN202110155034 A CN 202110155034A CN 112992131 A CN112992131 A CN 112992131A
- Authority
- CN
- China
- Prior art keywords
- voice
- ping
- voices
- noise
- pong
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000926 separation method Methods 0.000 claims abstract description 30
- 230000007613 environmental effect Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000009467 reduction Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 48
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005094 computer simulation Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种在复杂场景下提取目标人声的乒乓球指令的方法,建立一个语音分离的系统,该系统包括三个部分,一是语音降噪,二是语音分离,三是声纹识别。对一个由多重噪声干扰的声音,首先经过语音降噪的处理,将环境噪声给去除。下一阶段的目标就是将目标语音和其他不同人说话的声音分离开。我们将语音传入到语音分离的系统当中进行处理,在语音分离的系统中会对语音进行分离,输出的是分离之后的各个不同人说话的语音。最后一步就是识别出分离出来的语音哪个是我们所需要的,我们采用声纹识别的方式,来获取我们所需要的语音。在此之前我们已经记录了用户的声纹,我们一一进行对比,就可以获得相对纯净的,没有干扰的目标语音。
Description
技术领域
本发明涉及一种在复杂场景下提取目标人声的乒乓球指令的方法,属于远场语音识别技术领域。
背景技术
随着社会的快速发展,人们的生活方式也越来越多样化和智能化。在乒乓球训练上,传统的训练方式都是寻找一个陪练,再寻找一个教练。在与陪练训练的同时,教练在旁边观察你的打球方式,以便发现你身上存在的问题,来进行针对性的训练。这种传统的训练方式耗费大量的人力和钱财,而且训练的效果还不好。以此我们提出了更加智能的乒乓球训练方式。采用语音控制的乒乓球发球机。常规的乒乓球发球机都是采用遥控器控制的,并不是非常的智能。为此我们破解了遥控器,使用语音来对发球机控制。遥控器所拥有的功能,语音控制都能完成。在语音控制上,我们必须准确的识别用户所发出的乒乓球指令,然而在进行乒乓球训练时,所处的环境并不是安静的。而是一个非常复杂的环境,包括乒乓球发球机自己的噪声,乒乓球落地之后乒乒乓乓的声音,最严重的干扰还是其他不同人说话的声音。众多的声音混杂在一起,使得想要准确的识别用户所发出的指令变得异常困难,即使提取出来,也有可能不是完整的指令集,导致乒乓球发球机不能正常的工作。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种在复杂场景下提取目标人声的乒乓球指令的方法。
为达到上述目的,本发明提供一种在复杂场景下提取目标人声的乒乓球指令的方法,包括以下步骤:
语音采集设备在乒乓球馆实时采集以打乒乓球为背景的噪声信号,采集到的噪声信号包含不同人说话的声音、环境噪声和乒乓球碰撞的声音;
为分析采集到的噪声信号,对噪声信号进行建模仿真处理,分析噪声信号的统计特性,建立乒乓球训练背景下的噪声信号模型,去除噪声信号中的环境噪声,只保留不同人说话的声音;
采用声纹提取模块对训练人员的声音进行采集,记录下每个训练人员的声音特征;
设定乒乓球发球机指令,乒乓球发球机指令包括乒乓球发球机的发球指令、乒乓球发球机的关机指令、乒乓球发球机的唤醒指令和乒乓球发球机的开机指令;
实时重复采集噪声信号,基于噪声信号模型来去除噪声信号中的乒乓球碰撞的声音,只保留不同人说话的声音;
不同人说话的声音与记录的训练人员的声音特征对比并判断是否有相互匹配的,有匹配的则识别不同人说话的声音中是否有乒乓球发球机指令,如果有乒乓球发球机指令则乒乓球发球机执行相应动作。
优先地,由于输入的噪声信号是不平稳的,采用噪声估计法处理非平稳的噪声信号,公式如下:
其中,λ表示帧数,k表示频点索引,Y表示频域的带噪语音谱,σ表示噪声谱,α表示平滑因子,平滑因是固定值;
为了区别不同人的声音,利用不同人的语音特征MFCC的不同来判断,记录不同人的声纹特征,提取过程如下:
预加重处理:将语音信号通过一个高通滤波器进行滤波处理:
H(z)=1-μz-1;
其中,μ为常量,z是高通滤波器的自变量;
分帧先将N个噪声信号集合成一个观测单位,称为帧;
加窗:将每帧乘以一个汉明窗,以增加帧左端和帧右端的连续性;
其中,0≤n≤N-1,0<a<1,a取值的不同会产生不同的汉明窗;
快速傅里叶变换:
由于在时域上的变换通常很难看出不同人说话的声音的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布代表不同语音的特性;所以在每帧乘上汉明窗后,每帧再经过快速傅里叶变换以得到在频谱上的能量分布:
其中,0≤k≤N,其中x(n)表示输入的语音信号,j表示虚数,N表示傅里叶变换的点数;三角带通滤波器将频谱上的能量分布通过一组Mel尺度的滤波器组,定义一个有M个三角带通滤波器的滤波器组;
三角带通滤波器的滤波器组中,各f(m)之间的间隔随着m值的减小而缩小,随着m值得增大而增宽,三角带通滤波器的频率响应的公式如下:
其中,f(m)表示各个三角带通滤波器,0≤k≤N;
三角带通滤波器对频谱进行平滑化,并消除谐波的作用,突显不同人说话的声音的共振峰,降低运算量;
计算每个滤波器组输出的对数能量:
其中0≤m≤M,M为三角滤波器的个数;Xa(k)表示每帧信号的在频谱上的能量分布;
Hm(k)表示三角带通滤波器的频率响应;
对数能量进行离散余弦变换:
基于上述公式,获得噪声信号中不同人说话的声音的特征向量,根据不同人说话的声音的特征向量的不同判断噪声信号中哪个声音是训练人员发出的声音。
优先地,如果不同人说话的声音与记录的训练人员的声音特征对比后判断为不匹配,则乒乓球发球机不动作;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的发球指令,如果有乒乓球发球机的发球指令则乒乓球发球机发球;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的关机指令,如果有乒乓球发球机的关机指令则乒乓球发球机关机;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的唤醒指令,如果有乒乓球发球机的唤醒指令则乒乓球发球机关闭节能模式并正常运行;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的开机指令,如果有乒乓球发球机的开机指令则乒乓球发球机开机。
优先地,包括语音降噪模块,收集打乒乓球时的噪声信号,基于仿真建模之后得到的噪声信号模型去除噪声信号中的环境噪声,环境噪声包括乒乓球碰撞的声音和人走路声音。
优先地,包括:
语音分离模块,将训练人员的说话的声音与其他人说话声分离;
声纹识别模块,识别训练人员所发出的乒乓球发球机指令。
优先地,利用仿真处理之后获得的噪声信号模型完成对环境噪声的消除;
将环境噪声消除之后的噪声信号作为语音分离模块的输入,并进行语音分离;
将训练人员发出的乒乓球发球机指令和其他人说话声分离;
语音分离模块的输出就是每个人说话的语音;
声纹识别模块,以每个人说话的语音为输入,进行声纹识别来判断分离之后的哪个语音是属于训练人员的声音特征。
优先地,在比较安静的场合下,让训练人员读一篇文章,同时语音采集设备采集训练人员的声音,以此来记录训练人员的声纹特征。
优先地,噪声信号基于训练人员佩戴的蓝牙耳机或麦克风采集。
优先地,μ的值介于0.9–1.0之间,通常取0.97;N的值为256或512,涵盖的时间为20~30ms;a取0.46;M取22-26。
本发明所达到的有益效果:
传统的乒乓球训练中需要另一个人进行陪练,费时费力费钱,如果没有专业的人进行指导其效果也是不佳,难以提高水平,智能乒乓球训练解决了上述的问题,根据发球指令的不同我们进行不同的训练。本发明解决了在嘈杂环境中使发球机能够准确识别哪个声音是训练人员发出的乒乓球指令而过滤掉其他无关的声音。使得训练人员在进行乒乓球训练中更加的有效,方便。
附图说明
图1是整个系统流程图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
一种在复杂场景下提取目标人声的乒乓球指令的方法,包括以下步骤:
语音采集设备在乒乓球馆采集以打乒乓球为背景的噪声信号,采集到的噪声信号包含人说话声和乒乓球碰撞等环境噪声;
为分析采集到的噪声信号,对噪声信号进行建模仿真处理,分析噪声信号的统计特性,建立乒乓球训练背景下的噪声信号模型,去除噪声信号中的环境噪声,只保留不同人说话的声音;
采用声纹提取模块对训练人员的声纹进行采集,记录下每个训练人员的声音特征;
设定乒乓球发球机指令,包括乒乓球发球机的发球指令、乒乓球发球机的关机指令、乒乓球发球机的唤醒指令和乒乓球发球机的开机指令;
对乒乓球发球机设置唤醒指令,当训练人员唤醒乒乓球发球机之后,通过麦克风收集噪声信号;
基于噪声信号模型来去除噪声信号中的乒乓球碰撞的声音,只保留人说话声;
人说话声与记录的声音特征对比并判断是否有相互匹配的,有匹配的则识别人说话声中是否有乒乓球发球机指令,如果有乒乓球发球机指令则乒乓球发球机执行相应动作。
优先地,如果人说话声与记录的声音特征对比后判断为不匹配,则乒乓球发球机不动作;
如果人说话声与记录的声音特征对比后判断为匹配,则判断人说话声中是否有乒乓球发球机的发球指令,如果有乒乓球发球机的发球指令则乒乓球发球机发球;
如果人说话声与记录的声音特征对比后判断为匹配,则判断人说话声中是否有乒乓球发球机的关机指令,如果有乒乓球发球机的关机指令则乒乓球发球机关机;
如果人说话声与记录的声音特征对比后判断为匹配,则判断人说话声中是否有乒乓球发球机的唤醒指令,如果有乒乓球发球机的唤醒指令则乒乓球发球机关闭节能模式并正常运行;
如果人说话声与记录的声音特征对比后判断为匹配,则判断人说话声中是否有乒乓球发球机的开机指令,如果有乒乓球发球机的开机指令则乒乓球发球机开机。
优先地,包括语音降噪模块,收集打乒乓球时的噪声信号,基于仿真建模之后得到的噪声信号模型去除噪声信号中的环境噪声,环境噪声包括乒乓球碰撞的声音和人走路声音。
优先地,包括:
语音分离模块,将训练人员的人说话声与其他人说话声分离;
声纹识别模块,利用声纹识别训练人员所发出的乒乓球发球机指令。
优先地,利用仿真处理之后获得的噪声信号模型完成对环境噪声的消除;
将环境噪声消除之后的语音信号作为语音分离模块的输入,进行语音分离;
将训练人员发出的乒乓球发球机指令和其他人的说话声分离;
语音分离模块的输出就是每个人说话的语音;
声纹识别模块,以每个人说话的语音为输入,进行声纹识别来判断分离之后的哪个语音是属于训练人员的声音特征;
优先地,在比较安静的场合下,让训练人员读一篇文章,同时语音采集设备采集训练人员的声音,以此来记录训练人员的声纹特征。
优先地,噪声信号基于训练人员佩戴的蓝牙耳机采集。
语音采集设备为麦克风,语音降噪模块、语音分离模块和声纹识别模块上述部件在现有技术中可采用的型号很多,本领域技术人员可根据实际需求选用合适的型号,本实施例不再一一举例。
语音识别的基本原理就是通过麦克风收集到我们说的语音之后,对语音进行一系列处理的过程,包括使用移动窗函数进行分帧处理,然后将帧识别成状态,把状态组合成音素,把因素组合成单词。以上语音识别的前提是语音是纯净的语音,但在本项目中存在很多的噪声的干扰。去除相应的干扰之后,再进行准确的语音识别转化为文本信息,我们再利用获得的文本信息来控制乒乓球发球机的发球。
在本发明中的唤醒词的作用是让乒乓球发球机处于工作状态,乒乓球发球机在识别唤醒词之前,对其他的乒乓球指令集不做任何的回应。识别唤醒词之后,才对目标用户说出来的乒乓球指令集进行识别。
当识别训练人员的唤醒指令时,乒乓球发球机进入工作状态,利用麦克风接受训练人员所说出来的乒乓球指令集,在打乒乓球这个场景之下,会接收到训练人员的声音和其他人的交谈声以及环境噪声。为此我们必须去除环境噪声,分离训练人员的乒乓球指令和其他人说话声。
首先我们将噪声信号输入到一个语音降噪的系统中,利用仿真处理之后获得的噪声频谱完成对环境噪声的消除。由于输入的噪声信号是不平稳的,用传统的基于数字信号处理的方法不能达到可靠的处理效果,比如谱减法和滤波法。为此我们采用用于处理非平稳噪声的噪声估计法,算法原理如下:
这里λ表示帧数,k表示频点索引,Y表示频域的带噪语音谱,σ表示噪声谱,α表示平滑因子,这类噪声估计算法就是要求出时频相关平滑因子,然后就可以用上式来估计噪声,平滑因子可以基于信噪比来求,也可以是一个固定的值。但更常用的是基于频点k处语音存在或不存在的概率来计算。利用估计出来的噪声谱,就可以消除带噪语音中的乒乓球的声音,就可以获得只包含人说话声的语音数据。
经过上一步得到只包含人说话声的语音数据,为了得到训练人员发出的乒乓球指令,需要进一步进行语音分离,将训练人员发出的乒乓球指令和其他人说话声分离开。将上一步得到的语音作为语音分离模块的输入,并进行语音分离。语音分离模块的输出就是各个人说话的语音数据。具体过程如下:
构建一个语音分离的模块,该模块采用TasNet(Time-domain Audio SeparationNetwork)是时域的方法(直接输入混合语音,不经过STFT等变化得到声音特征),由编码器、分离网络和解码组成,与频域方法相比,编码过程不是固定的而是网络学到的(通过分离网络得到两个mask,学到的mask与编码器输出相乘再经过解码器得分离的声音,训练过程使用PIT方法,编解码器都是一维卷积(相当于全连接层线性变换)。编码器Encoder实质上是一个线性变换,将16维输入信号变为512维,这个变换过程相当于做匹配滤波,Encoder的512维的权重就是匹配滤波的权重。而解码器是与编码器相反的过程,将编码器的512维的输出和分离网络输出的mask的点乘结果作为输入,做线性变换后得到分离的语音信号。在训练过程中,编码器和解码器不一定是可逆的,不需要对编码器和解码器做额外要求。TasNet核心工作:提出使用时域音频分离网络,即编码器-解码器框架直接在时域对信号建模,并在非负编码器输出上执行声源分离。
声纹识别就是两种语音放在一起进行对比,基于此必须获得语音的特征。最常用的语音特征就是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。语音特征MFCC提取过程如下:
预加重处理其实是将语音信号通过一个高通滤波器
H(z)=1-μz-1;
分帧先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右;预加重的目的是提升高频部分,使信号的频谱变得平坦。
加窗
快速傅里叶变换:
三角带通滤波器
三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。此外,还可以降低运算量。
计算每个滤波器组输出的对数能量:
离散余弦变换
经过上述过程就可以获得语音数据的特征向量,获得特征向量之后就可以对其进行识别。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,包括以下步骤:
语音采集设备在乒乓球馆实时采集以打乒乓球为背景的噪声信号,采集到的噪声信号包含不同人说话的声音、环境噪声和乒乓球碰撞的声音;
为分析采集到的噪声信号,对噪声信号进行建模仿真处理,分析噪声信号的统计特性,建立乒乓球训练背景下的噪声信号模型,去除噪声信号中的环境噪声,只保留不同人说话的声音;
采用声纹提取模块对训练人员的声音进行采集,记录下每个训练人员的声音特征;
设定乒乓球发球机指令,乒乓球发球机指令包括乒乓球发球机的发球指令、乒乓球发球机的关机指令、乒乓球发球机的唤醒指令和乒乓球发球机的开机指令;
实时重复采集噪声信号,基于噪声信号模型来去除噪声信号中的乒乓球碰撞的声音,只保留不同人说话的声音;
不同人说话的声音与记录的训练人员的声音特征对比并判断是否有相互匹配的,有匹配的则识别不同人说话的声音中是否有乒乓球发球机指令,如果有乒乓球发球机指令则乒乓球发球机执行相应动作。
2.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,由于输入的噪声信号是不平稳的,采用噪声估计法处理非平稳的噪声信号,公式如下:
其中,λ表示帧数,k表示频点索引,Y表示频域的带噪语音谱,σ表示噪声谱,α表示平滑因子,平滑因是固定值;
为了区别不同人的声音,利用不同人的语音特征MFCC的不同来判断,记录不同人的声纹特征,提取过程如下:
预加重处理:将语音信号通过一个高通滤波器进行滤波处理:
H(z)=1-μz-1;
其中,μ为常量,z是高通滤波器的自变量;
分帧先将N个噪声信号集合成一个观测单位,称为帧;
加窗:将每帧乘以一个汉明窗,以增加帧左端和帧右端的连续性;
其中,0≤n≤N-1,0<a<1,a取值的不同会产生不同的汉明窗;
快速傅里叶变换:
由于在时域上的变换通常很难看出不同人说话的声音的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布代表不同语音的特性;所以在每帧乘上汉明窗后,每帧再经过快速傅里叶变换以得到在频谱上的能量分布:
其中,0≤k≤N,其中x(n)表示输入的语音信号,j表示虚数,N表示傅里叶变换的点数;
三角带通滤波器将频谱上的能量分布通过一组Mel尺度的滤波器组,定义一个有M个三角带通滤波器的滤波器组;
三角带通滤波器的滤波器组中,各f(m)之间的间隔随着m值的减小而缩小,随着m值得增大而增宽,三角带通滤波器的频率响应的公式如下:
其中,f(m)表示各个三角带通滤波器,0≤k≤N;
三角带通滤波器对频谱进行平滑化,并消除谐波的作用,突显不同人说话的声音的共振峰,降低运算量;
计算每个滤波器组输出的对数能量:
其中0≤m≤M,M为三角滤波器的个数;Xa(k)表示每帧信号的在频谱上的能量分布;
Hm(k)表示三角带通滤波器的频率响应;
对数能量进行离散余弦变换:
基于上述公式,获得噪声信号中不同人说话的声音的特征向量,根据不同人说话的声音的特征向量的不同判断噪声信号中哪个声音是训练人员发出的声音。
3.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,如果不同人说话的声音与记录的训练人员的声音特征对比后判断为不匹配,则乒乓球发球机不动作;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的发球指令,如果有乒乓球发球机的发球指令则乒乓球发球机发球;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的关机指令,如果有乒乓球发球机的关机指令则乒乓球发球机关机;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的唤醒指令,如果有乒乓球发球机的唤醒指令则乒乓球发球机关闭节能模式并正常运行;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的开机指令,如果有乒乓球发球机的开机指令则乒乓球发球机开机。
4.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,包括语音降噪模块,收集打乒乓球时的噪声信号,基于仿真建模之后得到的噪声信号模型去除噪声信号中的环境噪声,环境噪声包括乒乓球碰撞的声音和人走路声音。
5.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,包括:
语音分离模块,将训练人员的说话的声音与其他人说话声分离;
声纹识别模块,识别训练人员所发出的乒乓球发球机指令。
6.根据权利要求5所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,利用仿真处理之后获得的噪声信号模型完成对环境噪声的消除;
将环境噪声消除之后的噪声信号作为语音分离模块的输入,并进行语音分离;
将训练人员发出的乒乓球发球机指令和其他人说话声分离;
语音分离模块的输出就是每个人说话的语音;
声纹识别模块,以每个人说话的语音为输入,进行声纹识别来判断分离之后的哪个语音是属于训练人员的声音特征。
7.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,在比较安静的场合下,让训练人员读一篇文章,同时语音采集设备采集训练人员的声音,以此来记录训练人员的声纹特征。
8.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,噪声信号基于训练人员佩戴的蓝牙耳机或麦克风采集。
9.根据权利要求2所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,μ的值介于0.9–1.0之间,通常取0.97;N的值为256或512,涵盖的时间为20~30ms;a取0.46;M取22-26。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110155034.8A CN112992131A (zh) | 2021-02-04 | 2021-02-04 | 一种在复杂场景下提取目标人声的乒乓球指令的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110155034.8A CN112992131A (zh) | 2021-02-04 | 2021-02-04 | 一种在复杂场景下提取目标人声的乒乓球指令的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112992131A true CN112992131A (zh) | 2021-06-18 |
Family
ID=76347015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110155034.8A Pending CN112992131A (zh) | 2021-02-04 | 2021-02-04 | 一种在复杂场景下提取目标人声的乒乓球指令的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112992131A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884437A (zh) * | 2023-09-07 | 2023-10-13 | 北京惠朗时代科技有限公司 | 基于人工智能的语音识别处理器 |
CN118316748A (zh) * | 2023-12-27 | 2024-07-09 | 江苏霆善文旅科技集团有限公司 | 一种无纸化会议控制系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107219849A (zh) * | 2017-05-23 | 2017-09-29 | 北京理工大学 | 一种多途径的捡球和发球机器人控制系统 |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
-
2021
- 2021-02-04 CN CN202110155034.8A patent/CN112992131A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107219849A (zh) * | 2017-05-23 | 2017-09-29 | 北京理工大学 | 一种多途径的捡球和发球机器人控制系统 |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
R. MARTIN: "Noise power spectral density estimation based on optimal smoothing and minimum statistics", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, 31 July 2001 (2001-07-31), pages 505 * |
韩志艳: "语音识别及语音可视化技术研究", 31 January 2017, 东北大学出版社, pages: 50 - 52 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884437A (zh) * | 2023-09-07 | 2023-10-13 | 北京惠朗时代科技有限公司 | 基于人工智能的语音识别处理器 |
CN116884437B (zh) * | 2023-09-07 | 2023-11-17 | 北京惠朗时代科技有限公司 | 基于人工智能的语音识别处理器 |
CN118316748A (zh) * | 2023-12-27 | 2024-07-09 | 江苏霆善文旅科技集团有限公司 | 一种无纸化会议控制系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
Chapaneri | Spoken digits recognition using weighted MFCC and improved features for dynamic time warping | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN100573663C (zh) | 基于语音特征判别的静音检测方法 | |
CN108597496A (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN103280220A (zh) | 一种实时的婴儿啼哭声识别方法 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
CN110021307A (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN112992131A (zh) | 一种在复杂场景下提取目标人声的乒乓球指令的方法 | |
CN113539294A (zh) | 一种生猪异常状态声音采集及识别方法 | |
CN112542174A (zh) | 基于vad的多维特征参数声纹识别方法 | |
CN111145726A (zh) | 基于深度学习的声场景分类方法、系统、装置及存储介质 | |
CN115910074A (zh) | 一种智能门禁的语音控制方法及装置 | |
CN112017658A (zh) | 一种基于智能人机交互的操作控制系统 | |
Chauhan et al. | Speaker recognition using fusion of features with feedforward artificial neural network and support vector machine | |
Gaubitch et al. | Single-microphone blind channel identification in speech using spectrum classification | |
CN110415707B (zh) | 一种基于语音特征融合和gmm的说话人识别方法 | |
Ghai et al. | A Study on the Effect of Pitch on LPCC and PLPC Features for Children's ASR in Comparison to MFCC. | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |