CN107393539A - 一种声音密码控制方法 - Google Patents
一种声音密码控制方法 Download PDFInfo
- Publication number
- CN107393539A CN107393539A CN201710582779.6A CN201710582779A CN107393539A CN 107393539 A CN107393539 A CN 107393539A CN 201710582779 A CN201710582779 A CN 201710582779A CN 107393539 A CN107393539 A CN 107393539A
- Authority
- CN
- China
- Prior art keywords
- sound
- control method
- tone color
- voice signal
- harmonic wave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013178 mathematical model Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 239000003570 air Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009414 blockwork Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明属于声控设备技术领域,更具体地是,涉及一种声音密码控制方法。包括以下步骤,S1,采集用户的语音,转换为语音信号;S2,对语音信号进行预处理,得到语音信号中的音色谐波和关键词;S3,将该用户的音色谐波与关键词与预存储的音色谐波和关键词进行匹配对比;S4,如果匹配成功,则发送控制指令给控制模块;否则,不执行。
Description
技术领域
本发明属于声控设备技术领域,更具体地是,涉及一种声音密码控制方法。
背景技术
声音(sound)是由物体振动产生的声波。是通过介质(空气或固体、液体) 传播并能被人或动物听觉器官所感知的波动现象。最初发出振动(震动)的物体叫声源。声音以波的形式振动(震动)传播。声音是声波通过任何物质传播形成的运动。
声音分为:响度,音色,音调,其中音色又称音品,波形决定了声音的音色。声音因不同物体材料的特性而具有不同特性,音色本身是一种抽象的东西,但波形是把这个抽象直观的表现。音色不同,波形则不同。典型的音色波形有方波,锯齿波,正弦波,脉冲波等。不同的音色,通过波形,完全可以分辨的。
目前市面上对于声音的研究发展到了语音识别以及智能合成语音。而这些的存在只能够满足普通的语音指令活动以及电脑合成的语音。而当某个公共场合的东西,需要被特定的人指挥时,那么指挥员只能通过特定按钮以及电脑程序进行控制,而这种控制非常麻烦,同时也存在着按钮被别人盗用和电脑别病毒入侵的风险。指纹一样,每个人都有独一无二的声音,利用这一点,想要研发出能够方便地进行远程控制,同时通过分析音色,对比信号,保证只有特定的人能够控制。
同时,许多残疾人、老年人也面临这样的问题:坐在轮椅上坐电梯,没有办法按楼层;按钮控制门没有办法打开;想要打开的锁没有办法自己打开等等,这些问题都给残疾人的生活带来了很多不便,需要其他人的帮助才能完成。因此,需要一种声音控制系统,不便群体只需要发出声音便可以达到目的,并且不需要别人的帮助。
发明内容
针对现有技术存在的不足之处,本发明提出一种声音密码控制方法,该声音密码控制方法通过采集用户的语音,不仅分析用户语音中的关键词,而且还分析该语音的音色谐波,在音色谐波和关键词均匹配成功后,才发送控制指令给控制装置,控制装置根据控制指令执行相应动作。
为实现上述目的,本发明采用如下技术方案:
一种声音密码控制方法,包括以下步骤,
S1,采集用户的语音,转换为语音信号;
S2,对语音信号进行预处理,得到语音信号中的音色谐波和关键词;
S3,将该用户的音色谐波与关键词与预存储的音色谐波和关键词进行匹配对比;
S4,如果匹配成功,则发送控制指令给控制模块;否则,不执行。
本技术方案进一步的优化,所述步骤S2中音色谐波的获取包括以下步骤,
S201,提取语音信号中特征参数,所述特征参数包括基音周期和倒谱系数;
S202,基于特征参数,建立数学模型。
本技术方案更进一步的优化,所述步骤S201中倒谱系数的提取包括以下步骤,
S2011,对语音信号进行初步处理;
S2012,离散傅里叶变换,使得信号完成从时域至频的转换;
S2013,生成Mel滤波器组;
S2014,计算经Mel滤波器组加权后的能量值;
S2015,做离散余弦DCT变换。
本技术方案更进一步的优化,所述步骤S202中建立数学模型为模板模型、概率模块或神经网络模块。
本技术方案更进一步的优化,所述步骤S202中建立数学模型为隐马尔科夫模型。
本技术方案进一步的优化,所述步骤S2中预处理包括采样和量化、预加重处理、加窗、依据短时能量谱的语音端点检测处理过程。
本技术方案进一步的优化,所述步骤S4中,如果匹配成功,则通过无线通信方式将控制指令发送给控制装置。
本技术方案更进一步的优化,所述控制装置为移动终端。
区别于现有技术,上述技术方案具有如下有益效果:
1.本发明采用语音识别技术,通过识别用户的语音实现对控制装置的控制,语音中关键词识别无法体现唯一性,本发明还识别用户的音色谐波,实现对用户唯一性的判断;
2.本发明应用范围广泛,不仅可以控制传统的保险箱密码、门密码,还可实现一些特定场所,需要特定人控制的地方。
附图说明
图1为具体实施方式所述声音密码控制方法的控制流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1所示,本发明优选一实施例说我一种声音密码控制方法,包括以下步骤,
S1,采集用户的语音,转换为语音信号。
该实施例语音采集采用高保真的麦克风作为语音采集模块,直接跟计算机相连就能传输数据。
S2,对语音信号进行预处理,得到语音信号中的音色谐波和关键词。
需要说明的是,该实施例对语音信号进行预处理包括采样和量化、预加重处理、加窗、依据短时能量谱的语音端点检测等几个处理过程。
音色谐波的获取包括以下步骤,
S201,提取语音信号中特征参数,所述特征参数包括基音周期和倒谱系数。
①基音周期:产生发时声门的开启和闭合引起带性振动,形成周期振动,形成周期性的脉冲串,用来描述这一气流周期称为基性的脉冲串,用来描述这一气流周期称为基音周期。这种参数的提取主要音周期。这种参数的提取主要是基于说话人发声器官,如门、道和是基于说话人发声器官,如门、道和是基于说话人发声器官,如门、道和鼻腔等的特殊结构而提取出说话人语音短时谱特征(即基音频率及其轮廓)。
②倒谱系数:目前主流的声纹特征参数有LPC以及基于Mel频率的倒谱系数(Mel—frequency cepstral coefficients,MFCC)。实验中证明,MFCC是目前声纹特征中识别率最高的一种,本系统便是提取Mel频率倒谱系数MFCC 用来模拟人耳听觉系统的感知能力,描述语音信号在频率域上的能量分布。 Mel倒谱系数MFCC的提取过程如下:
S2011,对语音信号进行初步处理;
S2012,离散傅里叶变换,使得信号完成从时域至频的转换;
S2013,生成Mel滤波器组;
S2014,计算经Mel滤波器组加权后的能量值;
S2015,做离散余弦DCT变换。
S202,基于特征参数,建立数学模型。
常见的识别模型有模板模型(动态时间规整方法DTW、矢量量化方法 VQ)、概率模型(隐马尔科夫模型HMM、高斯混合模型GMM),以及目前正在发展中的人工神经网络(ANN)方法。
本实验采用的隐马尔科夫模型HMM,并将该模型确定为本系统的模式匹配方法。使用HMM模型可以用短时模型描述平稳段的信号,而且还可以解决每个短时平稳段是如何转变到下一个短时平稳段的问题。本过程目的是对所提取出来的说话人语音特征进行学习训练,建立声纹模板或语音模型库,或对系统中已有的声纹模板或语音模型库进行适应性修改。
S3,将该用户的音色谐波与关键词与预存储的音色谐波和关键词进行匹配对比;
S4,如果匹配成功,则发送控制指令给控制模块;否则,不执行。
本技术方案进一步的优化,所述步骤S4中,如果匹配成功,则通过无线通信方式将控制指令发送给控制装置。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (8)
1.一种声音密码控制方法,其特征在于:包括以下步骤,
S1,采集用户的语音,转换为语音信号;
S2,对语音信号进行预处理,得到语音信号中的音色谐波和关键词;
S3,将该用户的音色谐波与关键词与预存储的音色谐波和关键词进行匹配对比;
S4,如果匹配成功,则发送控制指令给控制模块;否则,不执行。
2.如权利要求1所述的声音密码控制方法,其特征在于:所述步骤S2中音色谐波的获取包括以下步骤,
S201,提取语音信号中特征参数,所述特征参数包括基音周期和倒谱系数;
S202,基于特征参数,建立数学模型。
3.如权利要求2所述的声音密码控制方法,其特征在于:所述步骤S201中倒谱系数的提取包括以下步骤,
S2011,对语音信号进行初步处理;
S2012,离散傅里叶变换,使得信号完成从时域至频的转换;
S2013,生成Mel滤波器组;
S2014,计算经Mel滤波器组加权后的能量值;
S2015,做离散余弦DCT变换。
4.如权利要求2所述的声音密码控制方法,其特征在于:所述步骤S202中建立数学模型为模板模型、概率模块或神经网络模块。
5.如权利要求2所述的声音密码控制方法,其特征在于:所述步骤S202中建立数学模型为隐马尔科夫模型。
6.如权利要求1所述的声音密码控制方法,其特征在于:所述步骤S2中预处理包括采样和量化、预加重处理、加窗、依据短时能量谱的语音端点检测处理过程。
7.如权利要求1所述的声音密码控制方法,其特征在于:所述步骤S4中,如果匹配成功,则通过无线通信方式将控制指令发送给控制装置。
8.如权利要求7所述的声音密码控制方法,其特征在于:所述控制装置为移动终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710582779.6A CN107393539A (zh) | 2017-07-17 | 2017-07-17 | 一种声音密码控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710582779.6A CN107393539A (zh) | 2017-07-17 | 2017-07-17 | 一种声音密码控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107393539A true CN107393539A (zh) | 2017-11-24 |
Family
ID=60340817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710582779.6A Withdrawn CN107393539A (zh) | 2017-07-17 | 2017-07-17 | 一种声音密码控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107393539A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109660904A (zh) * | 2019-02-02 | 2019-04-19 | 恒玄科技(上海)有限公司 | 耳机装置、声音信号处理方法及系统 |
CN111462448A (zh) * | 2020-05-20 | 2020-07-28 | 南京孝德智能科技有限公司 | 老人用的智能语音呼叫报警系统、方法及计算机可读介质 |
CN117297800A (zh) * | 2023-11-30 | 2023-12-29 | 北京云力境安科技有限公司 | 一种手术器械的递送装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103943110A (zh) * | 2013-01-21 | 2014-07-23 | 联想(北京)有限公司 | 控制方法、装置和电子设备 |
JP2015069063A (ja) * | 2013-09-30 | 2015-04-13 | 日本電気通信システム株式会社 | 音声認識システム、音声認識方法、及び音声認識プログラム |
CN104853236A (zh) * | 2015-01-15 | 2015-08-19 | 青岛海尔软件有限公司 | 一种智能电视的开关机控制方法及其装置 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN106340298A (zh) * | 2015-07-06 | 2017-01-18 | 南京理工大学 | 融合内容识别和话者识别的声纹解锁方法 |
-
2017
- 2017-07-17 CN CN201710582779.6A patent/CN107393539A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103943110A (zh) * | 2013-01-21 | 2014-07-23 | 联想(北京)有限公司 | 控制方法、装置和电子设备 |
JP2015069063A (ja) * | 2013-09-30 | 2015-04-13 | 日本電気通信システム株式会社 | 音声認識システム、音声認識方法、及び音声認識プログラム |
CN104853236A (zh) * | 2015-01-15 | 2015-08-19 | 青岛海尔软件有限公司 | 一种智能电视的开关机控制方法及其装置 |
CN106340298A (zh) * | 2015-07-06 | 2017-01-18 | 南京理工大学 | 融合内容识别和话者识别的声纹解锁方法 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109660904A (zh) * | 2019-02-02 | 2019-04-19 | 恒玄科技(上海)有限公司 | 耳机装置、声音信号处理方法及系统 |
CN109660904B (zh) * | 2019-02-02 | 2020-05-29 | 恒玄科技(上海)股份有限公司 | 耳机装置、声音信号处理方法及系统 |
CN111462448A (zh) * | 2020-05-20 | 2020-07-28 | 南京孝德智能科技有限公司 | 老人用的智能语音呼叫报警系统、方法及计算机可读介质 |
CN111462448B (zh) * | 2020-05-20 | 2023-10-20 | 南京孝德智能科技有限公司 | 老人用的智能语音呼叫报警系统、方法及计算机可读介质 |
CN117297800A (zh) * | 2023-11-30 | 2023-12-29 | 北京云力境安科技有限公司 | 一种手术器械的递送装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
Agrawal et al. | Novel TEO-based Gammatone features for environmental sound classification | |
CN101510905B (zh) | 移动设备上多传感语音增强的方法和装置 | |
CN108962237A (zh) | 混合语音识别方法、装置及计算机可读存储介质 | |
CN104700843A (zh) | 一种年龄识别的方法及装置 | |
CN102800316A (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及系统 | |
WO2015090562A2 (en) | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech | |
Wang et al. | Speaker recognition based on MFCC and BP neural networks | |
CN107393539A (zh) | 一种声音密码控制方法 | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
CN117041807B (zh) | 蓝牙耳机播放控制方法 | |
Shah et al. | Novel MMSE DiscoGAN for cross-domain whisper-to-speech conversion | |
CN114067782A (zh) | 音频识别方法及其装置、介质和芯片系统 | |
WO2017177629A1 (zh) | 远讲语音识别方法及装置 | |
Li et al. | A study of voice print recognition technology | |
Usman | On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes | |
Gandhiraj et al. | Auditory-based wavelet packet filterbank for speech recognition using neural network | |
Paul et al. | Automated speech recognition of isolated words using neural networks | |
Nirjon et al. | sMFCC: exploiting sparseness in speech for fast acoustic feature extraction on mobile devices--a feasibility study | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN | |
Singh et al. | Features and techniques for speaker recognition | |
Yu et al. | The Design and Implementation of the Intelligent Warehouse Voice Control Guard System Based on Voiceprint Recognition | |
Kumar | Voice based control command signal generation for intelligent system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20171124 |