CN107945807A - 基于静音游程的语音识别方法及其系统 - Google Patents
基于静音游程的语音识别方法及其系统 Download PDFInfo
- Publication number
- CN107945807A CN107945807A CN201610889689.7A CN201610889689A CN107945807A CN 107945807 A CN107945807 A CN 107945807A CN 201610889689 A CN201610889689 A CN 201610889689A CN 107945807 A CN107945807 A CN 107945807A
- Authority
- CN
- China
- Prior art keywords
- distance
- swimming
- mute
- signal
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009182 swimming Effects 0.000 title claims abstract description 258
- 238000000034 method Methods 0.000 title claims abstract description 26
- 229910002056 binary alloy Inorganic materials 0.000 claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 239000000203 mixture Substances 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Image Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供基于静音游程的语音识别方法及其系统,方法包括:预设分别对应静音信号和非静音信号的二进制基本算符;对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列;依据游程序列中的静音信号提取游程特征,并存储至数据库;获取待识别的一段语音信号对应的待识别游程序列;依据所述待识别游程序列中的静音信号提取待识别游程特征;将所述待识别游程特征与数据库中的游程特征进行匹配。本发明依据静音特征反映出的说话节奏变化、频率、停顿等个性化区别,更准确的从数据库中识别出与待识别语音信号最为匹配的语音信号,进而为待识别语音信号的身份确认提供准确的依据。
Description
技术领域
本发明涉及语音识别领域,具体说的是基于静音游程的语音识别方法及其系统。
背景技术
说话人识别是指根据人的语音信号由程序自动判断出说话者的身份,属于计算机生物特征识别的一种,可用于智能身份鉴别。一般语音信号可分为有声部分和静音部分(即说话中的无声停顿部分),由于静音部分不包含语音信息,因此在传统的说话人识别方法中一般都是将静音部分去除,提取有声信号的特征进行识别,例如基音周期、过零率、明亮度、线性预测系数、线性预测倒谱系数、MFCC、LPCC等特征。传统方法对于说话人识别的准确率达到一定水平后难以继续大幅提高,需要寻找新的识别特征和识别方法。
发明内容
本发明所要解决的技术问题是:提供一种基于静音游程的语音识别方法及其系统,有效提高语音识别的准确度。
为了解决上述技术问题,本发明采用的技术方案为:
基于静音游程的语音识别方法,包括:
预设分别对应静音信号和非静音信号的二进制基本算符;
对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列;
依据所述游程序列中的静音信号提取游程特征,并存储至数据库;
获取待识别的一段语音信号对应的待识别游程序列;
依据所述待识别游程序列中的静音信号提取待识别游程特征;
将所述待识别游程特征与数据库中的游程特征进行匹配。
本发明提供的另一个技术方案为:
基于静音游程的语音识别系统,包括:
预设模块,用于预设分别对应静音信号和非静音信号的二进制基本算符;
转换模块,用于对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列;
第一提取模块,用于依据所述游程序列中的静音信号提取游程特征,并存储至数据库;
获取模块,用于获取待识别的一段语音信号对应的待识别游程序列;
第二提取模块,用于依据所述待识别游程序列中的静音信号提取待识别游程特征;
匹配模块,用于将所述待识别游程特征与数据库中的游程特征进行匹配。
本发明的有益效果在于:区别于现有技术的语音识别技术均是基于有声部分的特征进行识别,其准确率难以再提升的困境。本发明提供一种基于静音游程的语音识别方法,通过提取语音信号中的静音特征,依据静音特征反映出的说话节奏变化、频率、停顿等个性化区别,从而更准确的从数据库中识别出与待识别语音信号最为匹配的语音信号,进而为待识别语音信号的身份确认提供准确的依据。
附图说明
图1为本发明基于静音游程的语音识别方法的流程示意图;
图2为本发明将语音声波转换得到静音部分的示意图;
图3为实施例二中训练样本中说话者A的声波图;
图4为实施例二中训练样本中说话者B的声波图;
图5为实施例二中训练样本中说话者A的静音游程;
图6为实施例二中训练样本中说话者B的静音游程;
图7为实施例二中待识别说话者的声波图;
图8为实施例二中待识别说话者的静音游程;
图9为本发明基于静音游程的语音识别系统的功能模块组成示意图;
图10为实施例三的语音识别系统的功能模块组成示意图。
标号说明:
1、预设模块;2、转换模块;3、第一提取模块;4、获取模块;
5、第二提取模块;6、匹配模块;
21、预设单元;22、第一获取单元;23、确定单元;24、转换单元;
61、计算单元;62、第二获取单元。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
本发明最关键的构思在于:提取语音信号中的静音特征,依据静音特征从数据库中识别出与待识别语音信号最为匹配的预存的语音信号。
请参照图1和图2,本发明提供基于静音游程的语音识别方法,包括:
预设分别对应静音信号和非静音信号的二进制基本算符;
对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列;
依据所述游程序列中的静音信号提取游程特征,并存储至数据库;
获取待识别的一段语音信号对应的待识别游程序列;
依据所述待识别游程序列中的静音信号提取待识别游程特征;
将所述待识别游程特征与数据库中的游程特征进行匹配。
从上述描述可知,本发明的有益效果在于:相较传统的语音识别方式,采用静音特征匹配来识别语音信号的身份,基于说话者反映出的节奏变化、频率、停顿等识别说话者的身份,提高语音识别的准确性;还能与传统语音识别相结合,进一步的提升语音识别的精确度。
进一步的,所述游程特征包括游程距M1;
依据公式获取所述游程距M1,其中,所述I为游程序列中静音信号对应的二进制基本算符的游程长度的随机变量,P(I)为游程长度为I的游程数量与静音信号对应的二进制基本算符的总游程数量的比值。
由上述描述可知,提取的静音特征中包含游程距,游程距代表说话人的平均停顿时长,能够综合反映说话人语速快慢特点。
进一步的,所述游程特征还包括游程中心距M2、游程绝对矩M3、游程熵M4和游程方差M5;
依据公式获取所述游程中心距M2;
依据公式获取所述游程绝对矩M3;
依据公式获取所述游程熵M4;
依据公式获取所述游程方差M5。
由上述描述可知,提取的静音特征中还包括游程中心距、游程绝对矩、游程熵和游程方差,它们能够多角度的描述说话人停顿的稳定性特征,综合反映一个人说话是否平顺的特点。因此,依据游程序列中的静音信号提取的游程序列,能充分反映说话人的说话节奏变化、频率、停顿等个性化特点,从而提高语音识别的准确率。
进一步的,所述对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列,具体为:
预设语音强度阈值;
获取大于预设长度的一段语音模拟信号;
依据所述语音强度阈值,逐个确定所述语音信号中模拟信号为静音信号还是非静音信号;
依据静音信号和非静音信号各自对应的二进制基本算符,将所述语音模拟信号转换成由二进制基本算符组成的游程序列。
由上述描述可知,获取的语音信号必须大于预设的长度,才会有足够的停顿信息,据此获取的静音特征才能充分、准确的反映出说话人的节奏变化、频率、停顿等个性化特点,防止停顿随机性造成的误差。
进一步的,数据库中存储的游程特征的个数为两个以上;对应各游程特征预设唯一的标识符。
由上述描述可知,可以准确地判断待识别语音信息与数据库中预存的多个身份标识的语音信息的匹配程度,进而确认待识别语音信息的身份,为门禁系统或者警务需求的身份识别提供服务。
进一步的,所述将所述待识别游程特征与数据库中的游程特征进行匹配,具体为:
依据欧式距离公式,分别计算所述待识别游程特征与数据库中存储的各个游程特征的特征距离;
获取数值最小的特征距离对应的游程特征的标识符。
由上述描述可知,可以依据欧式距离公式准确判断待识别语音信息与预存的语音信息的匹配程度。
请参阅图9,本发明提供的另一个技术方案为:
基于静音游程的语音识别系统,包括:
预设模块,用于预设分别对应静音信号和非静音信号的二进制基本算符;
转换模块,用于对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列;
第一提取模块,用于依据所述游程序列中的静音信号提取游程特征,并存储至数据库;
获取模块,用于获取待识别的一段语音信号对应的待识别游程序列;
第二提取模块,用于依据所述待识别游程序列中的静音信号提取待识别游程特征;
匹配模块,用于将所述待识别游程特征与数据库中的游程特征进行匹配。
请参阅图10,进一步的,所述提取模块提取的游程特征包括游程距M1、游程中心距M2、游程绝对矩M3、游程熵M4和游程方差M5;
依据公式获取游程距M1,其中,所述I为游程序列中静音信号对应的二进制基本算符的游程长度的随机变量,P(I)为游程长度为I的游程数量与静音信号对应的二进制基本算符的总游程数量的比值;
依据公式获取所述游程中心距M2;
依据公式获取所述游程绝对矩M3;
依据公式获取所述游程熵M4;
依据公式获取所述游程方差M5。
进一步的,所述转换模块包括:
预设单元,用于预设语音强度阈值;
第一获取单元,用于获取大于预设长度的一段语音模拟信号;
确定单元,用于依据所述语音强度阈值,逐个确定所述语音信号中模拟信号为静音信号还是非静音信号;
转换单元,用于依据静音信号和非静音信号各自对应的二进制基本算符,将所述语音模拟信号转换成由二进制基本算符组成的游程序列。
进一步的,所述第一提取模块中存储在数据库中的游程特征的个数为两个以上;
所述预设模块,还用于对应各游程特征预设唯一的标识符;
所述匹配模块包括:
计算单元,用于依据欧式距离公式,分别计算所述待识别游程特征与数据库中存储的各个游程特征的特征距离;
第二获取单元,用于获取数值最小的特征距离对应的游程特征的标识符。
请参照图1和图2,本发明的实施例一为:
本实施例提供一种基于静音游程的语音识别方法,可适用于各种语音识别需求,如门禁系统基于语音的身份识别需求,以及警务系统对犯罪嫌疑人的语音身份识别需求。
首先,预设分别对应静音信号和非静音信号的二进制基本算符;预设语音强度阈值T(单位分贝);如预设静音信号对应二进制基本算符1,非静音信号对应二进制基本算符0,或者二者互换,二进制基本算符用于标示语音信号对应的是静音还是非静音。所述语音强度阈值优选取人耳能分辨的最小音量3分贝,即T=3。
本实施例的语音识别方法可以包括训练子步骤以及识别子步骤。
(一)训练子步骤
训练子步骤用于获取多个已知身份的语音信号,然后提取对应的游程特征,存入数据库,作为语音识别的基础数据库。
具体的,训练子步骤可以包括:
S1:通过录音设备获取一个已知身份用户(假设该用户标识为User1),一段足够长度的录音,即用户标识为User1的一段语音信号。
S2:判断该段语音信号的长度是否大于预设长度,优选所述预设长度为30秒;如果是,进入S3;如果否,则训练条件不满足,提示用户重新录音,返回步骤S1。
S3:该段语音信号假设用y=f(t)表示,其中,t代表采样时刻,f表示录音设备对声音模拟信号的处理,y表示处理得到的数字信号值(单位分贝);
对于任意采样时刻,如果y<T,则令y=1;即该时刻的语音信号小于预设的强度阈值T,标记为静音信号,用二进制基本算符1表示;
如果y≥T,则令y=0;
对整段语音信号进行转换,形成一个由0和1组成的游程序列。
S4:基于游程序列中的静音信号,提取包括游程矩M1、游程中心矩M2、游程绝对矩M3、游程熵M4、游程方差M5的游程特征。
具体提取方法如下:
S41:用I代表游程序列中数值为1的游程长度的随机变量,则P(I)定义为:游程长度为I的游程数量与数值为1的总的游程数量的比值。
游程矩M1计算公式如式(1)所示:
游程矩M1代表说话人平均停顿时长,M1综合反映一个人说话语速快慢特点。
S42:游程中心矩M2的计算公式如式(2)所示:
S43:游程绝对矩M3的计算公式如式(3)所示:
S44:游程熵M4的计算公式如式(4)所示:
S45:游程方差M5的计算公式如式(5)所示:
通过M2到M5可以从多个角度描述说话人停顿的稳定性特征,综合所映一个人说话是否平顺的特点。
S5:将M1到M5组合成用户User1的游程特征向量,记为Vuser1={Mu1,Mu2,Mu3,Mu4,Mu5};将其存入数据库中,完成对于User1的语音特征训练。对于其它用户采用同样的方式提取特征向量,并记录于数据库中。
(二)识别子步骤
识别子步骤用于将未知身份的一段语音信号基于其中的静音信号提取游程特征,并与数据库中存储的所有游程特征进行匹配,获取与其特征距离最小的游程特征,进而识别出该说话人的身份。
具体的,识别步骤可以包括:
SS1:通过录音设备获取一个未知身份用户X的一段足够长度的语音信号,即待识别语音信号。
SS2:判断待识别语音信号长度是否大于预设长度,如果是进入SS3;如果否,则识别条件不满足,提示用户重新录音,返回步骤SS1。
SS3:参照训练子步骤的中的步骤S3-S4,获取该未知身份用户X对应的待识别语音信号的待识别游程特征M1到M5,组成用户X的待识别游程特征向量,记为X={M1,M2,M3,M4,M5}。
SS4:假设数据库中一共存储有K个用户,从数据库中取出这K个用户的特征像量Vuser1,Vuser2,Vuser3,……VuserK;然后分别计算X与Vuseri(i=1,2,3,……,K)的特征距离di,特征距离采用欧式距离,距离公式如下式(6)所示:
SS5:比较所有di(i=1,2,……,K)的值,选择di最小的值对应的用户Useri作为未知用户X的语音识别结果,从而识别出X的身份为Useri。
作为另一具体实施例,可以将上述实施例基于静音部分的语音识别方法与传统基于非静音部分的语音识别方式相结合,作为对传统识别方式的辅助补充,显著提高对说话人语音识别的准确性。
请参照图3-图8,本发明的实施例二为:
本实施例为基于实施例一的一具体运用场景。
(1)说话人训练
假设训练样本个数为2,即只需要从两个人的声音样本中识别出说话人身份。两人说同一段话内容,采集到的声波如图3和图4所示,图3的声音样本为说话者A,图4的声音样本为说话者B。
按照实施例一中步骤S3的方法,以3分贝为强度阈值对语音信号进行二值化,并把小于3分贝的语音信号采样点标记为1,得到图5和图6的静音游程;图中横线部份为标1的游程,表示说话语音的静音部分,其余白色部分为语音中的有声部分。
说话人A(图5)的游程数据为:
[0000000000011000001111000000100000011111111111000000000000001111111];
说话人B(图6)的游程数据为:
[1110011110101101001111000111100100111000000110010010101111101000010];
说话人A的游程序列中,共有5个数值为1的静音游程,长度分别为2,4,1,11,7。因此,按实施例一S4中的公式,说话人A的游程矩的计算为:
游程中心矩的计算为:
游程绝对矩的计算为:
游程熵M4的计算为:
游程方差M5的计算为:
因此说话人A所训练的游程特征向量为:
VA={5,0,3.2,0.7,13.2};
说话人B的游程序列中,共有16个数值为1的静音游程,长度分别为3,4,1,2,1,4,4,1,3,2,1,1,1,5,1,1。因此,按实施例一S4的公式,其游程矩的计算为:
游程中心矩的计算为:
游程绝对矩的计算为:
游程熵的计算为:
游程方差的计算为:
因此,说话人B所训练的游程特征向量为:
VB={2.19,-0.04,19.76,0.588,1.902}
通过上述完成对说话人A和说话人B的训练,将VA和VB存入数据库供识别时使用。
(2)说话人识别
有说话人说了同一内容的另一段语音(实际为说话人A说的),语音波形如图7所示;
参照上述方法,以3分贝为强度阈值对语音信号进行二值化,并把小于3分贝的语音信号采样点标记为1,得到的静音游程如图8所示,具体的游程序列为:[0000000000011000001111000000000000011111111111100010000110001111111];
待识别游程序列中,共有6个数值为1的游程,长度分别为2,4,12,1,2,7。因此,其游程矩的计算为:
游程中心矩的计算为:
游程绝对矩的计算为:
游程熵的计算为:
游程方差的计算为:
因此待识别人的游程特征向量为:
V={4.67,-0.001,3.227,0.678,14.56}
计算V与数据库中已训练的VA、VB向量的距离。
对距离进行比较,dA是距离最小的值,对应的用户A做为识别结果,即识别出待识别语音的说话人身份为A。
实施例三
请参阅图10,本实施例为基于实施例一和实施例二提供的基于静音游程的语音识别系统,具体的,可以包括:
预设模块1,用于预设分别对应静音信号和非静音信号的二进制基本算符;
转换模块2,用于对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列;
第一提取模块3,用于依据所述游程序列中的静音信号提取游程特征,并存储至数据库;
获取模块4,用于获取待识别的一段语音信号对应的待识别游程序列;
第二提取模块5,用于依据所述待识别游程序列中的静音信号提取待识别游程特征;
匹配模块6,用于将所述待识别游程特征与数据库中的游程特征进行匹配。
在一具体实施方式中,所述提取模块提取的游程特征包括游程距M1、游程中心距M2、游程绝对矩M3、游程熵M4和游程方差M5;
依据公式获取游程距M1,其中,所述I为游程序列中静音信号对应的二进制基本算符的游程长度的随机变量,P(I)为游程长度为I的游程数量与静音信号对应的二进制基本算符的总游程数量的比值;
依据公式获取所述游程中心距M2;
依据公式获取所述游程绝对矩M3;
依据公式获取所述游程熵M4;
依据公式获取所述游程方差M5。
在一具体实施例中,所述转换模块2包括:
预设单元21,用于预设语音强度阈值;
第一获取单元22,用于获取大于预设长度的一段语音模拟信号;
确定单元23,用于依据所述语音强度阈值,逐个确定所述语音信号中模拟信号为静音信号还是非静音信号;
转换单元24,用于依据静音信号和非静音信号各自对应的二进制基本算符,将所述语音模拟信号转换成由二进制基本算符组成的游程序列。
在一具体实施例中,所述第一提取模块3中存储在数据库中的游程特征的个数为两个以上;
所述预设模块1,还用于对应各游程特征预设唯一的标识符;
所述匹配模块6包括:
计算单元61,用于依据欧式距离公式,分别计算所述待识别游程特征与数据库中存储的各个游程特征的特征距离;
第二获取单元62,用于获取数值最小的特征距离对应的游程特征的标识符。
综上所述,本发明提供的基于静音游程的语音识别方法及其系统,能够依据静音特征反映出的说话节奏变化、频率、停顿等个性化区别,更准确的从数据库中识别出与待识别语音信号最为匹配的语音信号,进而为待识别语音信号的身份确认提供准确的依据;同时,还能与传统基于非静音部分的语音识别方式相结合,再进一步的提升语音识别的精确度。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.基于静音游程的语音识别方法,其特征在于,包括:
预设分别对应静音信号和非静音信号的二进制基本算符;
对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列;
依据所述游程序列中的静音信号提取游程特征,并存储至数据库;
获取待识别的一段语音信号对应的待识别游程序列;
依据所述待识别游程序列中的静音信号提取待识别游程特征;
将所述待识别游程特征与数据库中的游程特征进行匹配。
2.如权利要求1所述的基于静音游程的语音识别方法,其特征在于,所述游程特征包括游程距M1;
依据公式获取所述游程距M1,其中,所述I为游程序列中静音信号对应的二进制基本算符的游程长度的随机变量,P(I)为游程长度为I的游程数量与静音信号对应的二进制基本算符的总游程数量的比值。
3.如权利要求2所述的基于静音游程的语音识别方法,其特征在于,所述游程特征还包括游程中心距M2、游程绝对矩M3、游程熵M4和游程方差M5;
依据公式获取所述游程中心距M2;
依据公式获取所述游程绝对矩M3;
依据公式获取所述游程熵M4;
依据公式获取所述游程方差M5。
4.如权利要求1所述的基于静音游程的语音识别方法,其特征在于,所述对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列,具体为:
预设语音强度阈值;
获取大于预设长度的一段语音模拟信号;
依据所述语音强度阈值,逐个确定所述语音信号中模拟信号为静音信号还是非静音信号;
依据静音信号和非静音信号各自对应的二进制基本算符,将所述语音模拟信号转换成由二进制基本算符组成的游程序列。
5.如权利要求1所述的基于静音游程的语音识别方法,其特征在于,数据库中存储的游程特征的个数为两个以上;对应各游程特征预设唯一的标识符。
6.如权利要求5所述的基于静音游程的语音识别方法,其特征在于,所述将所述待识别游程特征与数据库中的游程特征进行匹配,具体为:
依据欧式距离公式,分别计算所述待识别游程特征与数据库中存储的各个游程特征的特征距离;
获取数值最小的特征距离对应的游程特征的标识符。
7.基于静音游程的语音识别系统,其特征在于,包括:
预设模块,用于预设分别对应静音信号和非静音信号的二进制基本算符;
转换模块,用于对所获取的一段语音信号中的静音信号和非静音信号依据对应的二进制基本算符进行转换,获取由二进制基本算符组成的游程序列;
第一提取模块,用于依据所述游程序列中的静音信号提取游程特征,并存储至数据库;
获取模块,用于获取待识别的一段语音信号对应的待识别游程序列;
第二提取模块,用于依据所述待识别游程序列中的静音信号提取待识别游程特征;
匹配模块,用于将所述待识别游程特征与数据库中的游程特征进行匹配。
8.如权利要求7所述的基于静音游程的语音识别系统,其特征在于,所述提取模块提取的游程特征包括游程距M1、游程中心距M2、游程绝对矩M3、游程熵M4和游程方差M5;
依据公式获取游程距M1,其中,所述I为游程序列中静音信号对应的二进制基本算符的游程长度的随机变量,P(I)为游程长度为I的游程数量与静音信号对应的二进制基本算符的总游程数量的比值;
依据公式获取所述游程中心距M2;
依据公式获取所述游程绝对矩M3;
依据公式获取所述游程熵M4;
依据公式获取所述游程方差M5。
9.如权利要求7所述的基于静音游程的语音识别系统,其特征在于,所述转换模块包括:
预设单元,用于预设语音强度阈值;
第一获取单元,用于获取大于预设长度的一段语音模拟信号;
确定单元,用于依据所述语音强度阈值,逐个确定所述语音信号中模拟信号为静音信号还是非静音信号;
转换单元,用于依据静音信号和非静音信号各自对应的二进制基本算符,将所述语音模拟信号转换成由二进制基本算符组成的游程序列。
10.如权利要求7所述的基于静音游程的语音识别系统,其特征在于,所述第一提取模块中存储在数据库中的游程特征的个数为两个以上;
所述预设模块,还用于对应各游程特征预设唯一的标识符;
所述匹配模块包括:
计算单元,用于依据欧式距离公式,分别计算所述待识别游程特征与数据库中存储的各个游程特征的特征距离;
第二获取单元,用于获取数值最小的特征距离对应的游程特征的标识符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610889689.7A CN107945807B (zh) | 2016-10-12 | 2016-10-12 | 基于静音游程的语音识别方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610889689.7A CN107945807B (zh) | 2016-10-12 | 2016-10-12 | 基于静音游程的语音识别方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107945807A true CN107945807A (zh) | 2018-04-20 |
CN107945807B CN107945807B (zh) | 2021-04-13 |
Family
ID=61928353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610889689.7A Active CN107945807B (zh) | 2016-10-12 | 2016-10-12 | 基于静音游程的语音识别方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107945807B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908309A (zh) * | 2021-02-06 | 2021-06-04 | 漳州立达信光电子科技有限公司 | 语音识别方法、装置、设备及按摩沙发 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1438604A (zh) * | 2002-12-23 | 2003-08-27 | 北京邮电大学 | 基于贝叶斯分类器的文字字体判断设备及其方法 |
WO2004070541A2 (en) * | 2003-01-31 | 2004-08-19 | Harris Corporation | 600 bps mixed excitation linear prediction transcoding |
CN1910689A (zh) * | 2004-01-14 | 2007-02-07 | 皇家飞利浦电子股份有限公司 | 具有平均游程长度保持码用于改进的读出参数控制的方法、设备和记录载体 |
EP1787290A2 (en) * | 2004-08-30 | 2007-05-23 | Qualcomm Incorporated | Method and apparatus for an adaptive de-jitter buffer |
CN101609680A (zh) * | 2009-06-01 | 2009-12-23 | 华为技术有限公司 | 压缩编码和解码的方法、编码器和解码器以及编码装置 |
CN101615911A (zh) * | 2009-05-12 | 2009-12-30 | 华为技术有限公司 | 一种编解码方法和装置 |
CN101795407A (zh) * | 2009-01-30 | 2010-08-04 | 汤姆森许可贸易公司 | 用于对比特序列进行编码的方法和设备 |
US20110026383A1 (en) * | 2009-07-15 | 2011-02-03 | Hiroyuki Minemura | Reproduced signal evaluation method and write adjustment method |
CN102185612A (zh) * | 2011-01-28 | 2011-09-14 | 张环蚀 | 游程编解码方法及装置 |
CN102509547A (zh) * | 2011-12-29 | 2012-06-20 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
CN102955902A (zh) * | 2012-10-09 | 2013-03-06 | 中国人民解放军63892部队 | 雷达模拟设备可信度的评估方法及评估系统 |
CN103236264A (zh) * | 2013-05-03 | 2013-08-07 | 湖北文理学院 | 一种用于声源分离的编解码方法 |
US20140229186A1 (en) * | 2002-09-04 | 2014-08-14 | Microsoft Corporation | Entropy encoding and decoding using direct level and run-length/level context-adaptive arithmetic coding/decoding modes |
CN104427471A (zh) * | 2013-09-04 | 2015-03-18 | 华为技术有限公司 | 一种移动网络自动建立连接的方法及终端 |
US9092691B1 (en) * | 2014-07-18 | 2015-07-28 | Median Technologies | System for computing quantitative biomarkers of texture features in tomographic images |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN105405445A (zh) * | 2015-12-10 | 2016-03-16 | 北京大学 | 一种基于声道间传递函数的参数立体声编码、解码方法 |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
CN105844050A (zh) * | 2016-04-12 | 2016-08-10 | 吉林大学 | 基于时间相关的数控机床组件更换时间方法 |
-
2016
- 2016-10-12 CN CN201610889689.7A patent/CN107945807B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140229186A1 (en) * | 2002-09-04 | 2014-08-14 | Microsoft Corporation | Entropy encoding and decoding using direct level and run-length/level context-adaptive arithmetic coding/decoding modes |
CN1438604A (zh) * | 2002-12-23 | 2003-08-27 | 北京邮电大学 | 基于贝叶斯分类器的文字字体判断设备及其方法 |
WO2004070541A2 (en) * | 2003-01-31 | 2004-08-19 | Harris Corporation | 600 bps mixed excitation linear prediction transcoding |
CN1910689A (zh) * | 2004-01-14 | 2007-02-07 | 皇家飞利浦电子股份有限公司 | 具有平均游程长度保持码用于改进的读出参数控制的方法、设备和记录载体 |
EP1787290A2 (en) * | 2004-08-30 | 2007-05-23 | Qualcomm Incorporated | Method and apparatus for an adaptive de-jitter buffer |
CN101795407A (zh) * | 2009-01-30 | 2010-08-04 | 汤姆森许可贸易公司 | 用于对比特序列进行编码的方法和设备 |
CN101615911A (zh) * | 2009-05-12 | 2009-12-30 | 华为技术有限公司 | 一种编解码方法和装置 |
CN101609680A (zh) * | 2009-06-01 | 2009-12-23 | 华为技术有限公司 | 压缩编码和解码的方法、编码器和解码器以及编码装置 |
US20110026383A1 (en) * | 2009-07-15 | 2011-02-03 | Hiroyuki Minemura | Reproduced signal evaluation method and write adjustment method |
CN102185612A (zh) * | 2011-01-28 | 2011-09-14 | 张环蚀 | 游程编解码方法及装置 |
CN102509547A (zh) * | 2011-12-29 | 2012-06-20 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
CN102955902A (zh) * | 2012-10-09 | 2013-03-06 | 中国人民解放军63892部队 | 雷达模拟设备可信度的评估方法及评估系统 |
CN103236264A (zh) * | 2013-05-03 | 2013-08-07 | 湖北文理学院 | 一种用于声源分离的编解码方法 |
CN104427471A (zh) * | 2013-09-04 | 2015-03-18 | 华为技术有限公司 | 一种移动网络自动建立连接的方法及终端 |
US9092691B1 (en) * | 2014-07-18 | 2015-07-28 | Median Technologies | System for computing quantitative biomarkers of texture features in tomographic images |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN105405445A (zh) * | 2015-12-10 | 2016-03-16 | 北京大学 | 一种基于声道间传递函数的参数立体声编码、解码方法 |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
CN105844050A (zh) * | 2016-04-12 | 2016-08-10 | 吉林大学 | 基于时间相关的数控机床组件更换时间方法 |
Non-Patent Citations (5)
Title |
---|
FRITZ ALBREGTSEN,BIRGITTE NIELSEN: "Adaptive Gray Level Run Length Features from Class Distance Matrices", 《PROCEEDINGS 15TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 * |
XIAOOU TANG: "Texture Information in Run-Length Matrices", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
何敏等: "基于信息熵和组合纹理特征的熟料状态检测 ", 《仪器仪表学报》 * |
杜宇峰 、张连海: "AMR语音编码码流特征分析及识别", 《无线电工程》 * |
范艳峰等: "谷物害虫检测与分类识别技术的研究及应用", 《计算机工程》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908309A (zh) * | 2021-02-06 | 2021-06-04 | 漳州立达信光电子科技有限公司 | 语音识别方法、装置、设备及按摩沙发 |
Also Published As
Publication number | Publication date |
---|---|
CN107945807B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100521708C (zh) | 移动信息终端的语音识别与语音标签记录和调用方法 | |
Patel et al. | Speech recognition and verification using MFCC & VQ | |
Kekre et al. | Speaker identification by using vector quantization | |
CN106128465A (zh) | 一种声纹识别系统及方法 | |
JP2011053563A (ja) | 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム | |
US11727954B2 (en) | Diagnostic techniques based on speech-sample alignment | |
US9240181B2 (en) | Automatic collection of speaker name pronunciations | |
US11776561B2 (en) | Diagnostic techniques based on speech models | |
CN110047474A (zh) | 一种英语音标发音智能训练系统及训练方法 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
CN109065059A (zh) | 用音频特征主成分建立的语音群集来识别说话人的方法 | |
CN107945807A (zh) | 基于静音游程的语音识别方法及其系统 | |
AU2020235966B2 (en) | Diagnostic techniques based on speech-sample alignment | |
JP3798530B2 (ja) | 音声認識装置及び音声認識方法 | |
JP3735209B2 (ja) | 話者認識装置及び方法 | |
Cen et al. | Segmentation of speech signals in template-based speech to singing conversion | |
Abushariah et al. | Voice based automatic person identification system using vector quantization | |
CN106887229A (zh) | 一种提升声纹识别准确度的方法和系统 | |
Aliyu et al. | Development of a text-dependent speaker recognition system | |
KR100304788B1 (ko) | 연속 음성 인식을 이용한 전화번호 안내 방법 | |
Balasubramaniyam et al. | Feature based Speaker Embedding on conversational speeches | |
JP2004117724A (ja) | 音声認識装置 | |
AU1653092A (en) | Speaker recognition method | |
Pol et al. | USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM | |
JPH05265482A (ja) | 情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |