CN1959805A - 利用模糊理论的话方独立型语音识别方法 - Google Patents
利用模糊理论的话方独立型语音识别方法 Download PDFInfo
- Publication number
- CN1959805A CN1959805A CNA2006101400825A CN200610140082A CN1959805A CN 1959805 A CN1959805 A CN 1959805A CN A2006101400825 A CNA2006101400825 A CN A2006101400825A CN 200610140082 A CN200610140082 A CN 200610140082A CN 1959805 A CN1959805 A CN 1959805A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- trooping
- speech recognition
- training
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种利用模糊理论的话方独立型语音识别方法,特别是一种可提高语音识别的准确度的利用模糊理论的话方独立型语音识别方法。为此,本发明中的利用模糊理论的话方独立型语音识别方法,包含有如下几个步骤:利用模糊分群法分类与语音信号的训练数据集对应的多个群集,并训练上述多个群集各个的分类器的训练模式步骤;获取语音信号并根据上述按多个群集训练的分配器计算出分类结果,对上述结果进行线性结合并计算出最终识别结果的测试模式步骤。根据如上所述的本发明,分配器的性能将保持稳定的状态并可提供更加稳定的话方独立型语音识别方法,同时,用户无需进行自行的训练过程也可即可使用。
Description
技术领域
本发明涉及利用模糊理论的话方独立型语音识别方法,特别是涉及一种利用模糊分群法稳定保持分类器的性能,并通过分类器的分类结果的线性结合计算出最终结果,从而可改善语音识别的准确度的利用模糊理论的话方独立型语音识别方法。
背景技术
最近,移动通信终端等电子装置中作为用户便利功能而设置语音识别功能,上述语音识别方法超越了简单的单词的识别水准而达到可识别对话等形态的连续语音的水平。
在此,连续语音识别方法大体上分为话方从属型方法和话方独立型方法,其中,在上述话方从属型语音识别方法中,为了考虑到与特定话方对应的特性,通过由特定话方的训练数据设定的模型(model)进行语音识别;在话方独立型语音识别方法中,通过由预设定的训练数据设定的模型而与话方的个人特性无关地进行语音识别。
虽然上述话方从属型语音识别方法具有优秀的识别性能,但用户需要首先进行自行的训练过程而无法即刻使用,使一般在遇到特别的情况时使用。
此外,由于话方独立型语音识别方法中使用预设定的训练数据,用户无需进行自行的训练过程也可即刻使用,使在当前得到广泛的应用,但其由于针对一部分特定话方的性能降低,与上述话方从属型语音识别方法比较时性能较差。
如上所述,话方从属型及话方独立型语音识别方法根据其各自的优缺点使用,但考虑到移动通信终端等电子装置的大量生产并由不特定的多个用户使用的特点时,一般将改进上述话方独立型语音识别方法并使用。
图4是现有技术中的语音识别系统的结构图。
如图4所示,语音识别系统中包含有如下几个部分:用于输入连续语音信号的信号输入装置410;根据在后端使用的话方独立模型的群集(cluster)个数而收集使当个数的训练数据的训练数据收集装置420;利用K-means分群法(K-means clustering-K组平均分群法)将话方独立模型分为与训练数据的个数对应的群集的话方独立模型分群装置430;利用最大似然线性回归法(maximum likelihood linear regression:MLLR)按各个群集制作话方适应模型的话方适应装置440;将话方使用模型与话方独立模型进行替换,并使获取按各话方提高的连续语音识别结果的连续语音识别装置450;执行与识别的结果对应的动作的识别结果执行装置460。
在上述语音识别系统中,为了按话方分离使用分类器而采用k-means算法,通过上述k-means算法将对数据进行分群(clustering)并按各群集(cluster)采用相互不同的分类器(classifiers),同时将利用属于各群集内的分类器的结果执行语音识别操作。
但是,在上述现有技术的话方独立型语音识别方法中,在完成k-means分群操作时,将只利用属于可能性最高的群集的分类器,由于分类性能只依赖一个分类器而其结果将可能导致分类性能的降低。
如上所述将各样本(sample)的所属可能性限定于一个分类器或一个群集的情况定义为“硬(hard)”,在将k-means分群等硬的分群应用于语音识别的情况下,初始化步骤中的错误设定将可能导致整体上的性能降低。
即,整体上的语音识别的性能比起分类器的性能将更取决于根据k-means分群的群集设定,并且,由于k-means算法对初始值设定敏感并具有稳定性(stability)较差的缺点,其结果错误的群集设定将导致语音识别的性能降低。
并且,在现有技术的话方独立型语音识别方法中,由于针对训练模式和测试模式的分类不明确,在产品推出之前将预先执行训练过程,从而无法充分突显话方独立型语音识别的无需进行话方的自行训练过程的优点。
发明内容
本发明所要解决的技术问题在于提供一种利用模糊理论的话方独立型语音识别方法,可通过基于模糊分群法的分群和对应的分类器结果的线性结合而提高语音识别的准确度。
为实现上述目的,本发明中的利用模糊理论的话方独立型语音识别方法,其特征在于,包含有如下几个步骤:利用模糊分群法分类与语音信号的训练数据集对应的多个群集,并训练上述多个群集各个的分类器的训练模式步骤;获取语音信号并根据上述按多个群集训练的分配器计算出分类结果,对上述结果进行线性结合并计算出最终识别结果的测试模式步骤。
并且,其特征在于,上述训练模式步骤中包含有:获取与上述训练数据集(set)的各样本(sample)对应的语音信号并计算出特定向量(vector)的样本特性提取步骤;以上述计算出的特定向量为基础,利用模糊分群法计算出上述多个群集的中心位置向量及与上述各群集对应的上述样本的归属函数的分群步骤;以上述多个群集的中心位置向量及上述样本的归属函数为基础,利用上述训练数据集使上述多个群集的分类器进行学习的分类器训练步骤。
并且,本发明其特征在于:在上述分群步骤中,在分群的费用函数值小于预设定的值或超出预设定的反复次数之前,反复执行针对上述多个群集的中心位置向量及上述各群集的上述样本的归属函数的计算操作。
并且,本发明其特征在于,上述测试模式步骤中包含有:获取语音信号并提取出上述特性向量的特性向量提取步骤;以上述语音信号的特性向量为基础,计算出与上述多个群集对应的上述语音信号的归属函数,并根据按上述多个群集训练的分类器计算出分类结果的结果计算步骤;利用上述计算出的语音信号的归属函数对上述训练的分类器的分类结果进行线性结合的线性结合步骤;在上述训练的分类器的分类结果中,将上述线性结合值最大的分类结果计算出为最终结果的最终结合计算步骤。
并且,本发明其特征在于:在上述结合计算步骤中,可通过如下的数学式计算出与上述多个群集对应的上述语音信号的归属函数。
【数学式1】
其中,c是群集的个数,m是与归属函数对应的加权值常数(m=2),δi是从第i个群集的中心到语音信号的特性向量的距离。
并且,本发明其特征在于:在上述线性结合步骤中,针对上述多个群集中的各个群集乘法计算上述训练的分类器的分类结果和与上述各群集对应的上述计算出的语音信号的归属函数,并将其结果针对所有的群集进行合算。
在本发明的利用模糊理论的话方独立型语音识别方法中,利用FCM分群法分群训练数据集的样本并使分类器进行学习,使可获取通过多种分群的软(soft)的分群结果,将其采用在多重分类器将可稳定保持分类器的性能。
附图说明
图1是本发明实施例中的利用模糊理论的话方独立型语音识别方法的训练模式的流程图;
图2是图1中的分群法的流程图;
图3是本发明实施例中的利用模糊理论的话方独立型语音识别方法的测试模式的流程图;
图4是现有技术中的语音识别系统的结构图。
具体实施方式
下面参照附图对本发明中的较佳实施例进行详细的说明。
本发明旨在利用模糊理论执行分群操作,并通过线性结合多重分类器的语音识别的结果而提高语音识别的性能,上述针对一个数据从所有群集收集与各群集对应的所属可能性并利用的情况定义为“软(soft)”。
本发明实施例中的利用模糊理论的话方独立型语音识别方法,其由例如图1所示的在产品出厂前利用预设定的训练数据集执行训练的训练模式,以及如图3所示的识别实际用户的语音的测试模式构成。
在训练模式中,获取训练数据集的语音信号(步骤S101)并从中提取出有意义的特性向量后(步骤S102),以训练数据集的特性向量为基础,利用模糊理论进行分群(步骤S103),并根据分群结果分类特性向量并训练分类器(步骤S104)。
在测试模式中,获取语音信号(步骤S301)并从中提取出特性向量后(步骤S302),利用提取出的特性向量计算出与各群集对应的模糊归属函数(Fuzzymembership function)(步骤S303),通过预先训练的分类器计算出多重的分类结果(步骤S304),利用归属函数对上述结果进行线性结合(步骤S305)并计算出识别结果,获取最终的分类结果(步骤S306)。
下面参照附图1至附图3对本发明实施例中的利用模糊理论的话方独立型语音识别方法进行具体的说明。
图1是本发明实施例中的利用模糊理论的话方独立型语音识别方法的训练模式的流程图。
首先,在步骤S101中,当获取与预设定的训练数据集对应的语音信号时,将开始执行利用模糊理论的话方独立型语音识别方法的训练模式。
其中,上述训练数据集由语音信号构成。
在步骤S102中,通过预设定的特性向量提取方法计算出与上述获取的训练数据集的各样本对应的特性向量。
其中,各样本的特性向量指的是如后所述的用于计算出与各群集对应的归属函数的样本的位置向量。
在步骤S103中,以上述计算出的各样本的特性向量为基础,利用模糊分群法(FCM:Fuzzy C-Means clustering-模糊C组平均分群)对各样本进行分群。
更具体说,针对各样本的模糊分群是如后所述的计算出多个群集的中心位置向量及与上述各群集对应的各样本的归属函数。
下面对计算多个群集的中心位置向量和与各群集对应的各样本的归属函数的方法进行说明,首先,归属函数(uij)表示各样本针对属于训练数据集的所有样本对各群集作出了多少贡献,上述归属函数(uij)根据模糊条件(Fuzzycriterion)而应满足如下的条件。
【数学式2】
其中,c是群集的个数,n是样本的总个数。
此时,模糊分群将可转换为如下的找出使费用函数(J)最小化的条件的问题。
【数学式3】
其中,dij是第i个群集中心和第j个样本之间的距离,m是针对归属函数的加权值常数,其通常为2。
并且,第1个群集中心和第j个样本之间的距离可利用欧几里得(Euclidean)距离或马哈拉诺比斯(Mahalanobis)距离等多种距离计算法计算得出,这里将利用欧几里得距离并通过如下式进行计算。
【数学式4】
dij=|ci-xj|2
其中,ci是各群集中心的位置向量,xj是各样本的位置向量。
其结果,模糊分群将归结为求出满足数学式2并使数学式3的费用函数最小化的各样本的归属函数的问题。
利用拉格朗日函数(lagrangian multiplier function)求出将获得如下的结果。
【数学式5】
【数学式6】
利用上述数学式5及数学式6在群集的费用函数值小于预设定的值或超出预设定的反复次数之前反复执行后述的图2的过程时,将可计算出与各样本对应的最终的归属函数。
上述归属函数即是对各样本进行软(soft)的分群的结果。
在步骤S104中,以计算出的多个群集的中心位置向量及上述样本的归属函数为基础,利用训练数据集按多个群集使分类器进行学习。
即,在决定各群集后,如步骤S103使各样本根据训练数据集的各样本的归属函数按群集进行分类,并利用分类的各个群集的训练数据集样本使各分类器进行学习时,将可决定各群集的分类器。
其中,用于语音识别的分类器可利用HMM(Hidden Markov Models-隐藏式马可夫模型)等。
通过上述方法将结束利用模糊理论的话方独立型语音识别方法的训练模式。
图2是图1中的分群法的流程图。
首先,在步骤S201中对与各样本对应的归属函数(uij)进行初始化。
其中,为了通过数学性的反复过程计算出与各群集对应的各样本的归属函数,需要将归属函数初始化为任意的值,例如,将利用随数生成器进行初始化。
在步骤S202中,对与各样本对应的归属函数(uij)进行正规化。
在步骤S203中,计算出群集的中心位置向量(ci)。
其中,为了计算出与各样本对应的归属函数,需要确认各样本和各群集的中心之间的距离,使将如数学式5首先计算出群集的中心位置向量。
在步骤S204中,计算出与各样本对应的归属函数(uij)。
即,以上述步骤S203中计算出的各群集的中心位置向量为基础,利用数学式6计算出与各样本对应的归属函数。
在步骤S205中,计算出与计算出的群集的位置向量(ci)和各样本的归属函数(uij)对应的费用函数(J)。
即,模糊分群是如上所述计算出满足数学式2和数学式3的各样本的归属函数的过程,为了确认以各群集的位置向量为基础计算出的各样本的归属函数是否满足数学式3而将计算出费用函数。
在步骤S206中,判断费用函数(J)是否充分小,并在判断为充分小的情况下,即,当费用函数小于预设定的值的情况下,将结束模糊分群步骤并返回到训练模式的步骤S104。
在步骤S206中判断的结果当判断为费用函数(J)未充分小的情况下,即,当费用函数大于预设定的值的情况下,将进行步骤S207并判断是否超出预设定的最大反复次数,当判断为超出预设定的最大反复次数的情况下,将结合模糊分群步骤并返回到训练模式的步骤S104。
在步骤S207中判断的结果当判断为未超出预设定的最大反复次数的情况下,将返回到步骤S203并在费用函数变为充分小或超出最大反复次数之前反复执行步骤S203至步骤S205。
图3是本发明实施例中的利用模糊理论的话方独立型语音识别方法的测试模式的流程图。
首先,在步骤S301中,当用户获取语音信号时,将开始执行利用模糊理论的话方独立型语音识别方法的测试模式。
在步骤S302中,通过预设定的特性向量提取方法提取出与输入的语音信号对应的特性向量。
其中,语音信号的特性向量是如后所述的用于计算针对模糊分群的归属函数的语音信号的位置向量。
在步骤S303中,计算出与各群集对应的归属函数(ui)。
即,以上述步骤S302中提取出的特性向量为基础,利用数学式1计算出与语音信号的模糊分群对应的归属函数。
在数学式1中,δi是从第i个群集的中心到获取的语音信号的特性向量的距离,其将通过如下的数学式计算得出。
【数学式7】
δi=|xt-ci|
其中,xt是文本数据即语音信号的特性向量(位置向量)。
在步骤S304中,根据按多个群集训练的分类器计算出分类结果。
上述分类器是通过上述训练模式中预设定的训练数据集事先进行训练的分类器。
如上所述,在步骤S303中计算出与所有群集对应的归属函数时,在按所有群集训练的所有分类器中采用语音信号的特性向量计算出分类结果。
其中,例如将属于第i个群集的分类器的分类结果称为ei时,其分类结果将可通过如下数学式表示。
【数学式8】
ei=[e1i,e2i,0,eki,0,eli]
其中,l是可进行分类的语音集的个数。
在步骤S305中,利用语音信号的归属函数对各训练的分类器的分类结果进行线性结合。
更具体说,针对多个群集中的各个群集乘法计算上述训练的分类器的分类结果和与上述各群集对应的上述计算出的语音信号的归属函数,并将其结果针对所有的群集进行合算,从而线性结合分类器的分类结果。
在步骤S306中,在训练的分类器的分类结果中,将线性结合值最大的分类结果计算出为最终结果并计算出识别结果。
即,最终的分类结果可通过如下的数学式软(soft)计算得出。
【数学式9】
其中,k是分类结果ei的索引(index)。
例如,假设可进行分类的语音信号集为5个,将其利用归属函数进行线性结合的结果,在数学式9的西格马(sigma)计算表示为[0.7,1.1,0.3,4.7,2.1]的情况下,由于表示4.7的结果的第4个位置最大,其最终结果是4。
通过上述方法将结束利用模糊理论的话方独立型语音识别方法的测试模式。
发明的效果:
如上详细所述,在本发明的利用模糊理论的话方独立型语音识别方法中,利用FCM分群法分群训练数据集的样本并使分类器进行学习,使可获取通过多种分群的软(soft)的分群结果,将其采用在多重分类器将可稳定保持分类器的性能。
并且,在本发明中,将基于FCM分群法的分类器的结果进行线性结合并计算出最终识别结果,使将语音识别的性能改进为与话方从属型语音识别的性能相近的水平,从而提供更为稳定的话方独立型语音识别方法。
并且,在本发明中,将分为产品出厂前利用预设定的训练数据集执行训练的训练模式和识别实际用户的语音的测试模式,从而使用户无需进行自行的训练过程即刻使用。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的普通技术人员当可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (6)
1.一种利用模糊理论的话方独立型语音识别方法,其特征在于,包含有如下几个步骤:
利用模糊分群法分类与语音信号的训练数据集对应的多个群集,并训练上述多个群集各个的分类器的训练模式步骤;
获取语音信号并根据上述按多个群集训练的分配器计算出分类结果,对上述结果进行线性结合并计算出最终识别结果的测试模式步骤。
2.根据权利要求1所述的利用模糊理论的话方独立型语音识别方法,其特征在于,上述训练模式步骤中包含有:
获取与上述训练数据集的各样本对应的语音信号并计算出特定向量的样本特性提取步骤;
以上述计算出的特定向量为基础,利用模糊分群法计算出上述多个群集的中心位置向量及与上述各群集对应的上述样本的归属函数的分群步骤;
以上述多个群集的中心位置向量及上述样本的归属函数为基础,利用上述训练数据集使上述多个群集的分类器进行学习的分类器训练步骤。
3.根据权利要求2所述的利用模糊理论的话方独立型语音识别方法,其特征在于,
在上述分群步骤中,在分群的费用函数值小于预设定的值或超出预设定的反复次数之前,反复执行针对上述多个群集的中心位置向量及上述各群集的上述样本的归属函数的计算操作。
4.根据权利要求1所述的利用模糊理论的话方独立型语音识别方法,其特征在于,上述测试模式步骤中包含有:
获取语音信号并提取出上述特性向量的特性向量提取步骤;
以上述语音信号的特性向量为基础,计算出与上述多个群集对应的上述语音信号的归属函数,并根据按上述多个群集训练的分类器计算出分类结果的结果计算步骤;
利用上述计算出的语音信号的归属函数对上述训练的分类器的分类结果进行线性结合的线性结合步骤;
在上述训练的分类器的分类结果中,将上述线性结合值最大的分类结果计算出为最终结果的最终结合计算步骤。
5.根据权利要求4所述的利用模糊理论的话方独立型语音识别方法,其特征在于,
在上述结合计算步骤中,可通过如下的数学式计算出与上述多个群集对应的上述语音信号的归属函数:
其中,c是群集的个数,m是与归属函数对应的加权值常数,m=2,δi是从第i个群集的中心到语音信号的特性向量的距离。
6.根据权利要求4所述的利用模糊理论的话方独立型语音识别方法,其特征在于,在上述线性结合步骤中,针对上述多个群集中的各个群集乘法计算上述训练的分类器的分类结果和与上述各群集对应的上述计算出的语音信号的归属函数,并将其结果针对所有的群集进行合算。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20050104785 | 2005-11-03 | ||
KR1020050104785 | 2005-11-03 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1959805A true CN1959805A (zh) | 2007-05-09 |
Family
ID=38071471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006101400825A Pending CN1959805A (zh) | 2005-11-03 | 2006-10-18 | 利用模糊理论的话方独立型语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1959805A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077715A (zh) * | 2011-09-20 | 2013-05-01 | 苹果公司 | 合并语音辨识结果 |
-
2006
- 2006-10-18 CN CNA2006101400825A patent/CN1959805A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077715A (zh) * | 2011-09-20 | 2013-05-01 | 苹果公司 | 合并语音辨识结果 |
CN103077715B (zh) * | 2011-09-20 | 2015-07-29 | 苹果公司 | 合并语音辨识结果 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1162839C (zh) | 产生声学模型的方法和装置 | |
CN1236423C (zh) | 说话人声音的后台学习 | |
CN1295672C (zh) | 模式识别 | |
CN1290039C (zh) | 自动进行音频内容分析的系统和方法 | |
CN1573926A (zh) | 用于文本和语音分类的区别性语言模型训练 | |
CN1758263A (zh) | 基于得分差加权融合的多模态身份识别方法 | |
CN1703734A (zh) | 从声音确定音符的方法和装置 | |
CN1177407A (zh) | 基于速度的手写体识别方法和系统 | |
CN1701323A (zh) | 使用笔迹特征合成的数字笔迹数据库搜索 | |
CN101059796A (zh) | 基于概率主题词的两级组合文本分类方法 | |
CN1761997A (zh) | 用于连续视听语音识别的耦合隐马尔可夫模型(chmm) | |
CN1787076A (zh) | 基于混合支持向量机的说话人识别方法 | |
CN102915729B (zh) | 语音关键词检出系统、创建用于其的词典的系统和方法 | |
CN1716380A (zh) | 基于决策树和说话人改变检测的音频分割方法 | |
CN107908642B (zh) | 基于分布式平台的行业文本实体提取方法 | |
CN1787075A (zh) | 基于内嵌gmm核的支持向量机模型的说话人识别方法 | |
Gingras et al. | A three-parameter model for classifying anurans into four genera based on advertisement calls | |
CN111274955A (zh) | 一种基于视听特征相关性融合的情感识别方法及系统 | |
CN101030297A (zh) | 一种复杂性测度的图像纹理分割方法 | |
CN1924994A (zh) | 一种嵌入式语音合成方法及系统 | |
CN114863938A (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
CN111930885B (zh) | 文本话题的抽取方法、装置及计算机设备 | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
CN1298533A (zh) | 用于特殊领域或方言的语音识别器 | |
CN1214362C (zh) | 用于确定信号间相关系数和信号音高的设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |