CN101226741B - 一种活动语音端点的侦测方法 - Google Patents

一种活动语音端点的侦测方法 Download PDF

Info

Publication number
CN101226741B
CN101226741B CN 200710306523 CN200710306523A CN101226741B CN 101226741 B CN101226741 B CN 101226741B CN 200710306523 CN200710306523 CN 200710306523 CN 200710306523 A CN200710306523 A CN 200710306523A CN 101226741 B CN101226741 B CN 101226741B
Authority
CN
China
Prior art keywords
voice
step
zero
speech
active
Prior art date
Application number
CN 200710306523
Other languages
English (en)
Other versions
CN101226741A (zh
Inventor
廖崇伯
陈淮琰
Original Assignee
无敌科技(西安)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 无敌科技(西安)有限公司 filed Critical 无敌科技(西安)有限公司
Priority to CN 200710306523 priority Critical patent/CN101226741B/zh
Publication of CN101226741A publication Critical patent/CN101226741A/zh
Application granted granted Critical
Publication of CN101226741B publication Critical patent/CN101226741B/zh

Links

Abstract

本发明涉及一种活动语音端点的侦测方法,该方法包括以下步骤:1)、接收连续语音,并从此连续语音中获取音框;2)、计算步骤1)中获取的音框的能量,并根据这些能量取得能量门限值;3)、分别计算步骤1)中获取的音框的越零率,并根据这些越零率取得越零率门限值;4)、使用线性回归演绎法,并以步骤2)中获取的能量及步骤3)中获取的越零率作为线性回归演绎法的输入参数,用来判断每一音框是否为活动语音或非活动语音;5)、根据能量门限值及越零率门限值,自步骤4)中的活动语音及非活动语音中取得活动语音起点及活动语音终点。本发明提高了活动语音起点及活动语音终点的判断准确率,以及提高语音辨识的正确率。

Description

一种活动语音端点的侦测方法

技术领域

[0001] 本发明涉及一种语音辨识侦测方法,尤其是一种用于提高辨识活动语音(active voice)正确率的活动语音端点的侦测方法。

背景技术

[0002] 原始语音模拟讯号经过数字化后,虽可直接作为辨识之用,但由于数据量过大,处 理时间过长,且效率不好,不可能将原始语音全部储存下来当作标准语音参考样本,因此必 须针对数字化语音讯号的特性,进行特征获取,以求取适当的特征参数来做比对辨认。而且 对语音讯号取得代表的特征参数,可减少数据量,增加效率。一般现有的非特定语者的中文 语音辨识的流程如图1所示,包含下列步骤:

[0003] 步骤1)语音讯号输入处理:在语音讯号输入后,将各个需作分析的语音讯号,用 数字讯号处理技术将语音段的讯号切割出来,形成多个音框,便于进行下一步骤。

[0004] 步骤2)语音讯号的前置处理:该前置处理的主要功能为端点侦测,用来判断一段 语音讯号的起迄点。

[0005] 步骤3)进行特征参数获取:通常采用梅尔(mel为音调频率的度量单位,mel的定 义:a mel is a unit of measure of perceived pitch or frequency of the tone)倒 频谱参数,将时域讯号转换成频谱后,就利用滤波器等工具将梅尔刻度(melscale)的特定 频谱值滤出来,取其对数后即为所求。

[0006] 步骤4)利用隐藏式马可夫模型(HMM)方法做语音辨识。所输入的语音讯号经端 点侦测、取音框后,再取其声音文件的特征向量,利用这些特征向量与经过训练的隐藏式马 可夫模型做比对,计算它是由某一串隐藏式马可夫模型所产生的机率有多大,来完成语音 辨识。

[0007] 以目前使用的判断方式对目前的输入讯号音框是否为活动语音(activevoice,意 指交谈中对话的声音)段落或非活动语音(inactive voice,意指交谈中停顿的静音或背 景噪声),在判断上仍有误判的情况发生。若是发生误判,则在进行特征参数的获取时,因为 目标语音包含活动语音及非活动语音,将导致语音辨识的正确率降低。因此,如何准确切割 出活动语音的范围是语音辨识技术中的重要关键。

发明内容

[0008] 本发明的目的在于提供一种适用于语音辨识时的活动语音端点的侦测方法,从而 克服背景技术中所述的现有技术中的不足,提高活动语音起点及活动语音终点的判断准确 率,进而提高语音辨识的正确率。

[0009] 本发明的技术解决方案是,一种活动语音端点的侦测方法,其特殊之处在于,该方 法包括以下步骤:

[0010] 1)、接收连续语音,并从此连续语音中获取音框;

[0011] 2)、计算步骤1)中获取的音框的能量,并根据这些能量取得能量门限值;[0012] 3)、分别计算步骤1)中获取的音框的越零率,并根据这些越零率取得越零率门限 值;

[0013] 4)、使用线性回归演绎法,并以步骤2)中获取的能量及步骤3)中获取的越零率作 为线性回归演绎法的输入参数,用来判断每一音框是否为活动语音或非活动语音;

[0014] 5)、根据能量门限值及越零率门限值,自步骤4)中的活动语音及非活动语音中取 得活动语音起点及活动语音终点。

[0015] 由于本发明根据所输入语音的音框的能量与越零率来更新能量门限值及越零率 门限值,再加上使用多重线性回归(Multiple linear regression)演绎法及其它评断流 程,因此本发明提高了活动语音起点及活动语音终点的判断准确率,进而提高了语音辨识 的正确率。

附图说明

[0016] 图1是现有技术中的非特定语者的中文语音辨识的流程图;

[0017] 图2是本发明具体实施例的方法流程图;

[0018] 图3是本发明获取音框的能量,并根据这些能量取得能量门限值的示意图。 具体实施方式

[0019] 语音活动侦测是用来判定是否有真人语音,近年来已广泛用于通讯上达到节省能 量耗损的目的。若用于语音辨识方面是属于语音辨识的前置处理,对辨识结果的影响很大, 精确的语音活动侦测可降低噪音影响并提高辨识率。传统的语音活动侦测大多使用语音能 量或越零率等信息来判别,本发明是针对前述的语音活动侦测方法而特意增添一多重线性 回归的数学演绎函数及其它评断流程,对需要辨识的语音作端点侦测,以顺利完成语音辨 识的前置处理。

[0020] 因而,为解决现有技术因获取语音的参数不足,而导致辨识语音上正确率降低,本 发明提供一种语音辨识时的活动语音端点侦测方法,以下为本实施例的各实验数值及本实 施例的流程图式说明。

[0021] 参见图2,本发明的活动语音端点侦测方法包含:

[0022] 步骤1)接收至少一连续语音,并自该连续语音获取复数段音框;语音是个时变 (Time-varying)的讯号,但在观察实际语音讯号时可发现,语音讯号在短时间内的变化是 很缓慢的。因此,在语音信号处理上我们通常采用短时间稳定(Short time stationary)的 假设,以固定的取样点数(Samples)为一个音框(Frame),将语音讯号切割成复数段音框, 观察并利用每个音框的特征:

[0023] 步骤2)计算步骤1)所获取的音框的能量,并根据这些能量取得一能量门限值;

[0024] 参见图3,由语音缓冲区(亦指该连续语音的复数段音框)的开始处取一小窗口, 然后计算此窗口于时距中所累积的能量,其中,所谓时距是指获取的一音框至相临另一音 框所相隔的时间。使用线性回归演绎法计算所有音框的能量后,从所有能量中取得一相对 能量门限值,并将相对能量门限值与一预估能量最小值相比较,以两者之中较大值作为最 终选定的能量门限值。

[0025] 其中,前述预估能量最小值是在一安静无声下测得的一段静音,用作使用预估的最小值。而相对能量门限值是所有音框能量中的最大能量的1/32。

[0026] 步骤3)分别计算这些音框的越零率,并根据这些越零率取得一越零率门限值。

[0027] 在本实施例中,取得越零率门限值方法是将一默认值与对应的这些越零率的相 对越零率进行比对,以两者之中较小值作为该越零率门限值。其中,此默认值是依照文献 [Shanughnessy’ 87,p. 125]而设定一门限值,有声无声的边界越零率值为3000crOSS/S ;前 述相对越零率是在(音框)能量低于前述音框的能量门限值时的音框的越零率的平均值。

[0028] 步骤4)使用一线性回归演绎法,并以前述复数个音框的能量及越零率作为该线 性回归演绎法的输入参数,用来判断每一音框是否为一活动语音或一非活动语音。

[0029] 步骤5)根据前述的能量门限值及越零率门限值,从这些活动语音及非活动语音 中取得至少一活动语音起点及至少一活动语音终点。

[0030] 本实施例中的线性回归演绎法也是一种多重线性回归(Multiple-regressive) 的应用,其是由回归分析的应用领域所衍生出的,该回归分析可用来找出两个或两个以上 变数间的关系,进而从一群变数中预测数据的趋势,在本实施例中,这些能量及这些越零率 是作为该线性回归演绎法所输入的两个变数。

[0031] 具体如下公式所示。

[0032] y = b0+ ^xl +A + bkxk

[0033] 其中Xi为独立自变量,夕为相依于Xi的因变量,在利用大量的数据训练出系数h 后,实际利用时只要将Xi带入此公式即可预测Jp的趋势。在这里我们令Xi分别为语音音框 的能量与越零率,而iH戈表的就是此音框为活动语音或非活动语音。

[0034] 本实施例中同时使用能量门限值及越零率门限值来判断,是因为语音中的鼻音、 气音的能量都较小,容易被误判为非活动语音(inactive voice)而被删除,这样对于语音 辨识在做判断时将会导致错误,加上越零率门限值的判断可以分辨出子音与非活动语音的 不同,在非活动语音时,只有背景噪声,此时静音的越零率较低,而子音信号的越零率有一 定的数值,当有一预定的门限值时便能辨别出非活动语音与子音。

[0035] 推至步骤5)时,当所选音框为活动语音,并且该所选音框及后段音框的能量皆大 于该能量门限值,再判断该所选音框的前两段音框的越零率是否大于该越零率门限值,若 有大于该越零率门限值则活动语音起点由该所选音框往前移动一或二音框,若无大于该越 零率门限值则该所选音框则为一活动语音起点。

[0036] 当所选音框为一非活动语音,且已取得该活动语音起点,且该所选音框及后五段 音框的能量皆小于该能量门限值,再判断该所选音框之后两段音框的越零率是否大于该 越零率门限值,若有大于该越零率门限值则活动语音终点由该所选音框往后移动一或二音 框,若无大于该越零率门限值则该所选音框为一活动语音终点。

[0037] 而选取连续的五个音框其原因为,某些时候这些音框的能量会低于门限值:因为 人在连续发音中因短暂休息所获取的连续音框会断开,而非真正的静音,所以当设定这些 音框的能量由门限值以上变化到门限值以下时,必须经过连续的五个音框才能真正视为活

动语音结束。

[0038] 以下为针对上述侦测流程中的一活动语音端点的侦测后的实验数值。

[0039] 实验语料是取自2003年二月份底与三月份的『大家説英语』教材,总共有25个语 音文件,每个档案的格式都是8kHz取样频率,每个取样点以16位量化,单声道,平均长度约为1分半左右,每一个音框长度为22. 5ms。此语料大多是人与人之间的对话,所以很适合作 为语音活动检测的数据库,其中前20个档案作为训练用,总长度约为28分半,后5个档案 作为测试用,总长度约为7分半。

[0040] 实验会根据输入参数所求得的语音活动状态,与正确的语音活动状态作分析,总 共会计算三种错误率,分别是总错误率、非活动判断为活动的错误率以及活动判断为非 活动的错误率,并且与G. 729的VAD做比较,如表一。

[0041] 表一

[0042]

VAD型式 Etotal Ena Ean多重线性回归(训练) 11. 54 6.6563 4. 8837G. 729(训练) 22.243 21. 619 0. 62432 多重线性回归(训练) 16.808 13. 903 2.9049G. 729 (测试) 27. 945 25. 052 2.8938

[0044] 由表一可以看到在整体的错误率及非活动语音判断为活动语音的情况,多重线性 回归不论是训练语料或是测试语料都优于G. 729,但是在活动语音判断为非活动语音时,多 重线性回归在训练语料所表现的结果是较差的,而这部份的错误对于辨识时也有较大的影 响,因为将活动语音判断为非活动语音会常常使得某些子音被忽略,导致辨识错误,因此, 希望在总错误率增加不多的情形下降低En_a。

[0045] 在调整多重线性回归输入变数的权重下,即可影响错误率的表现。若将能量的权 重向下修正,可以降低活动音框判断为非活动音框的错误率,同时也会使更多的非活动音 框判断为活动音框,将越零率向上修正也会有类似的效果,这里选择改变能量的权重,越零 率维持不变,而训练语料中的刻意选择接近1%,

[0046]最后所训练出的回归系数为 bl = -2. 3089,b2 = 0. 047486,b3 = 0. 50885。

[0047] 表二

[0048]

VAD型式 Etotal Ena Ean多重线性回归(训练) 12.826 11. 835 0. 99187G. 729(训练) 22.243 21. 619 0. 62432多重线性回归(训练) 20. 011 19.511 0. 4999G. 729 (测试) 27. 945 25. 052 2.8938

[0049] 重新测试实验结果如下表二所示,在各种情形下,多重线性回归(Weighted)方 法皆优于G. 729的VAD,并且在活动语音判断为非活动语音的错误也能保持一定的水平(1% )。

Claims (1)

1. 一种活动语音端点的侦测方法,其特征在于,该方法包括以下步骤:1)、接收连续语音,并从此连续语音中获取多个音框;2)、计算步骤1)中获取的音框的能量,并根据这些能量取得能量门限值;3)、分别计算步骤1)中获取的音框的越零率,并根据这些越零率取得越零率门限值;4)、使用多重线性回归演绎法,并以步骤2)中获取的能量及步骤3)中获取的越零率作 为线性回归演绎法的输入参数,用来判断每一音框是否为活动语音或非活动语音;5)、根据能量门限值及越零率门限值,自步骤4)中的活动语音或非活动语音中取得活 动语音起点及活动语音终点。
CN 200710306523 2007-12-28 2007-12-28 一种活动语音端点的侦测方法 CN101226741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710306523 CN101226741B (zh) 2007-12-28 2007-12-28 一种活动语音端点的侦测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710306523 CN101226741B (zh) 2007-12-28 2007-12-28 一种活动语音端点的侦测方法

Publications (2)

Publication Number Publication Date
CN101226741A CN101226741A (zh) 2008-07-23
CN101226741B true CN101226741B (zh) 2011-06-15

Family

ID=39858698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710306523 CN101226741B (zh) 2007-12-28 2007-12-28 一种活动语音端点的侦测方法

Country Status (1)

Country Link
CN (1) CN101226741B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366739B (zh) * 2012-03-28 2015-12-09 郑州市科学技术情报研究所 面向孤立词语音识别的自适应端点检测方法及其系统
CN110537223A (zh) * 2018-03-26 2019-12-03 深圳市汇顶科技股份有限公司 语音检测的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1099165A (zh) 1994-04-01 1995-02-22 清华大学 基于波形编辑的汉语文字-语音转换方法及系统
CN1118493A (zh) 1994-08-01 1996-03-13 中国科学院声学研究所 基音同步波形叠加汉语文语转换系统
US20030097263A1 (en) 2001-11-16 2003-05-22 Lee Hang Shun Decision tree based speech recognition
US6609092B1 (en) 1999-12-16 2003-08-19 Lucent Technologies Inc. Method and apparatus for estimating subjective audio signal quality from objective distortion measures
CN1647160A (zh) 2002-04-25 2005-07-27 莎琛娱乐有限公司 坚固而且不变的音频图样匹配
CN1731509A (zh) 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN101069231A (zh) 2004-03-15 2007-11-07 英特尔公司 语音通信的舒适噪声生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1099165A (zh) 1994-04-01 1995-02-22 清华大学 基于波形编辑的汉语文字-语音转换方法及系统
CN1118493A (zh) 1994-08-01 1996-03-13 中国科学院声学研究所 基音同步波形叠加汉语文语转换系统
US6609092B1 (en) 1999-12-16 2003-08-19 Lucent Technologies Inc. Method and apparatus for estimating subjective audio signal quality from objective distortion measures
US20030097263A1 (en) 2001-11-16 2003-05-22 Lee Hang Shun Decision tree based speech recognition
CN1647160A (zh) 2002-04-25 2005-07-27 莎琛娱乐有限公司 坚固而且不变的音频图样匹配
CN101069231A (zh) 2004-03-15 2007-11-07 英特尔公司 语音通信的舒适噪声生成方法
CN1731509A (zh) 2005-09-02 2006-02-08 清华大学 移动语音合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡玉龙.基于特征比较的语音评分在嵌入式系统中的应用研究.中国优秀硕士学位论文全文数据库.2007,1-56.

Also Published As

Publication number Publication date
CN101226741A (zh) 2008-07-23

Similar Documents

Publication Publication Date Title
EP1083542B1 (en) A method and apparatus for speech detection
Dusan et al. On the relation between maximum spectral transition positions and phone boundaries
JP4354653B2 (ja) ピッチ追跡方法および装置
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
CN1133974C (zh) 识别语音词汇的方法和系统
JP2010510534A (ja) 音声アクティビティ検出システム及び方法
Moattar et al. A simple but efficient real-time voice activity detection algorithm
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones
US5692104A (en) Method and apparatus for detecting end points of speech activity
CN1248190C (zh) 快速频域音调估计方法和装置
EP1005021A2 (en) Method and apparatus to extract formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
Becker et al. Forensic speaker verification using formant features and Gaussian mixture models
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
CN1160699C (zh) 语音识别系统
Dhananjaya et al. Voiced/nonvoiced detection based on robustness of voiced epochs
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
ES2684297T3 (es) Método y discriminador para clasificar diferentes segmentos de una señal de audio que comprende segmentos de voz y música
JP2006079079A (ja) 分散音声認識システム及びその方法
CN1223739A (zh) 用于语音识别的动态调节的训练方法和系统
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
US5596680A (en) Method and apparatus for detecting speech activity using cepstrum vectors
CN1315809A (zh) 用于移动通信的拼写语音识别装置和方法

Legal Events

Date Code Title Description
C06 Publication
C10 Request of examination as to substance
C14 Granted
C17 Cessation of patent right