CN102110436A - 一种基于语音包络特征的标志音识别方法及装置 - Google Patents

一种基于语音包络特征的标志音识别方法及装置 Download PDF

Info

Publication number
CN102110436A
CN102110436A CN2009102627717A CN200910262771A CN102110436A CN 102110436 A CN102110436 A CN 102110436A CN 2009102627717 A CN2009102627717 A CN 2009102627717A CN 200910262771 A CN200910262771 A CN 200910262771A CN 102110436 A CN102110436 A CN 102110436A
Authority
CN
China
Prior art keywords
envelope
sampled point
adjacent
speech data
data section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009102627717A
Other languages
English (en)
Other versions
CN102110436B (zh
Inventor
韩治
陆上义
朱振明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN2009102627717A priority Critical patent/CN102110436B/zh
Priority to PCT/CN2010/076778 priority patent/WO2011079624A1/zh
Priority to EP10840413.8A priority patent/EP2479748B1/en
Publication of CN102110436A publication Critical patent/CN102110436A/zh
Application granted granted Critical
Publication of CN102110436B publication Critical patent/CN102110436B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种基于语音包络特征的标志音识别方法及装置,涉及语音质量测试技术。本发明方法包括:从衰减样本中记录任一语音数据段,且该语音数据段的采样点数与标志音样本的采样点数相同,再从语音数据段的所有采样点中抽取包络特征采样点,若根据所抽取的包络特征采样点判断语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等,则判断语音数据段即为标志音。本发明技术方案解决了由于引入同频噪声导致标志音误判的问题。

Description

一种基于语音包络特征的标志音识别方法及装置
技术领域
本发明涉及无线(有线)通信领域的语音质量测试技术,具体涉及一种基于语音包络特征的标志音识别方法及装置。
背景技术
无线(有线)网络中语音质量测试都是通过对发送端发送的源音样本和接收端接到的衰减样本的比对来实现的。为了能客观地评估出网络的语音质量,需要源音样本与采集到的衰减样本准确对齐。通常,发送端在发送正式的源音样本前,会发送一段特征明显的语音数据来作为标志音,并在经过一段由发送端和接收端共同约定的时间后发送源音样本数据。接收端在识别出标志音后,等待相应时间,开始记录衰减样本。以此来实现源音样本和衰减样本的对齐。
在实际的测试过程中,发送端一般采用具有特殊频率的单音信号作为标志音。接收端在收到语音数据后,通过数据进行快速傅里叶变换(Fast FourierTransform,FFT)及滤波操作,来判断接收到的语音数据是否为标志音。在单纯的通信环境中,接收端通过FFT和滤波操作,能够滤除大部分的外界干扰。但是,在实际生活中网络环境复杂多变,往往存在着各种各样的干扰和噪声。测试过程中,一旦引入了与单音信号同频的噪声,则该噪声无法被滤除,接收端必然会发生对标志音误判,导致测试结果出现异常。
其次,单音信号所采用的频率通常超出了人耳可以听到的频率范围,测试人员没有主观感受。当出现样本对齐误差时,测试人员无法通过人工的方式去排查误差出现的原因。即便单音信号采用的频率在人耳可以听到的范围之内,它所发出的声音也是刺耳的尖啸声,极大的影响测试人员的听觉感受。
发明内容
本发明所要解决的技术问题是,提供一种基于语音包络特征的标志音识别方法及装置,从而避免对标志音的误判。
为了解决上述问题,本发明公开了一种基于语音包络特征的标志音识别方法,包括:
从衰减样本中记录任一语音数据段,且该语音数据段的采样点数与标志音样本的采样点数相同,再从所述语音数据段的所有采样点中抽取包络特征采样点,若根据所抽取的包络特征采样点判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等,则判断所述语音数据段即为标志音,其中,包络特征采样点包括包络上的波峰采样点和波谷采样点,相邻包络特征采样点为包络上相邻的波峰采样点,或者为包络上相邻的波谷采样点,或者为包络上相邻的波峰采样点和波谷采样点。
进一步地,上述方法中,当所述语音数据段具有如下任一包络外形特征时,判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等:
包络外形特征一,所述语音数据段的包络上相邻两波峰采样点的间距,与源音样本中标志音的包络上相邻两波峰采样点的间距相等;
或者,所述语音数据段的包络上相邻两波谷采样点的间距,与源音样本中标志音的包络上相邻两波谷采样点的间距相等;
包络外形特征二,源音样本中标志音的包络上相应的波峰采样点与其相邻的波谷采样点的X轴坐标点的连线与X轴夹角的正切值与所述语音数据段的包络上波峰采样点与其相邻波谷采样点的X轴坐标点的连线与X轴夹角的正切值的比值为第一比值,源音样本中标志音的包络上相应的波峰采样点的振幅与所述语音数据段的包络上波峰采样点的振幅的比值为第二比值,其中,所述第一比值与所述第二比值相等。
其中,将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数S(DDXi,DOXi)计算结果为1时,判断所述语音数据段具有包络外形特征一:
S ( D DXi , D OXi ) = 1 if ( | D DXi - D OXi | D OXi ≤ a ) 0 etc
上式中,DDXi表示从所述语音数据段中抽取的包络上相邻两波峰或者相邻两波谷采样点的间距;
DOXi表示源音样本中标志的包络上相邻两波峰或者相邻两波谷采样点的间距;
a表示相邻两波峰或者相邻两波谷采样点的间距的误差门限值。
优选地,对所述函数S(DDXi,DOXi)进一步计算,当满足如下公式要求时,才判断所述语音数据段具有包络外形特征一:
Σ i = 1 n - 1 S ( D DXi , D OXi ) n - 1 ≥ b
式中,n为所述语音数据段包络上波峰或者波谷采样点的个数,b为相邻两波峰或者相邻两波谷采样点的间距的有效率门限值。
将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数C(tgdi,tgoi)计算结果为1时,判断所述语音数据段具有包络外形特征二:
Figure G2009102627717D00041
式中,c为有效正切值的误差门限值;
Figure G2009102627717D00042
表示所述第一比值;
Figure G2009102627717D00043
表示采样点序号为偶数时的第二比值;
Figure G2009102627717D00044
表示采样点序号为奇数时的第二比值。
优选地,对所述函数C(tgdi,tgoi)进一步计算,当满足如下公式要求时,才判断所述语音数据段具有包络外形特征二:
Σ i = 1 2 ( n - 1 ) C ( tg di , tg oi ) 2 ( n - 1 ) ≥ d
式中,n为所述语音数据段包络上波峰或者波谷采样点的个数,d为正切值有效率门限值。
从衰减样本中的有效音频数据中记录任一语音数据段,其中,确定衰减样本中的有效音频数据的过程如下;
当所述衰减样本一段音频数据的采样点数达到事先设定的数据有效门限Vt,且所述采样点中连续的无效采样点的个数小于事先设定的数据失效门限It,则确定该段音频数据为有效音频数据,所述采样点的振幅的绝对值小于事先设定的振幅门限At时,判断该采样点为无效采样点。
本发明还公开了一种基于语音包络特征的标志音识别装置,包括采样及抽取模块和判断处理模块,其中:
所述采样及抽取模块、用于从衰减样本中采样一语音数据段,以及用于从所述语音数据段的所有采样点中抽取包络特征采样点,其中,所采样的语音数据段的采样点数与标志音样本的采样点数相同,包络特征采样点包括包络上的波峰采样点和波谷采样点;
所述判断处理模块、用于根据所述采样及抽取模块所抽取的包络特征采样点判断所述语音数据段中相邻的包络特征采样点的间距是否与源音样本中标志音的相应的相邻的包络特征采样点的间距相等,如果相等,则判断所述语音数据段即为标志音,其中,相邻包络特征采样点为包络上相邻的波峰采样点,或者为包络上相邻的波谷采样点,或者为包络上相邻的波峰采样点和波谷采样点。
进一步地,上述装置中,若所述判断处理模块确定所述语音数据段具有如下任一包络外形特征时,判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等:
包络外形特征一,所述语音数据段的包络上相邻两波峰采样点的间距,与源音样本中标志音的包络上相邻两波峰采样点的间距相等;
或者,所述语音数据段的包络上相邻两波谷采样点的间距,与源音样本中标志音的包络上相邻两波谷采样点的间距相等;
包络外形特征二,源音样本中标志音的包络上相应的波峰采样点与其相邻的波谷采样点的X轴坐标点的连线与X轴夹角的正切值与所述语音数据段的包络上波峰采样点与其相邻波谷采样点的X轴坐标点的连线与X轴夹角的正切值的比值为第一比值,源音样本中标志音的包络上相应的波峰采样点的振幅与所述语音数据段的包络上波峰采样点的振幅的比值为第二比值,其中,所述第一比值与所述第二比值相等。
其中,所述判断处理模块,将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数S(DDXi,DOXi)计算结果为1时,判断所述语音数据段具有包络外形特征一:
S ( D DXi , D OXi ) = 1 if ( | D DXi - D OXi | D OXi ≤ a ) 0 etc
上式中,DDXi表示从所述语音数据段中抽取的包络上相邻两波峰或者相邻两波谷采样点的间距;
DOXi表示源音样本中标志的包络上相邻两波峰或者相邻两波谷采样点的间距;
a表示相邻两波峰或者相邻两波谷采样点的间距的误差门限值。
所述判断处理模块,将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数C(tgdi,tgoi)计算结果为1时,判断所述语音数据段具有包络外形特征二:
Figure G2009102627717D00071
式中,c为有效正切值的误差门限值;
Figure G2009102627717D00072
表示所述第一比值;
Figure G2009102627717D00073
表示采样点序号为偶数时的第二比值;
Figure G2009102627717D00074
表示采样点序号为奇数时的第二比值。
采用本发明技术方案,在时域下进行标志音的识别,解决了由于引入同频噪声导致标志音误判的问题。另外,本发明技术方案对标志音的频率没有要求,因此,可以改善测试人员的听觉感受。
附图说明
图1是本发明提出的方法的特征1的原理示意图;
图2是本发明提出的方法的特征2的原理示意图;
图3是本发明在衰减样本中检查是否有效音频数据的流程图;
图4是本发明抽取波峰和波谷采样点流程图;
图5是本发明对衰减样本中有效音频数据的波峰间距进行检查的流程图;
图6是本发明对衰减样本中有效音频数据的正切值tg进行检查的流程图。
具体实施方式
本发明的主要构思是,由于语音信号在通信网络中传输时,语音信号的频率不会发生改变,因此,语音信号的周期也不会发生改变。如果发送端所发送的源音样本和接收端接收到的衰减样本均为离散信号,且发送端和接收端采用相同的采样间隔,则语音信号中相邻的两两采样点在X轴上的间距也不会发生改变。因此,本发明技术方案提出,从衰减样本中记录一语音数据段,从该语音数据段上抽取包络特征采样点(即包络上的波峰采样点和波谷采样点),在所抽取的采样点中,若相邻的包络特征采样点的间距与源音样本中标志音的相应的相邻的包络特征采样点的间距相等,即可判断该语音数据段即为标志音,其中,相邻包络特征采样点为包络上相邻的波峰采样点,或者为包络上相邻的波谷采样点,或者为包络上相邻的波峰采样点和波谷采样点,具体地,衰减样本中任一语音数据段具有如下任一个包络外形特征(即称为标志音的包络外形特征)时,即判断衰减样本中任一语音数据段中相邻的两个采样点的间距与源音样本中标志音的相邻两个采样点的间距相等:
标志音的包络外形特征1:衰减样本的语音数据段的包络上相邻两波峰(或者相邻两波谷)的采样点间距与源音样本中标志音的包络上相邻两波峰(或者相邻两波谷)的采样点间距相等;
例如,如图1所示,源音样本中标志音包络中存在n个波峰采样点{PO1(xo1,yo1),PO2(xo2,yo2)...POn(xon,yon)},其中,POi和PO(i+1)为相邻波峰的采样点,则POi和PO(i+1)在x轴(时间轴)上的差,如公式(1)所示:
DOXi=xo(i+1)-xoi    公式(1)
若衰减样本的一段语音数据的包络中,也存在n个波峰采样点{PD1(xd1,yd1),PD2(xd2,yd2)...PDn(xdn,ydn)},其中PDi和PD(i+1)为相邻波峰的采样点,则PDi和PD(i+1)在x轴上的差,如公式(2)所示:
DDXi=xd(i+1)-xdi    公式(2)
由于源音样本和衰减样本具有相同的频率,源音样本中标志音包络上相邻两波峰采样点在X轴上的间距应该与衰减样本中对应两采样点在X轴上的间距相等,此时,定义如公式(3)所示的函数S(DDXi,DOXi):
S ( D DXi , D OXi ) = 1 if ( | D DXi - D OXi | D OXi ≤ a ) 0 etc (公式3)
式中,a为相邻两波峰采样点的间距的误差门限值,具体可根据测试环境的实际情况设置,当
Figure G2009102627717D00092
不大于误差门限值时,则认为DDXi为一有效波峰间距。对于所有的DDX,如果满足公式(4),则认为衰减样本中的该段数据符合标志音的包络外形特征1:
Σ i = 1 n - 1 S ( D DXi , D OXi ) n - 1 ≥ b (公式4)
式中,b为相邻波峰采样点的间距的有效率门限值,具体可根据测试环境的实际情况设置。
标志音的包络外形特征2:源音样本包络上波峰采样点与其相邻的Y轴正方向上的波谷采样点的X轴坐标点的连线与X轴夹角的正切值与衰减样本的语音数据段的包络上相应波峰采样点与其相邻的Y轴正方向上的波谷采样点的X轴坐标点的连线与X轴夹角的正切值的比值为第一比值,以及源音样本的波峰采样点的振幅与衰减样本的语音数据段的包络上相应波峰采样点的振幅的比值为第二比值,这两个比值相等。
例如,如图2所示,假设在标志音样本包络中存在n个波峰采样点{PO1(xpo1,ypo1),PO2(xpo2,ypo2)...POn(xpon,ypon)},在任意相邻的两波峰采样点POi和PO(i+1)之间都存在一个波谷采样点TO1(xto1,yto1)(yto1>0),波谷采样点共有n-1个,集合为:{TO1(xto1,yto1),TO2(xto2,yto2)...TO(n-1)(xto(n-1),yto(n-1))}。则TOi的X轴坐标点与波峰采样点的连线与X轴的正切值,如公式(5)所示:
tg oi = y po ( i + 1 2 ) | x to ( i + 1 2 ) - x po ( i + 1 2 ) | if i is odd y po ( i 2 + 1 ) | x to ( i 2 ) - x po ( i 2 + 1 ) | if i is even (公式5)
由上可以获知,源音样本中共有2×(n-1)个正切值,集合为:{tgo1,tgo2...tgo(2n-3),tgo(2n-2)};
若在衰减样本的一段语音数据的包络中,也存在n个波峰采样点,集合为{PD1(xpd1,ypd1),PD2(xpd2,ypd2)...PDn(xpdn,ypdn)},则在任意相邻的两波峰采样点PDi和PD(i+1)之间都存在一个波谷采样点TDi,波谷采样点共有n-1个,集合为:{TD1(xtd1,ytd1),TD2(xtd2,ytd2)...TD(n-1)(xtd(n-1),ytd(n-1))},则TDiX轴坐标点与PDi的连线与X轴的正切值如公式(6)所示:
tg di = y pd ( i + 1 2 ) | x td ( i + 1 2 ) - x pd ( i + 1 2 ) | if i is odd y pd ( i 2 + 1 ) | x td ( i 2 ) - x pd ( i 2 + 1 ) | if i is even (公式6)
由上可以看出,衰减样本的这段数据中共有2×(n-1)个正切值,集合为:{tgd1,tgd2...tgd(2n-3),tgd(2n-2)}。
将源音样本中标志音的正切值与衰减样本数据中对应的正切值按照公式(7)进行比较:
tg oi tg di = y po ( i + 1 2 ) × | x td ( i + 1 2 ) - x pd ( i + 1 2 ) | y pd ( i + 1 2 ) × | x to ( i + 1 2 ) - x po ( i + 1 2 ) if i is odd y po ( i 2 + 1 ) | x td ( i 2 ) - x pd ( i 2 + 1 ) | y pd ( i 2 + 1 ) | x to ( i 2 ) - x po ( i 2 + 1 ) | if i is even (公式7)
在上式中,由于源音样本与衰减样本的相邻采样点在X轴上的间距相同,即
Figure G2009102627717D00112
等于
Figure G2009102627717D00113
Figure G2009102627717D00114
等于
Figure G2009102627717D00115
于是得出如公式(8)所示的结果:
tg oi tg di = y po ( i + 1 2 ) y pd ( i + 1 2 ) if i is odd y po ( i 2 + 1 ) y pd ( i 2 + 1 ) if i is even (公式8)
此时,定义公式(9)所示的函数C(tgdi,tgoi):
Figure G2009102627717D00121
(公式9)
式中,c为有效正切值的误差门限值,具体可根据测试环境的实际情况设置。如果
Figure G2009102627717D00122
(当i为奇数时)或者
Figure G2009102627717D00123
(当i为偶数时)小于误差门限的话,则认为该正切值为一有效正切值。对于所有的tgd,如果满足公式(10),则认为衰减样本中的该段数据符合标志音的包络外形特征2:
Σ i = 1 2 ( n - 1 ) C ( tg di , tg oi ) 2 ( n - 1 ) ≥ d (公式10)
式中,d为正切值有效率门限值,具体可根据测试环境的实际情况设置。
下面结合附图及具体实施例对本发明技术方案做进一步详细说明。
一种基于语音包络特征的标志音识别装置,至少包括采样及抽取模块和判断处理模块。下面介绍各模块的功能。
采样及抽取模块、用于从衰减样本中采样一语音数据段,以及用于从所述语音数据段的所有采样点中抽取包络特征采样点,其中,所采样的语音数据段的采样点数与标志音样本的采样点数相同,包络特征采样点包括包络上的波峰采样点和波谷采样点;
判断处理模块、用于根据采样及抽取模块所抽取的包络特征采样点判断所述语音数据段中相邻包络特征采样点的间距是否与源音样本中标志音的相应的相邻包络特征采样点的间距相等,如果相等,则判断所述语音数据段即为标志音,其中,相邻包络特征采样点为包络上相邻的波峰采样点,或者为包络上相邻的波谷采样点,或者为包络上相邻的波峰采样点和波谷采样点。
其中,判断处理模块,可以通过对所采样的语音数据段判断是否具有如下任一包络外形特征,从而判断该语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等(即判断该语音数据段是否为标志音):
包络外形特征一,所采样的语音数据段的包络上相邻两波峰采样点的间距,与源音样本中标志音的包络上相邻两波峰采样点的间距相等;
或者,所采样的语音数据段的包络上相邻两波谷采样点的间距,与源音样本中标志音的包络上相邻两波谷采样点的间距相等;
具体地,判断处理模块,将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数S(DDXi,DOXi)计算结果为1时,则判断所述语音数据段具有包络外形特征一:
S ( D DXi , D OXi ) = 1 if ( | D DXi - D OXi | D OXi ) ≤ a 0 etc
上式中,DDXi表示从所述语音数据段中抽取的包络上相邻两波峰或者相邻两波谷采样点的间距;
DOXi表示源音样本中标志的包络上相邻两波峰或者相邻两波谷采样点的间距;
a表示相邻两波峰或者相邻两波谷采样点的间距的误差门限值。
包络外形特征二,源音样本中标志音的包络上相应的波峰采样点与其相邻的波谷采样点的X轴坐标点的连线与X轴夹角的正切值与所采样的语音数据段的包络上波峰采样点与其相邻波谷采样点的X轴坐标点的连线与X轴夹角的正切值的比值为第一比值,源音样本中标志音的包络上相应的波峰采样点的振幅与所采样的语音数据段的包络上波峰采样点的振幅的比值为第二比值,第一比值与所述第二比值相等。
具体地,判断处理模块,将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数C(tgdi,tgoi)计算结果为1时,判断所述语音数据段具有包络外形特征二:
式中,c为有效正切值的误差门限值;
Figure G2009102627717D00152
下面介绍上述装置识别标志音识别的具体过程,包括以下步骤:
步骤一:检查衰减样本中是否有有效音频数据,当有有效音频数据时,进入步骤二;
该步骤中,在无线通信语音质量测试中,发送端发送的语音数据格式如下:
静音阶段1+标志音[+静音阶段2]+源音样本...重复。
接收端在静音阶段1接收到非静音数据时,就认为是有效语音数据的开始,但是,由于信号在传输的过程中会受到外界的干扰,接收端接收到的衰减样本数据中不会存在绝对的静音数据(振幅为0),同时还有可能存在“啸叫”现象。因此,本实施例对接收到的语音数据将排除干扰,具体过程,如图3所示,包括如下步骤:
步骤301、接收端设置振幅门限At、数据失效门限It和数据有效门限Vt,其中,接收端根据网络的实际质量设定各门限值;
其中:振幅门限At,用于表示当一个采样点的振幅的绝对值A大于或者等于At时,接收端则认为该采样点为有效采样点,当采样点的振幅的绝对值小于At时,接收端则认为该采样点为无效采样点;
数据失效门限It,用于表示当连续的无效采样点数超过了It时,接收端则认为之前的数据均为无效数据,需要从连续无效采样点数达到It的采样点开始重新进行验证;
数据有效门限Vt,Vt>It,用于表示当衰减样本中采样点数达到Vt,且这Vt个采样点中无效采样点数小于It时,接收端则认为该段数据为有效数据。
步骤302,设置采样点计数器C=0,连续无效采样点计数器Ci=0;
步骤303、对当前采样点进行验证,首先对C加1,接着进行判断,如果当前采样点振幅的绝对值A小于At(即当前采样点为无效采样点),且前一采样点为无效采样点,Ci加1;如果前一采样点为有效数据点,则将Ci置1。接着,如果Ci>=It,则认为之前数据无效,先将C、Ci置0,再从下一采样点开始重新验证;如果Ci<It且C>Vt,则认为当前数据为有效数据,流程结束,进入步骤二;如果Ci<It且C<Vt,从下一采样点开始重新开始验证。
步骤二:从衰减样本中抽取包络特征采样点,即包络上的波峰采样点和波谷采样点;
该步骤中,接收端从有效数据的起始点开始对之后的采样点进行记录,当记录采样点数达到标志音样本采样点数时,开始抽取包络的波峰采样点,具体操作过程如图4所示,其中,假设此时共有标志音样本有n个采样点,采样点集合S={s1(xs1,ys1),s2(xs2,ys2)......sn(xsn,ysn)},标志音样本的包络上的波峰数为k,具体抽取过程包括如下步骤:
步骤401、对采样点集合S中的采样点逐个进行分析、抽取,如果ysi>ys(i-1)且ysi>ys(i+1),则si为语音波形上的波峰采样点,将si加入到集合PW中;
步骤402,集合PW={pw1(xpw1,ypw1),pw2(xpw2,ypw2)......Pwn(xpwn,ypwn)},将PW中的采样点按照步骤401的方法再次进行抽取,将抽取出的采样点存入集合PE中,集合PE={pe1(xpe1,ype1),pe2(xpe2,ype2)......Pen(xpek,ypek)},PE即为包络上的波峰采样点集合;
步骤403,再次对集合PW中的数据进行分析,如果ypwi<ypw(i-1)且ypwi<ypw(i+1),则将采样点pwi加入集合TE中,这时,集合TE={te1(xte1,yte1),te2(xte2,yte2)......te(k-1)(xte(k-1),yte(k-1))},TE即为包络上的波谷采样点集合。
步骤三:根据抽取的波峰采样点和波谷采样点判断从衰减样本中采样的这段语音是否具有标志音包络外形特征,如果是,则表示该段语音中包含标志音,否则表示该段语音中不包含标志音。
该步骤中,接收端根据抽取的波峰采样点和波谷采样点判断出衰减样本的这段语音具有标志音的任一个包络外形特征,即可判断该段语音中包含标志音。在优选的场景中,接收端根据抽取的波峰采样点和波谷采样点判断出衰减样本的这段语音具有标志音所有的包络外形特征(即具有包络外形特征一和包络外形特征二)时,才判断该段语音中包含标志音;
其中,假设标志音样本的相邻波峰采样点的间距集合DO={do1,do2......do(k-1)},则对波峰波谷抽取完毕后,按照如图5所示的过程,判断从衰减样本中采样的这段语音是否具有标志音的包络外形特征一:
步骤501、设置一个有效间距计数N和游标计数i,N=0,i=1;
步骤502、按照公式(11)计算抽取的衰减样本包络的波峰采样点集合中,相邻波峰采样点的间距,即pei和pe(i+1)的间距ddi
ddi=xpe(i+1)-xpei(0≤i≤k-1)    (公式11)
步骤503、按照上文中公式(3)计算函数S(ddi,doi),并计算有效间距计算N,N=N+S(ddi,doi);
步骤504、如果i≠k-1,则将i加1,重复执行步骤502;
如果i=k-1,则按照公式(12)计算N与k-1的比值rd
r d = N k - 1 (公式12)
当rd≥b时,认为衰减样本的这段语音数据符合标志音包络外形特征一,该段语音即为标志音;否则认为语音数据为无效数据。
假设标志音样本包络上波峰采样点与其相邻的Y轴正方向上的波谷采样点的X轴坐标点的连线与X轴夹角的正切值集合tgO={tgo1,tgo2......tgo(2k-3),tgo(2k-2)},则按照图6所示流程,判断从衰减样本中采样的这段语音是否具有标志音的包络外形特征二,具体包括如下步骤:
步骤601、设置一个有效间距计数N和游标计数i,N=0,i=1。
步骤602、按照公式(13)计算衰减样本中波谷采样点tei和其相邻的采样序号为奇数的波峰采样点pei的正切值tgd(2i-1),以及按照公式(14)计算tei和其相邻的采序号为偶数的波峰采样点pe(i+1)的正切值tgd(2i),其中:
tg d ( 2 i - 1 ) = y pei x tei - x pei , ( 0 ≤ i ≤ k - 1 ) (公式13)
tg d ( 2 i ) = y pe ( i + 1 ) x pe ( i + 1 ) - x tei , ( 0 ≤ i ≤ k - 1 ) (公式14)
步骤603、按照上文公式(9)计算C(tgd(2i-1),tgo(2i-1))和C(tgd(2i),tgo(2i)),并计算有效间距计数N,N=N+C(tgd(2i-1),tgo(2i-1))+C(tgd(2i),tgo(2i));
步骤604、如果i≠k-1,则将i加1,重复步骤602;
如果i=k-1,则按照公式(15)计算N与k-1的比值rd
r tg = N 2 ( k - 1 ) (公式15)
如果rd≥d,则认为衰减样本的这段语音数据符合标志音的包络外形特征二,该段语音数据即为标志音;否则认为语音数据为无效数据。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (11)

1.一种基于语音包络特征的标志音识别方法,其特征在于,该方法包括:
从衰减样本中记录任一语音数据段,且该语音数据段的采样点数与标志音样本的采样点数相同,再从所述语音数据段的所有采样点中抽取包络特征采样点,若根据所抽取的包络特征采样点判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等,则判断所述语音数据段为标志音,其中,包络特征采样点包括包络上的波峰采样点和波谷采样点,相邻包络特征采样点为包络上相邻的波峰采样点,或者为包络上相邻的波谷采样点,或者为包络上相邻的波峰采样点和波谷采样点。
2.如权利要求1所述的方法,其特征在于,
当所述语音数据段具有如下任一包络外形特征时,判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等:
包络外形特征一,所述语音数据段的包络上相邻两波峰采样点的间距,与源音样本中标志音的包络上相邻两波峰采样点的间距相等;
或者,所述语音数据段的包络上相邻两波谷采样点的间距,与源音样本中标志音的包络上相邻两波谷采样点的间距相等;
包络外形特征二,源音样本中标志音的包络上相应的波峰采样点与其相邻的波谷采样点的X轴坐标点的连线与X轴夹角的正切值与所述语音数据段的包络上波峰采样点与其相邻波谷采样点的X轴坐标点的连线与X轴夹角的正切值的比值为第一比值,源音样本中标志音的包络上相应的波峰采样点的振幅与所述语音数据段的包络上波峰采样点的振幅的比值为第二比值,其中,所述第一比值与所述第二比值相等。
3.如权利要求2所述的方法,其特征在于,
将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数S(DDXi,DOXi)计算结果为1时,判断所述语音数据段具有包络外形特征一:
S ( D DXi , D OXi ) = 1 if ( | D DXi - D OXi | D OXi ≤ a ) 0 etc
上式中,DDXi表示从所述语音数据段中抽取的包络上相邻两波峰或者相邻两波谷采样点的间距;
DOXi表示源音样本中标志的包络上相邻两波峰或者相邻两波谷采样点的间距;
a表示相邻两波峰或者相邻两波谷采样点的间距的误差门限值。
4.如权利要求3所述的方法,其特征在于,
对所述函数S(DDXi,DOXi)进一步计算,当满足如下公式要求时,才判断所述语音数据段具有包络外形特征一:
Σ i = 1 n - 1 S ( D DXi , D OXi ) n - 1 ≥ b
式中,n为所述语音数据段包络上波峰或者波谷采样点的个数,b为相邻两波峰或者相邻两波谷采样点的间距的有效率门限值。
5.如权利要求2所述的方法,其特征在于,
将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数C(tgdi,tgoi)计算结果为1时,判断所述语音数据段具有包络外形特征二:
Figure F2009102627717C00031
式中,c为有效正切值的误差门限值;
Figure F2009102627717C00032
表示所述第一比值;
Figure F2009102627717C00033
表示采样点序号为偶数时的第二比值;
Figure F2009102627717C00034
表示采样点序号为奇数时的第二比值。
6.如权利要求5所述的方法,其特征在于,
对所述函数C(tgdi,tgoi)进一步计算,当满足如下公式要求时,才判断所述语音数据段具有包络外形特征二:
Σ i = 1 2 ( n - 1 ) C ( tg di , tg oi ) 2 ( n - 1 ) ≥ d
式中,n为所述语音数据段包络上波峰或者波谷采样点的个数,d为正切值有效率门限值。
7.如权利要求1至6任一项所述的方法,其特征在于,
从衰减样本中的有效音频数据中记录任一语音数据段,其中,确定衰减样本中的有效音频数据的过程如下;
当所述衰减样本一段音频数据的采样点数达到事先设定的数据有效门限Vt,且所述采样点中连续的无效采样点的个数小于事先设定的数据失效门限It,则确定该段音频数据为有效音频数据,所述采样点的振幅的绝对值小于事先设定的振幅门限At时,判断该采样点为无效采样点。
8.一种基于语音包络特征的标志音识别装置,其特征在于,该装置包括采样及抽取模块和判断处理模块,其中:
所述采样及抽取模块、用于从衰减样本中采样一语音数据段,以及用于从所述语音数据段的所有采样点中抽取包络特征采样点,其中,所采样的语音数据段的采样点数与标志音样本的采样点数相同,包络特征采样点包括包络上的波峰采样点和波谷采样点;
所述判断处理模块、用于根据所述采样及抽取模块所抽取的包络特征采样点判断所述语音数据段中相邻的包络特征采样点的间距是否与源音样本中标志音的相应的相邻的包络特征采样点的间距相等,如果相等,则判断所述语音数据段为标志音,其中,相邻包络特征采样点为包络上相邻的波峰采样点,或者为包络上相邻的波谷采样点,或者为包络上相邻的波峰采样点和波谷采样点。
9.如权利要求8所述的装置,其特征在于,
若所述判断处理模块确定所述语音数据段具有如下任一包络外形特征时,判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等:
包络外形特征一,所述语音数据段的包络上相邻两波峰采样点的间距,与源音样本中标志音的包络上相邻两波峰采样点的间距相等;
或者,所述语音数据段的包络上相邻两波谷采样点的间距,与源音样本中标志音的包络上相邻两波谷采样点的间距相等;
包络外形特征二,源音样本中标志音的包络上相应的波峰采样点与其相邻的波谷采样点的X轴坐标点的连线与X轴夹角的正切值与所述语音数据段的包络上波峰采样点与其相邻波谷采样点的X轴坐标点的连线与X轴夹角的正切值的比值为第一比值,源音样本中标志音的包络上相应的波峰采样点的振幅与所述语音数据段的包络上波峰采样点的振幅的比值为第二比值,其中,所述第一比值与所述第二比值相等。
10.如权利要求9所述的装置,其特征在于,
所述判断处理模块,将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数S(DDXi,DOXi)计算结果为1时,判断所述语音数据段具有包络外形特征一:
S ( D DXi , D OXi ) = 1 if ( | D DXi - D OXi | D OXi ≤ a ) 0 etc
上式中,DDXi表示从所述语音数据段中抽取的包络上相邻两波峰或者相邻两波谷采样点的间距;
DOXi表示源音样本中标志的包络上相邻两波峰或者相邻两波谷采样点的间距;
a表示相邻两波峰或者相邻两波谷采样点的间距的误差门限值。
11.如权利要求9所述的装置,其特征在于,
所述判断处理模块,将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算,当函数C(tgdi,tgoi)计算结果为1时,判断所述语音数据段具有包络外形特征二:
Figure F2009102627717C00061
式中,c为有效正切值的误差门限值;
Figure F2009102627717C00062
表示所述第一比值;
Figure F2009102627717C00063
表示采样点序号为偶数时的第二比值;
Figure F2009102627717C00064
表示采样点序号为奇数时的第二比值。
CN2009102627717A 2009-12-28 2009-12-28 一种基于语音包络特征的标志音识别方法及装置 Expired - Fee Related CN102110436B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2009102627717A CN102110436B (zh) 2009-12-28 2009-12-28 一种基于语音包络特征的标志音识别方法及装置
PCT/CN2010/076778 WO2011079624A1 (zh) 2009-12-28 2010-09-09 一种标志音识别方法及装置
EP10840413.8A EP2479748B1 (en) 2009-12-28 2010-09-09 Method and device for identifying marker sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102627717A CN102110436B (zh) 2009-12-28 2009-12-28 一种基于语音包络特征的标志音识别方法及装置

Publications (2)

Publication Number Publication Date
CN102110436A true CN102110436A (zh) 2011-06-29
CN102110436B CN102110436B (zh) 2012-05-09

Family

ID=44174571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102627717A Expired - Fee Related CN102110436B (zh) 2009-12-28 2009-12-28 一种基于语音包络特征的标志音识别方法及装置

Country Status (3)

Country Link
EP (1) EP2479748B1 (zh)
CN (1) CN102110436B (zh)
WO (1) WO2011079624A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538302B (zh) * 2018-03-16 2020-10-09 广州酷狗计算机科技有限公司 合成音频的方法和装置
CN114338089A (zh) * 2021-12-06 2022-04-12 科大讯飞股份有限公司 一种防攻击方法、装置、设备和计算机可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6425198A (en) * 1987-07-22 1989-01-27 Hitachi Ltd Large vocaburary word voice recognition equipment
CH686752A8 (de) * 1993-09-22 1996-08-15 Ascom Tech Ag Berner Technopark Verfahren zum Beurteilen der Übertragungsqualität einer Sprach-Übertragungsstrecke
GB9609321D0 (en) * 1996-05-03 1996-07-10 British Telecomm Automatic speech recognition
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
EP1605437B1 (en) * 2004-06-04 2007-08-29 Honda Research Institute Europe GmbH Determination of the common origin of two harmonic components
WO2006042943A1 (fr) * 2004-10-19 2006-04-27 France Telecom Procede de reconnaissance vocale comprenant une etape d ' insertion de marqueurs temporels et systeme correspondant
CN1280784C (zh) * 2004-11-12 2006-10-18 梁华伟 基于多峰提取的语音编码刺激方法
EP1667106B1 (en) * 2004-12-06 2009-11-25 Sony Deutschland GmbH Method for generating an audio signature
CN2781513Y (zh) * 2005-03-28 2006-05-17 华南理工大学 一种语音识别装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538302B (zh) * 2018-03-16 2020-10-09 广州酷狗计算机科技有限公司 合成音频的方法和装置
CN114338089A (zh) * 2021-12-06 2022-04-12 科大讯飞股份有限公司 一种防攻击方法、装置、设备和计算机可读存储介质
CN114338089B (zh) * 2021-12-06 2024-02-13 科大讯飞股份有限公司 一种防攻击方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
WO2011079624A1 (zh) 2011-07-07
EP2479748A1 (en) 2012-07-25
CN102110436B (zh) 2012-05-09
EP2479748B1 (en) 2018-05-16
EP2479748A4 (en) 2017-02-01

Similar Documents

Publication Publication Date Title
US8892430B2 (en) Noise detecting device and noise detecting method
CN105448303A (zh) 语音信号的处理方法和装置
CN1510891A (zh) 回声的检测和监视
CN103312419A (zh) 基于音频或超声波的数据通讯方法和系统
CN104714920A (zh) 一种自适应波特率的信号接收方法
CN102110436B (zh) 一种基于语音包络特征的标志音识别方法及装置
CN103889069B (zh) 一种应用于大覆盖范围的随机接入信号发送和接收方法
CN108390752A (zh) 信号接收方法
CN114900256B (zh) 通信场景识别方法和装置
CN109490852B (zh) 一种线性调频脉冲信号调频斜率极性确定方法
CN106170139A (zh) 一种频谱检测方法及系统
CN112992189B (zh) 语音音频的检测方法及装置、存储介质及电子装置
CN109219054A (zh) 一种认知网络内双次用户的频谱感知方法
CN105450881B (zh) 一种回声抑制测试方法
CN105453505B (zh) 精密定时
CN114112006B (zh) 一种噪声监测方法、装置及电子设备
CN105510904A (zh) 基于多频可闻声波幅度求和的测距方法
CN105987952A (zh) 一种基于宽带超声波的断轨检测系统
CN102932109A (zh) 电力线通信的定时同步和扩频因子检测系统及其方法
US8682836B2 (en) Detection of network links in a communications network
CN111092667A (zh) 一种对讲终端音频建立时间的测试方法及测试系统
CN101123482B (zh) 一种数字通信网中测试滑动指标的装置和方法
CN109831280A (zh) 一种声波通讯方法、装置及可读存储介质
CN102904852B (zh) 一种ofdm系统的抵抗突发干扰的同步方法和装置
CN118645085B (zh) 基于深度学习的移动感知终端语音质量评价方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120509

Termination date: 20191228

CF01 Termination of patent right due to non-payment of annual fee