CN101996628A - 提取语音信号的韵律特征的方法和装置 - Google Patents
提取语音信号的韵律特征的方法和装置 Download PDFInfo
- Publication number
- CN101996628A CN101996628A CN2009101685132A CN200910168513A CN101996628A CN 101996628 A CN101996628 A CN 101996628A CN 2009101685132 A CN2009101685132 A CN 2009101685132A CN 200910168513 A CN200910168513 A CN 200910168513A CN 101996628 A CN101996628 A CN 101996628A
- Authority
- CN
- China
- Prior art keywords
- frequency range
- feature
- frequency
- domain
- prosodic features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000009432 framing Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 12
- 238000011160 research Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000033764 rhythmic process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 241001269238 Data Species 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003236 psychic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种提取语音信号的韵律特征的方法和装置,其中该方法包括:对语音信号进行分帧;对语音帧进行时域到频域的变换;以及针对不同的频段,提取相应的韵律特征。根据本发明的上述技术方案,可以有效地提取能够与传统声学特征无障碍结合的韵律特征。
Description
技术领域
本发明涉及语音信号处理领域,更具体地涉及一种提取语音信号的韵律特征的方法和装置。此外,本发明还涉及一种将所述韵律特征与传统声学特征结合使用的方法。
背景技术
韵律特征又叫“超音质特征”或“超音段特征”,发音人的声调、语调、重音、音长、音强和音高,说话风格、口音等韵律特征都是超音段方面的特征成分。目前在语言学和语音合成方面的研究居多,主要集中在重音、音长、音高方面,通常采用基频,时长来进行描述。
例如,李晓庆等人所著的“重读与信息结构对语篇理解加工的影响”(心理学报,2005年01期)和杨玉芳等人所著的“韵律特征研究”(心理科学进展,2006年第14卷,第04期)从知觉、认知和语料库的角度对汉语韵律特征进行了一系列的研究。在知觉方面,用实验心理学和知觉标注的语料库分析方法,分析知觉可以区分的韵律层级及相关的声学线索,研究结果证明语篇中知觉可以区分的韵律边界是小句、句子和段落,及其知觉相关的声学线索;在认知方面,研究了韵律特征在语篇理解中的作用,用实验心理学方法和脑电指标研究韵律对语篇信息整合和指代理解的影响,揭示其作用的认知和神经机制;在语料库方面,在标注的语料库的基础上,用常规统计方法研究语句常规重音分布规律、语篇信息结构与重音的关系、并用决策树方法研究根据文本信息确定韵律短语边界和焦点的规则。因此,该研究证明了韵律特征在感知层的影响,但是该研究是从语言学文法分析出发,因此不但受被研究语种的限制,而且没有对如何提取韵律特征这一方面进行描述。
此外,田岚等人所著的“一种数据驱动的汉语成句语音韵律特征产生模型的研究”(控制与决策,2003年18卷6期)针对汉语发音特点,从基频角度进行研究,对大量自然汉语语句基频轮廓数据进行了统计和分析,辅以时长和增益参数,研究了韵律在汉语的语气、短语节奏、韵律词声调及轻重音等方面的信息。该研究可以按语言知识分类训练和标注各种参数。但是得到的节奏、轻重、语气等信息很难和目前语音信号处理中主流的声学特征,如MFCC(Mel Frequency Cepstral Coefficient,美尔倒谱系数)、LPCC(Linear Prediction Cepstrum Coefficient,线性预测倒谱系数)、LSF(Line Spectrum Frequency,线谱频率)等很好地结合起来。
另外,蔡莲红等人所著的“汉语韵律特征的可计算性研究”(第五届全国现代语音学术会议论文集,2001年)研究了基频的量化表示,基频均值和基频调域的感知试验,研究结果表明,改变调域对听感的影响没有改变均值的效果明显;同时,还采用基频、时长、调域作为评价一个音节的基本参数,对重音进行了较为详细的研究。研究虽然也尝试了韵律的可计算性研究,但是试验还是建立在语言学分析的基础上的,而且仅仅用基频、时长和信号幅度对重音方面进行了分析,因此,这样的重音表征需要人工的标注数据,不能自动生成,而且也不能和MFCC、LPCC、LSF等声学特征结合使用。
如何对韵律特征进行表征,而且自动计算,并能够和目前语音信号处理中主流的声学特征,如MFCC、LPCC、LSF等参数很好地结合起来,是目前韵律研究的一个难点,也是目前迫切需要解决的一个问题。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于现有技术的上述情形,本发明的目的是提供一种提取语音信号的韵律特征的方法和装置、以及将所述韵律特征与传统声学特征结合使用的方法,其从不同频段给人们的不同听觉感受方面出发,针对不同频段提取相应的韵律特征。所述韵律特征无需人工标注,能够自动生成,并能够和语音信号处理中主流的声学特征,如MFCC、LPCC、LSF等参数很好地结合使用,并应用到语音信号处理的各个领域中,如说话人识别、说话人聚类等。
为了实现上述目的,根据本发明的一个方面,提供了一种提取语音信号的韵律特征的方法,其包括:对语音信号进行分帧;对语音帧进行时域到频域的变换;以及针对不同的频段,计算相应的韵律特征。
根据本发明的另一个方面,还提供了一种提取语音信号的韵律特征的装置,其包括:分帧单元,用于对语音信号进行分帧;时域到频域变换单元,用于对语音帧进行时域到频域的变换;以及韵律特征计算单元,用于针对不同的频段,计算相应的韵律特征。
根据本发明的另一个方面,还提供了一种将所述韵律特征与传统声学特征结合使用的方法,其包括:对每一帧提取传统声学特征;针对所述韵律特征,分别计算当前帧特征、当前帧特征与前一帧特征的差值以及当前帧特征与当前帧所在段特征均值的差值;提取每一帧的基频、该基频与前一帧基频的差值、该基频与当前帧所在段基频均值的差值;以及将上述各个特征相结合并应用于说话人识别中。
根据本发明的另一个方面,还提供了用于实现上述提取语音信号的韵律特征的方法和/或将所述韵律特征与传统声学特征结合使用的方法的计算机程序产品。
根据本发明的另一个方面,还提供了计算机可读介质,其上记录有用于实现上述上述提取语音信号的韵律特征的方法和/或将所述韵律特征与传统声学特征结合使用的方法的计算机程序代码。
根据本发明的上述技术方案,可以有效地提取能够与传统声学特征无障碍结合的韵律特征。
附图说明
本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明实施例的提取语音信号的韵律特征的方法的总体流程图;
图2示出了根据本发明的一个具体实施例的计算厚度特征的过程的流程图;
图3示出了根据本发明的一个具体实施例的计算力度特征的过程的流程图;
图4示出了根据本发明的一个具体实施例的计算层次特征的过程的流程图;
图5示出了根据本发明实施例的将本发明的韵律特征与传统声学特征结合使用的方法的流程图;
图6示出了根据本发明实施例的提取语音信号的韵律特征的装置的总体框图;以及
图7示出了在其中可以实现根据本发明实施例的提取语音信号的韵律特征的方法和/或装置的信息处理设备的示例性结构的框图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其它元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
首先将参考附图详细描述根据本发明实施例的提取语音信号的韵律特征的方法。
图1示出了根据本发明实施例的提取语音信号的韵律特征的方法的总体流程图。
如图1所示,根据本发明实施例的韵律特征提取方法包括分帧步骤S110、时域到频域变换步骤S120、以及韵律特征计算步骤S130。
首先,在分帧步骤S110,对语音信号进行分帧,以便在后续处理中以语音帧为单位进行处理。在此,优选地,帧长可以为20ms,帧移可以为10ms。可选地,在分帧之前可以对输入的语音数据进行有声段检测,然后以每个有声段作为处理对象进行分帧。此外,优选地,在分帧之后,还可以对所得到的语音帧进行加窗处理,以便在后续处理中以经过加窗的语音帧为处理对象。
接下来,在时域到频域变换步骤S120,对经过分帧所得到的语音帧进行时域到频域的变换。优选地,可以通过傅立叶变换对语音帧进行时域到频域的变换。
最后,针对不同的频段,计算相应的韵律特征。优选地,针对不同的频段计算相应的韵律特征可以包括以下处理中的一项或多项:针对第一频段如低于150Hz的低音段,计算语音信号的厚度特征,其中所述厚度特征基于在第一频段的频域能量;针对第二频段如150Hz到500Hz的中低音段,计算语音信号的力度特征,其中所述力度特征基于在第二频段的时域能量;以及针对第三频段如500Hz到5KHz的中高音段,计算语音信号的层次特征,其中所述层次特征基于在第三频段的时域包络。
图2示出了根据本发明的一个具体实施例的计算厚度特征的过程的流程图。其中,所述厚度特征的计算是针对第一频段进行的。
如图2所示,首先,在步骤S210,针对经过时域到频域变换所得到的信号,确定第一频段所对应的谱单元。例如,在第一频段为0-150Hz的情况下,若信号采样率为16KHz,作512点傅立叶变换,则所对应的谱单元数P=150/(8000/256),约为5,则第一频段所对应的谱单元为[1,5]。
然后,在步骤S220,基于第一频段上各个谱单元对应的幅度谱来计算厚度特征。例如,可以使用公式来计算所述厚度特征,其中n为对数的底,可以取值为2、4、10等,P为第一频段上所有谱单元的个数,p为各个谱单元的索引,|X(p)|为谱单元p的幅度谱。可替选地,也可以使用公式来计算所述厚度特征。本领域的技术人员应当知道,上述计算公式仅仅是示例性的,并且本发明不限于此,根据具体设计,完全可以采用其它方式来计算所述厚度特征。
图3示出了根据本发明的一个具体实施例的计算力度特征的过程的流程图。其中,所述力度特征的计算是针对第二频段进行的。
如图3所示,首先,在步骤S310,将经过时域到频域的变换所得到的信号经过对应于第二频段的带通滤波器,得到第二频段的频谱。
接着,在步骤S320,通过逆滤波得到第二频段的时域信号。
最后,在步骤S330,基于所述时域信号的各个采样点的振幅来计算所述力度特征。例如,可以使用公式来计算所述力度特征,其中,K为预定系数,n为对数的底,可以取值为2、4、10等,N为每帧对应的采样点个数(若信号采样率为16K/秒,帧长为20毫秒,则每帧有320个采样点),i为帧内各个采样点的索引,为逆滤波之后得到的时域信号的振幅,l为正整数,取值为1、2、3等。本领域的技术人员应当知道,上述计算公式仅仅是示例性的,并且本发明不限于此,根据具体设计,完全可以采用其它方式来计算所述力度特征。
图4示出了根据本发明的一个具体实施例的计算层次特征的过程的流程图。其中,所述层次特征的提取是针对第三频段进行的。
如图4所示,首先,在步骤S410,将经过时域到频域的变换所得到的信号经过对应于第三频段的带通滤波器,得到第三频段的频谱。
接着,在步骤S420,通过逆滤波得到第三频段的时域信号。
接着,在步骤S430,对逆滤波之后得到的时域信号进行希尔波特变换,得到对应的希尔波特变换信号。
最后,在步骤S440,基于所述时域信号和所述希尔波特变换信号来计算所述层次特征。例如,使用公式得到所述层次特征,其中sr(t)为逆滤波之后得到的时域信号,si(t)为sr(t)的希尔波特变换信号。本领域的技术人员应当知道,上述计算公式仅仅是示例性的,并且本发明不限于此,根据具体设计,完全可以采用其它方式来计算所述层次特征。
优选地,在按照上述方法提取厚度特征、力度特征、层次特征之后,可进行以下计算:计算每个特征的变化,即计算当前帧特征与前一帧特征的差值;以及计算每个特征的均值减,即计算当前帧特征与当前帧所在段特征均值的差值。
这样每个韵律特征都有三个参数,即当前帧特征、当前帧特征与前一帧特征的差值以及与当前帧所在段的特征均值的差值。
通过上述方法计算得到的本发明的厚度特征、力度特征和层次和层次特征可以应用到语音信号处理的各项领域中,如说话人识别,说话人聚类等。此外,如之前提到的,这些韵律特征参数可以和其他声学特征无障碍结合,克服之前提到的现有声学特征的问题,更有效地应用于上述信号处理的各项领域中。
图5示出了根据本发明实施例的将根据上述方法提取的韵律特征与传统声学特征结合使用的方法,其包括:
在步骤S510,对每一帧提取传统声学特征,如MFCC特征,维数为m;
在步骤S520,针对所提取的厚度特征、力度特征以及层次特征,分别计算之前提到的三个参数,即当前帧特征、当前帧特征与前一帧特征的差值以及当前帧特征与当前帧所在段特征均值的差值,共9个参数;
在步骤S530,提取每一帧的基频、基频与前一帧特征的差值,基频与当前帧所在段特征均值的差值,共3个特征;以及
在步骤S540,将上述各个参数(m+9+3维特征)相结合并应用于说话人识别中。其中,厚度特征相比其他韵律特征来说,是最重要的。
优选地,上述传统声学特征可以是MFCC、LPCC和LSF中的一种或多种。
下面将结合附图描述根据本发明实施例的提取语音信号的韵律特征的装置。
图6示出了根据本发明实施例的韵律特征提取装置600的框图,其中,为了简明起见仅仅示出了与本发明密切相关的部分。在韵律特征提取装置600中,能够执行以上参考图1所描述的韵律特征提取方法。
如图6所示,根据本发明实施例的韵律特征提取装置600可以包括分帧单元610、时域到频域变换单元620、以及韵律特征计算单元630。
其中,分帧单元610用于对语音信号进行分帧。时域到频域变换单元620用于对语音帧进行时域到频域的变换。韵律特征计算单元630用于针对不同的频段,计算相应的韵律特征。
根据本发明的一个实施例,韵律特征计算单元630可以进一步包括以下单元中的一个或多个:厚度特征计算单元,用于针对第一频段计算语音信号的厚度特征,其中所述厚度特征基于在第一频段的频域能量;力度特征计算单元,用于针对第二频段计算语音信号的力度特征,其中所述力度特征基于在第二频段的时域能量;以及层次特征计算单元,用于针对第三频段计算语音信号的层次特征,其中所述层次特征基于在第三频段的时域包络。
通过阅读前面给出的相应处理的描述,韵律特征提取装置600的各个组成部件的功能如何实现就变得很清楚了,所以在此就不再赘述了。
在此需要说明的是,图6所示的韵律特征提取装置600的结构仅仅是示例性的,本领域技术人员可以根据需要对图6所示的结构框图进行修改。
以下通过实验数据来证明本发明提出的韵律特征的有效性以及它们与传统声学特征的有效结合。
在以下实验一、实验二和试验三的实验数据中:2个男声和2个女声,语言是普通话。
实验一:测试单独使用韵律特征时,不同长度训练数据对说话人识别率的影响
表1:训练数据长度变化识别率的影响
基频 | 厚度 | 力度 | 层次 | 4种结合的特征 | |
15秒 | 39.3% | 56% | 29.8% | 33.8% | 60.1% |
30秒 | 41.8% | 58% | 33% | 35.7% | 73% |
60秒 | 39.4% | 61.8% | 32.8% | 36.9% | 79.8% |
90秒 | 52.5% | 77.2% | 43.3% | 46% | 82.2% |
实验二:测试单独使用韵律特征时,相同长度(30秒)训练数据对说话人识别率的影响。
表2:训练数据长度相同时单独使用韵律特征识别率的影响
集内识别率 | 集外识别率 | |
基频 | 49.5% | 41.8% |
厚度 | 60.9% | 58% |
力度 | 37.9% | 33% |
层次 | 39% | 35.7% |
实验三:测试组合使用所述韵律特征,以及将这些韵律特征与基频组合时,相同长度(30秒)训练数据对说话人识别率的影响。
表3:训练数据长度相同时组合使用韵律特征识别率的影响
在以下实验四、五、六的实验数据中:5个男声和5个女声,语言是普通话。
实验四:测试单独使用三类传统声学特征,相同长度(30秒)训练数据对说话人识别率的影响。
其中,MFCC54D是指18-dim MFCC+一阶差分+二阶差分,可以看出MFCC特征比LPCC和LSF性能要好。
实验五:测试将基频和三种新的韵律特征结合使用,30秒训练数据对相同测试数据说话人识别率的影响。
其中,prosody是指将基频和三种新的韵律特征结合的总特征参数。
实验六:测试韵律特征和其他传统声学特征结合,30秒训练数据对相同测试数据上使用的效果。
通过以上试验数据可知,本发明的韵律特征在单独使用时,厚度的性能最好;将所述韵律特征和其他传统声学特征结合使用之后,说话人识别效果有明显提高(绝对6%-9%),能够很好地弥补传统声学特征在表征说话人声音特点上的不足。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图7所示的通用个人计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等等;输出部分707,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分708,包括硬盘等等;和通信部分709,包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图12所示的其中存储有程序、与装置相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的装置一起被分发给用户。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
Claims (16)
1.一种提取语音信号的韵律特征的方法,包括:
对语音信号进行分帧;
对语音帧进行时域到频域的变换;
针对不同的频段,计算相应的韵律特征;以及其中,针对不同的频段计算相应的韵律特征包括以下处理中的一项或多项:
针对第一频段计算语音信号的厚度特征,其中所述厚度特征基于在第一频段的频域能量;
针对第二频段计算语音信号的力度特征,其中所述力度特征基于在第二频段的时域能量;以及
针对第三频段计算语音信号的层次特征,其中所述层次特征基于在第三频段的时域包络。
2.根据权利要求1所述的方法,其中,针对第一频段计算语音信号的厚度特征进一步包括:基于第一频段上所有谱单元对应的幅度谱来计算所述厚度特征。
3.根据权利要求1所述的方法,其中,针对第二频段计算语音信号的力度特征进一步包括:
针对第二频段,通过逆滤波得到该频段的时域信号;以及
基于所述时域信号的各个采样点的振幅来计算所述力度特征。
4.根据权利要求1所述的方法,其中,针对第三频段计算语音信号的层次特征进一步包括:
针对第三频段,通过逆滤波得到该频段的时域信号;
对逆滤波之后得到的时域信号进行希尔波特变换,以得到对应的希尔波特变换信号;以及
基于所述时域信号和所述希尔波特变换信号来计算所述层次特征。
5.根据权利要求1所述的方法,其中,所述第一频段的范围为0-150Hz,所述第二频段的范围为150-500Hz,所述第三频段的范围为500Hz-5KHz。
6.根据权利要求1所述的方法,其中对语音帧进行时域到频域的变换是通过傅立叶变换来实现的。
7.根据权利要求1所述的方法,其中,针对不同的频段计算相应的韵律特征是以每帧为基础进行的;以及所述方法进一步包括:针对每个韵律特征,计算当前帧特征、当前帧特征与前一帧特征的差值以及当前帧特征与当前帧所在段特征均值的差值。
8.一种将根据权利要求1所述的方法提取的韵律特征与传统声学特征结合使用的方法,包括:
对每一帧提取传统声学特征;
针对所述韵律特征,分别计算当前帧特征、当前帧特征与前一帧特征的差值以及当前帧特征与当前帧所在段特征均值的差值;
提取每一帧的基频、该基频与前一帧基频的差值、该基频与当前帧所在段基频均值的差值;以及
将上述各个特征相结合并应用于说话人识别中。
9.根据权利要求8所述的方法,其中所述传统声学特征包括美儿倒谱系数、线性预测倒谱系数和线谱频率中的一种或多种。
10.一种提取语音信号的韵律特征的装置,包括:
分帧单元,用于对语音信号进行分帧;
时域到频域变换单元,用于对语音帧进行时域到频域的变换;
韵律特征计算单元,用于针对不同的频段,计算相应的韵律特征;以及其中,韵律特征计算单元进一步包括以下单元中的一个或多个:
厚度特征计算单元,用于针对第一频段计算语音信号的厚度特征,其中所述厚度特征基于在第一频段的频域能量;
力度特征计算单元,用于针对第二频段计算语音信号的力度特征,其中所述力度特征基于在第二频段的时域能量;以及
层次特征计算单元,用于针对第三频段计算语音信号的层次特征,其中所述层次特征基于在第三频段的时域包络。
11.根据权利要求10所述的装置,其中,所述厚度特征计算单元基于第一频段上所有谱单元对应的幅度谱来计算所述厚度特征。
12.根据权利要求10所述的装置,其中,所述力度特征计算单元针对第二频段,通过逆滤波得到该频段的时域信号,并且基于所述时域信号的各个采样点的振幅来计算所述力度特征。
13.根据权利要求10所述的装置,其中,所述层次特征计算单元针对第三频段,通过逆滤波得到该频段的时域信号,对所述时域信号进行希尔波特变换以得到对应的希尔波特变换信号,并且基于所述时域信号和所述希尔波特变换信号来计算所述层次特征。
14.根据权利要求10所述的装置,其中,所述第一频段的范围为0-150Hz,所述第二频段的范围为150-500Hz,所述第三频段的范围为500Hz-5KHz。
15.根据权利要求10所述的装置,其中所述时域到频域变换单元通过傅立叶变换来对语音帧进行时域到频域的变换。
16.根据权利要求10所述的装置,其中,所述韵律特征计算单元逐帧地计算所述韵律特征,以及所述韵律特征计算单元针对每个韵律特征,计算当前帧特征、当前帧特征与前一帧特征的差值以及当前帧特征与当前帧所在段特征均值的差值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101685132A CN101996628A (zh) | 2009-08-21 | 2009-08-21 | 提取语音信号的韵律特征的方法和装置 |
US12/857,008 US8566092B2 (en) | 2009-08-21 | 2010-08-16 | Method and apparatus for extracting prosodic feature of speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101685132A CN101996628A (zh) | 2009-08-21 | 2009-08-21 | 提取语音信号的韵律特征的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101996628A true CN101996628A (zh) | 2011-03-30 |
Family
ID=43606048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101685132A Pending CN101996628A (zh) | 2009-08-21 | 2009-08-21 | 提取语音信号的韵律特征的方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8566092B2 (zh) |
CN (1) | CN101996628A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104505103A (zh) * | 2014-12-04 | 2015-04-08 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN106157961A (zh) * | 2015-04-09 | 2016-11-23 | 展讯通信(上海)有限公司 | 语音信号处理方法及装置 |
CN108492818A (zh) * | 2018-03-22 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 文本到语音的转换方法、装置和计算机设备 |
CN108630207A (zh) * | 2017-03-23 | 2018-10-09 | 富士通株式会社 | 说话人确认方法和说话人确认设备 |
WO2020173488A1 (zh) * | 2019-02-28 | 2020-09-03 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN113178195A (zh) * | 2021-03-04 | 2021-07-27 | 杭州电子科技大学 | 一种基于声音诱发脑电信号的说话人识别方法 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI441163B (zh) * | 2011-05-10 | 2014-06-11 | Univ Nat Chiao Tung | 中文語音辨識裝置及其辨識方法 |
JP5779032B2 (ja) * | 2011-07-28 | 2015-09-16 | 株式会社東芝 | 話者分類装置、話者分類方法および話者分類プログラム |
US9390085B2 (en) * | 2012-03-23 | 2016-07-12 | Tata Consultancy Sevices Limited | Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english |
US10008198B2 (en) * | 2013-03-28 | 2018-06-26 | Korea Advanced Institute Of Science And Technology | Nested segmentation method for speech recognition based on sound processing of brain |
JP5807921B2 (ja) * | 2013-08-23 | 2015-11-10 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
US9646613B2 (en) * | 2013-11-29 | 2017-05-09 | Daon Holdings Limited | Methods and systems for splitting a digital signal |
US9965685B2 (en) * | 2015-06-12 | 2018-05-08 | Google Llc | Method and system for detecting an audio event for smart home devices |
CN105244020B (zh) * | 2015-09-24 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 韵律层级模型训练方法、语音合成方法及装置 |
US9754580B2 (en) | 2015-10-12 | 2017-09-05 | Technologies For Voice Interface | System and method for extracting and using prosody features |
US10950253B2 (en) | 2018-02-09 | 2021-03-16 | Board Of Regents, The University Of Texas System | Vocal feedback device and method of use |
US11017787B2 (en) * | 2018-02-09 | 2021-05-25 | Board Of Regents, The University Of Texas System | Self-adjusting fundamental frequency accentuation subsystem for natural ear device |
TWI721516B (zh) * | 2019-07-31 | 2021-03-11 | 國立交通大學 | 用以產生局部倒語速之估計値之方法與據以產生局部倒語速之預測値之裝置與方法 |
CN112802451B (zh) * | 2021-03-30 | 2021-07-09 | 北京世纪好未来教育科技有限公司 | 韵律边界预测方法及计算机存储介质 |
CN113808579B (zh) * | 2021-11-22 | 2022-03-08 | 中国科学院自动化研究所 | 生成语音的检测方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1299127A (zh) * | 1999-11-24 | 2001-06-13 | 松下电器产业株式会社 | 用于自动语音识别的优化的局部特征提取 |
US20030182114A1 (en) * | 2000-05-04 | 2003-09-25 | Stephane Dupont | Robust parameters for noisy speech recognition |
CN1773605A (zh) * | 2004-11-12 | 2006-05-17 | 中国科学院声学研究所 | 一种应用于语音识别系统的语音端点检测方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4450531A (en) * | 1982-09-10 | 1984-05-22 | Ensco, Inc. | Broadcast signal recognition system and method |
JP3112654B2 (ja) * | 1997-01-14 | 2000-11-27 | 株式会社エイ・ティ・アール人間情報通信研究所 | 信号分析方法 |
US6453284B1 (en) * | 1999-07-26 | 2002-09-17 | Texas Tech University Health Sciences Center | Multiple voice tracking system and method |
US7120575B2 (en) * | 2000-04-08 | 2006-10-10 | International Business Machines Corporation | Method and system for the automatic segmentation of an audio stream into semantic or syntactic units |
US7532943B2 (en) * | 2001-08-21 | 2009-05-12 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to sonic properties |
US7165025B2 (en) * | 2002-07-01 | 2007-01-16 | Lucent Technologies Inc. | Auditory-articulatory analysis for speech quality assessment |
EP1469457A1 (en) * | 2003-03-28 | 2004-10-20 | Sony International (Europe) GmbH | Method and system for pre-processing speech |
TWI233590B (en) * | 2003-09-26 | 2005-06-01 | Ind Tech Res Inst | Energy feature extraction method for noisy speech recognition |
US20050171774A1 (en) * | 2004-01-30 | 2005-08-04 | Applebaum Ted H. | Features and techniques for speaker authentication |
US20050246165A1 (en) * | 2004-04-29 | 2005-11-03 | Pettinelli Eugene E | System and method for analyzing and improving a discourse engaged in by a number of interacting agents |
US8170875B2 (en) * | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
GB2433150B (en) * | 2005-12-08 | 2009-10-07 | Toshiba Res Europ Ltd | Method and apparatus for labelling speech |
JP5159325B2 (ja) * | 2008-01-09 | 2013-03-06 | 株式会社東芝 | 音声処理装置及びそのプログラム |
US8036891B2 (en) * | 2008-06-26 | 2011-10-11 | California State University, Fresno | Methods of identification using voice sound analysis |
JP4585590B2 (ja) * | 2008-09-26 | 2010-11-24 | 株式会社東芝 | 基本周波数変化量抽出装置、方法及びプログラム |
US8571849B2 (en) * | 2008-09-30 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with prosodic information |
US8788270B2 (en) * | 2009-06-16 | 2014-07-22 | University Of Florida Research Foundation, Inc. | Apparatus and method for determining an emotion state of a speaker |
-
2009
- 2009-08-21 CN CN2009101685132A patent/CN101996628A/zh active Pending
-
2010
- 2010-08-16 US US12/857,008 patent/US8566092B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1299127A (zh) * | 1999-11-24 | 2001-06-13 | 松下电器产业株式会社 | 用于自动语音识别的优化的局部特征提取 |
US20030182114A1 (en) * | 2000-05-04 | 2003-09-25 | Stephane Dupont | Robust parameters for noisy speech recognition |
CN1773605A (zh) * | 2004-11-12 | 2006-05-17 | 中国科学院声学研究所 | 一种应用于语音识别系统的语音端点检测方法 |
Non-Patent Citations (1)
Title |
---|
张欣研 等: "基于子带信息的鲁棒语音特征提取框架", 《中文信息学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104505103A (zh) * | 2014-12-04 | 2015-04-08 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN106157961A (zh) * | 2015-04-09 | 2016-11-23 | 展讯通信(上海)有限公司 | 语音信号处理方法及装置 |
CN108630207A (zh) * | 2017-03-23 | 2018-10-09 | 富士通株式会社 | 说话人确认方法和说话人确认设备 |
CN108492818A (zh) * | 2018-03-22 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 文本到语音的转换方法、装置和计算机设备 |
CN108492818B (zh) * | 2018-03-22 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 文本到语音的转换方法、装置和计算机设备 |
WO2020173488A1 (zh) * | 2019-02-28 | 2020-09-03 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN113178195A (zh) * | 2021-03-04 | 2021-07-27 | 杭州电子科技大学 | 一种基于声音诱发脑电信号的说话人识别方法 |
CN113178195B (zh) * | 2021-03-04 | 2022-08-26 | 杭州电子科技大学 | 一种基于声音诱发脑电信号的说话人识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US8566092B2 (en) | 2013-10-22 |
US20110046958A1 (en) | 2011-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101996628A (zh) | 提取语音信号的韵律特征的方法和装置 | |
Hanani et al. | Human and computer recognition of regional accents and ethnic groups from British English speech | |
US10410623B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
Yağanoğlu | Real time wearable speech recognition system for deaf persons | |
CN105023573A (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
Haderlein et al. | Objective voice and speech analysis of persons with chronic hoarseness by prosodic analysis of speech samples | |
Marković et al. | Whispered speech database: Design, processing and application | |
Low | The acoustic reality of the Kachruvian circles: A rhythmic perspective | |
Waghmare et al. | Emotion recognition system from artificial marathi speech using MFCC and LDA techniques | |
CN109300339A (zh) | 一种英语口语的练习方法及系统 | |
Cherif et al. | Pitch detection and formant analysis of Arabic speech processing | |
CN113539239B (zh) | 语音转换方法、装置、存储介质及电子设备 | |
Hung et al. | Automatic identification of vietnamese dialects | |
Bartelds et al. | Measuring foreign accent strength using an acoustic distance measure | |
Phuong et al. | A high quality and phonetic balanced speech corpus for Vietnamese | |
Kandali et al. | Vocal emotion recognition in five languages of Assam using features based on MFCCs and Eigen Values of Autocorrelation Matrix in presence of babble noise | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
He et al. | Automatic detection of consonant omission in cleft palate speech | |
Bhardwaj et al. | A Study of Methods Involved In Voice Emotion Recognition | |
Wang et al. | Analysis of Chinese interrogative intonation and its synthesis in HMM-Based synthesis system | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
Arora et al. | Corpus Design Challenges and Analysis of Acoustic Information for Automatic Dialect Classification | |
Borah et al. | Automatic identification of the dialects of Assamese Language in the District of Nagaon | |
CN113436649B (zh) | 一种语音情感标定辅助方法及系统 | |
Waghmare | Stuttered Isolated Spoken Marathi Speech Recognition by using MFCC and LPC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20151209 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |