CN101014997A - 用于生成用于自动语音识别器的训练数据的方法和系统 - Google Patents

用于生成用于自动语音识别器的训练数据的方法和系统 Download PDF

Info

Publication number
CN101014997A
CN101014997A CN200580005136.0A CN200580005136A CN101014997A CN 101014997 A CN101014997 A CN 101014997A CN 200580005136 A CN200580005136 A CN 200580005136A CN 101014997 A CN101014997 A CN 101014997A
Authority
CN
China
Prior art keywords
spectral characteristic
frequency
code book
voice data
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200580005136.0A
Other languages
English (en)
Other versions
CN101014997B (zh
Inventor
A·菲舍尔
R·D·比普斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101014997A publication Critical patent/CN101014997A/zh
Application granted granted Critical
Publication of CN101014997B publication Critical patent/CN101014997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明描述了用于生成用于以特定第一采样频率(fH)操作的自动语音识别器(2)的训练数据(DT)的方法和系统,包括步骤:由以低于第一采样频率(fH)的第二采样频率(fL)采样的音频数据(DL)导出频谱特性(SL);通过从密码本(6)检索带宽扩展信息(IBE)扩展频谱特性(SL)的带宽;以及处理带宽扩展频谱特性(SLE)以便产生所需训练数据(DT)。此外,描述了用于生成将用于以第二采样频率(fL)采样的音频数据(DL)的频谱特性(SL)的带宽扩展到用于高于第二采样频率(fL)的第一采样频率(fH)的频谱特性(SH)的密码本(6)的方法和系统(5)。

Description

用于生成用于自动语音识别器的训练数据的方法和系统
技术领域
本发明通常涉及用于生成用于以特定采样频率操作的自动语音识别器的训练数据的方法和系统。此外,本发明涉及用于训练自动语音识别系统的方法,以及用于生成用在用于生成训练数据的方法中的密码本的方法和系统。
背景技术
自动语音识别器用于各种应用,诸如控制界面、自动导航系统、对话系统等等,其中,识别和解释语音输入。通常,这种自动语音识别器(ASR)的用户向麦克风说话,其中,模拟语音输入通过用于窗口化和采样输入模拟信号,即以连续速率测量模拟信号的振幅以便提供离散采样集的常用技术,转换成数字形式。采样信号的速率称为采样速率或采样频率。离散样本的最终顺序提供模拟信号的时域描述。例如通过在采样输入信号上执行快速傅立叶变换,将该输入信号的时域描述转换成频域描述,其中,执行各种处理步骤以便提取用于输入信号的特征,通常以特征向量的形式。通过将这些特征与模板或其他模型进行比较,在下文中称为“模型”,以及确定最适当的匹配,ASR能分析语音输入以便确定用户说了什么以及最终将执行哪些动作。
通常使用训练数据计算由自动语音识别器使用的模型,训练数据通常是所说话语,诸如词、句子或整个会话的集合。将训练数据输入自动语音识别器的前端,即第一处理级,并处理来计算用于自动语音识别器的模型。为增加自动语音识别器在操作期间正确地识别和理解输入语音的成功率,通常将多个扬声器用于训练自动语音识别器,通过区分重音或声调来提供尽可能宽的话语的选择。可用于训练自动语音识别器的话语越多,其性能越好。如果在类似于意图操作自动语音识别器的条件的声学条件下,记录训练数据,甚至能获得更好性能。
将每一模拟信号视为不同频率的许多分量正弦波的合成。根据样本的所需质量,选择采样频率。高采样速率确保将更高频率分量包括在采样信号中。根据Nyquist,采样频率必须是最高所需频率分量的频率的至少二倍,因为在采样中丢失低于采样速率的一半的任何分量频率。因此,由于在提高语音识别的更高频带中的另外的信息,自动语音识别器将从用于该输入语音的较高采样速率受益。例如,在汽车中操作的自动语音识别器能以较高采样速率更好地执行。为训练以较高采样速率操作的这种自动语音识别器,有必要首先收集以该采样速率获得的训练音频数据。
用于自动语音识别器的训练数据应当包含尽可能宽的多个所说话语,例如单词、整个语句,或甚至整个会话。理想地,所说词来自具有不同重音或清晰度质量的多个扬声器。因此,为收集计算用于自动语音识别器的鲁棒性能的所需多个模型的足够的原始数据,将要求许多人在实际条件下录制多个测试词来反映典型的汽车的嘈杂环境。通过话语的适当不同集合,训练数据能确保自动语音识别器的鲁棒操作,以及在实际工作条件下可靠识别语音。然而,用于在较高采样频率操作的自动语音识别器,例如用于用在汽车应用中的自动语音识别器的训练语音数据不易于得到,因为在不利环境中,诸如在嘈杂汽车中收集数据非常耗时,因此造价昂贵。并且,每种自动语音识别器要求以其自己的特定格式,以特征模型的形式的训练数据。以用于特定ASR品牌的格式的训练数据可能非常不适合于不同类型的ASR。
发明内容
因此,本发明的目的是提供用于生成自动语音识别器的训练数据的简单和廉价方法和系统。
为此,本发明提供用于生成用于为特定第一采样频率所构成的自动语音识别器的训练数据的方法-通过从以低于第一采样频率的第二采样频率采样的音频数据导出频谱特性,通过检索带宽扩展信息,扩展频谱特性的带宽,以及处理带宽扩展频谱特性以便提供所需训练数据。
信号频谱是指在其不同频率分量上分布的信号中的线路能量(wayenergy)。能使用频谱的各种特性来描述频域中的信号。这些特性在下文中称为“频谱特性”或“频谱表示”,以及可以用多种方法计算。
该方法的固有优点在于用来生成训练数据的训练音频数据可以是已经用在其他、不同应用中的数据,以及可以以低于训练数据所需的频率采样。因此,例如,可以实现可用电话音频数据的数据库,因为这些数据库已经可获得,通常相当大,以及包含通常来自不同扬声器集的各种所说词和/或整个语句。因为4KHz的带宽通常满足电话使用,通常以8KHz采样音频电话数据。使用根据本发明的方法,该8KHz数据可以用来训练汽车自动语音识别器,由于性能质量原因,可以以相当高频率,诸如11KHz或甚至更高的频率操作。
用于生成用于以特定第一采样频率操作的自动语音识别器的训练数据的适当系统包括用于从以低于第一采样频率的第二频率采样的音频数据导出频谱特性的转换器,检索单元,用于从密码本检索用于频谱特性的带宽扩展信息,以及处理模块,用于处理带宽扩展频谱特性以便给出所需训练数据。
根据本发明,扩展以较低采样频率可获得的数据的频谱特性的带宽以致输入似乎以更高频率采样。从存储它的适当源,以适当形式检索带宽扩展信息。这里,这种源通常称为“密码本”。因此,密码本是以能与以相同形式的其他数据比较的模板或某一形式的随机混合模型的集合。数据形式通常相当复杂,例如,用于典型的ASR的特征向量可以是n维向量,其中,n通常是相当大的数,以及数据与模板的比较通常包含定位“最佳匹配”。用来生成用于自动语音识别器的训练数据的该密码本不与可以用在自动语音识别器的稍后阶段中的不同类型的密码本混淆,并且不相关。
能在下一步骤中处理带宽扩展频谱特性以便提供以自动语音识别器的另外的阶段所需的形式的训练数据。
为实现此,需要允许带宽扩展的适当密码本。因此,本发明的另一目的是提供用于生成这种密码本的方法和系统。
根据本发明,生成用在上述系统中的密码本包含用于将以较低采样频率采样的音频数据的频谱特性的带宽扩展到用于较高采样频率的频谱特性的项-包括用于该密码本的每一项的多个步骤。在第一步骤中,由以第一采样频率采样的音频数据导出第一频谱特性集。然后,在该音频数据上执行到第二采样频率的采样速率变换,以及导出相应的第二频谱特性集。因此,第一和第二频谱特性集均描述相同的音频样本,但以不同采样频率。对于第二频谱特性集,计算密码本项,以及增加来自第一频谱特性集的另外的较高频率信息。然后,将该项存储在密码本中。
用于生成用于将以第二采样频率采样的音频数据的频谱特性集的带宽扩展到用于以高于第二采样频率的第一采样频率的频谱特性集的密码本的适当设备,包括用于从以第一采样频率采样的音频数据导出第一频谱特性集的转换器,用于在音频数据上执行到第二采样频率的采样速率变换以及导出用于第二采样频率的相应第二频谱特性集的模块,以及密码本项生成器,用于基于第二频谱特性集生成用于密码本的项,以及用于使密码本项增加来自相应的第一频谱特性集的另外的更高频率信息。
从属权利要求和后续说明书具体公开了本发明的有利实施例和特征。
在两种情况-生成用于ASR的训练数据和生成密码本中-通过在音频数据上首先执行时间/频率域变换,将音频数据转换成频谱特性集,以便提供频域系数集。在要求从较高采样频率到较低采样频率的下采样的步骤的情况下,可以在已经窗口化和采样的输入音频数据上直接执行下采样,或可以在音频数据的时间-频率域变换后执行。另外,可以通过用适当的低通滤波器过滤音频数据以便修剪上述频率,实现下采样效果。
时间/频率域变换最好是快速傅立叶变换(FFT),因为这种变换允许快速和有效获得采样信号的离散傅立叶变换。通过DFT或FFT确定的系数表示音频信号的频率分量的每一个的振幅以及描述音频信号的频谱。根据需要,同样可以实现不同类型的时间/频率域变换,例如离散余弦变换(DCT)。
由时间/频率域变换产生的系数能用作频谱特性。然而,由于它们的使用意味着在生成密码本中的更多努力,通常执行另外的处理步骤以便在稍后阶段省去麻烦。例如,能通过滤波器组过滤时间/频率域变换的输出以便提供滤波器组功率值集。
这种滤波器组的一个优点是最终频谱描述要求相当少的数据,以及如果需要,能失真或翘曲(warp)频率轴。
通常在计算频谱后执行频率轴的翘曲以便模拟人类耳蜗的性能,因为耳蜗中的声音分析以非线性频率比例,称为Bark或mel比例发生。该比例近似地线性达约1000Hz并且此后近似为对数的。在本发明的具体优选实施例中,构造滤波器组中的滤波器以便实现频率轴的所需翘曲。
然后,可以将滤波器组输出功率值用作频谱特性。
也可以通过在另一处理步骤中,计算滤波器组功率值的对数,以便提供对数频谱系数集,获得频谱特性。在根据mel比例,在滤波器组中实现频率轴的翘曲的情况下,能将最终系数称为mel频率系数。通常这种对数频谱系数是用于生成用在诸如自动语音识别器的系统中的特征向量的基础。对数频谱系数也可以使用不同的、同样适当的技术计算。
在本发明的具体优选实施例中,对数频谱系数用作用于生成用于用在生成用于自动语音识别器的训练数据的系统中的带宽扩展密码本的项的频谱特性。通过在对数频谱系数上执行DCT,能将这些变换成对数倒谱系数,特别适合于在自动语音识别器的另外的处理步骤中的应用,诸如语音识别和理解。
在用于训练自动语音识别器的适当方法中,使用以较低频率采样并增加从密码本检索的带宽扩展信息的音频数据,提供似乎以更高采样频率获得的训练数据,足以生成所需训练数据。不必说,以较低频率采样的训练数据能与以所需频率采样的训练数据一起使用。
通过使用以更高频率采样的相对小的高质量音频数据集,构建用在从以较低频率采样的音频数据生成训练数据中的密码本。分别对较高频率的音频数据,和下采样到较低频率的音频数据计算第一和第二频谱特性集。因此,第一和第二频谱特性集均有效地描述相同的输入音频数据样本。然而,第一集包含在第二集合中不存在的另外的高频信息。因此,使用相应的第一频谱特性集,增加为第二频谱特性集计算的密码本项。
在本发明的一个实施例中,每一密码本项可以包括来自第一和第二频谱特性集的信息,最好以两个集合彼此相关,而且保持分离的方式存储。
在另一实施例中,每一密码本项可以包括来自第二频谱特性集的信息,以及从第一频谱特性集提取的另外的带宽扩展信息。
根据用来构建密码本的较高频率的音频数据的质量,有必要通过移除某些不希望的频谱分量,诸如背景噪声,修改音频数据的频谱。为此,对第二频谱特性集,连续地计算平均值或平均频谱。然后,在计算密码本项前,从音频数据的频谱特性减去或消除平均频谱。用这种方式,相对“清洁(clean)”的数据用于构建密码本。
类似地,以较低频率采样并用来生成用于自动语音识别器的训练数据的音频数据也可以要求频谱改进以便消除不希望的噪声或沟道效应。在音频数据中存在的这种频谱特征当包含在训练数据中时,可能具有反面效果,以及最好通过由音频数据连续地计算平均值或平均频谱以及在从密码本检索带宽扩展信息前,从音频数据的频谱特性减去平均频谱来消除。这确保为自动语音识别器生成的训练数据基本上无不希望的噪声或沟道效应。
由于用于自动语音识别器的训练数据应当真实地反映期望操作的环境的典型的音频质量,可以期望增加或插入适当的背景噪声信息,或其他类似的频谱特征。为此,可以调整带宽扩展频谱特性的频谱以便在可选处理步骤中修改其频谱属性。为计算方便,最好在线性域中执行该处理步骤。这使得计算频谱特性的反对数成为必要,这些应当以对数形式。然后,通过增加所需特征,修改音频数据的频谱。然后,根据需要,再次计算频谱的对数,以便将频谱返回到对数域中。
本发明的其他目的和特征从结合附图考虑的下述详细说明变得显而易见。然而,应理解到仅为示例目的设计了附图,而不是本发明的限制的定义。
附图说明
图1是表示在自动语音识别器的前端中的普通处理步骤的框图;
图2是根据本发明的实施例,用于生成密码本的系统的框图;
图3是根据本发明的实施例,用于生成用于自动语音识别器的训练数据的系统的框图;
图4是表示用于在导出用于由图2和3描述的系统的频谱特性的模块中的处理步骤的框图;
图5是表示在用于导出用于由图2描述的系统的频谱特性的模块中的处理步骤的框图。
具体实施方式
在图1中,简化表示示处了包含在处理输入模拟音频信号A以便生成用于在语音识别的后续阶段中使用的音频信号的特征向量V中的自动语音识别器的典型前端中的阶段。首先窗口化和以采样频率f采样模拟音频信号A,可以包括语音和噪声分量,以便提供数字音频样本集。对每一数字样本集执行快速傅立叶变换(FFT),提供相应的傅立叶系数集。将这些依次转送到滤波器组,其中,根据Bark或mel比例,以非线性方式构造滤波器,以便计算信号的各个频率分量的能量,提供滤波器组能量值集。以对数单位,对滤波器组能量值计算对数,以提供对数滤波器系数集。在对数滤波器组系数上执行长期规格化(LTN),以便规格化沟道效应。然后,通过在对数频谱系数上执行离散余弦变换(DCT),进一步处理LTN输出,以便提供特征向量V,在这种情况下为倒谱系数(cepstral coefficient)。在自动语音识别器的另外的阶段中,在该图中未示出,特征向量V用于语音识别和语音理解。
图2表示用于生成用在根据图3的用于生成用于为采样频率fH构建的以及将使用以较低频率fL采样的数据训练的自动语音识别器2的训练数据的系统中密码本的系统。通过模块9,处理已经以较高频率fH采样的音频数据DCH,部分与在图1中所述的自动语音识别器的前端类似。同时,通过类似的模块10,处理音频数据。能分别在图4和5中详细看见模块9和10。
图4表示为从已经通过窗口化和以所需采样频率f采样模拟信号获得的输入音频数据30,提取频谱特性34构建的模块9。在块41中处理样本30以便计算FFT系数31,然后,在滤波器组单元42中过滤以便提供滤波器组功率值32,在对数块43中计算其对数频谱值33。在块44中,在对数频谱值33上执行长期规格化以便提供频谱特性集34。
图5中的处理步骤的顺序基本上与图4相同,但具有在下采样块46中,下采样输入音频数据30以便提供较低采样频率fL样本的另一步骤。已经使用相同的输入样本计算分别为音频数据DCH计算并从块9和10输出的频谱特性,即SCH和SCL,但SCH包含在SCL中不存在的较高频率信息。
在可选单元20中,在它们与用来生成带宽扩展数据的音频数据DL(图3)相差不可忽略的量的情况下,能规格化沟道或附加噪声特性。该单元20能包括沟道规格化或附加噪声补偿的任何适当的装置。在图2中,例如,在平均频谱计算块17中,计算用于对数频谱特性SCL的对数平均频谱18,以及在平均减法块19中,从对数频谱特性SCL减去。能适当地合并块10和12以避免处理步骤重复,例如,在另外的噪声/沟道补偿要求在线性频谱域中处理(在计算对数前)的情况下。如果在其频谱表示SCL中显示出的音频数据DCH的沟道和噪声特性的低频部分非常接近音频数据DL的那些,该可选单元20能省略。否则,使用该单元20来消除或规格化存在于音频数据DCH中的沟道和噪声效应。
在密码本项生成单元11中,对频谱特性SCL集,计算用于密码本6的密码本项12。通过使用存在于相应的频谱特性SCH集并存储在密码本6中的较高频率分量,增加或扩展这些项12。因此,使用实际上已经以较高频率fH采样,并包含否则将在向下采样中丢失的一些或全部较高频率信息的音频数据,汇编包括用于以fL采样的音频数据的项的密码本6。
能在图3中看到如何使用该密码本来生成用于构造成在采样频率fH操作的自动语音识别器2(fH)的训练数据。用于训练自动语音识别器2(fH)的输入音频数据DL可在较低频率fL获得。在模块3中首先处理输入音频数据DL,部分与已经在图1中所述的自动语音识别器的前端类似,以提供频谱特性集SL。以与用来在图2所述的密码本生成过程中处理音频数据的模块9相同的方式,构建模块3。这表示在两种情况下,以相同的方式处理较高采样频率的音频数据。
可选单元16表示图2中的单元20的对应单元。该单元16也能包括对应于单元20,用于沟道规格化或另外的噪声补偿的任何适当的装置。因此,在该例子中,在平均频谱计算块13中,对对数频谱特性SL计算对数平均频谱14以及在平均减法块15中,从对数频谱特性SL中减去。如果音频数据DL的沟道和噪声特性与用来训练密码本6的音频数据DCH非常类似,也能省略该可选单元16。否则,使用ASR训练数据生成系统1的单元16和图2的密码本生成系统5的单元20来分别规格化音频数据DL和DCH的沟道和噪声特性。该步骤的原因是确保不会由于训练和使用密码本间的沟道和/或背景噪声不匹配,不利地引起密码本查找的过程。
现在,通过从密码本6检索带宽扩展信息IBR,扩展每一频谱特性集SL的带宽以便包括更高频率分量。该带宽扩展信息IBE能从最接近匹配频谱特性集SL的密码本6中的项或模板获得或经加权内插从所有项计算(见下文)。
将频谱特性与密码本中的模板匹配的过程很大程度上取决于构成密码本的方式。
在其最通用版本中,“随机混合模型”用在密码本中,用于模拟由以特定采样频率采样的输入数据获得的频谱特性的概率分布。混合模型是单峰概率密度函数的加权和。最通常和最简单的处理单峰函数是高斯分布。总和加权表示用于混合分布的每一单个单峰分布(模式)的先验概率。为带宽扩展目的,混合模型的每一模式具有相关输出向量。对每一输入向量,对能导出每一模式的概率的每一混合模式,计算概率密度值。通过附属于所计算的概率用作加权(加权内插)的每一模式的输出向量的加权总和,计算输出向量(来自更高频带的输入或另外部分的带宽扩展型)。
能将其他类型的密码本和模板匹配方法(“密码本查找”)视作上述混合模型的特殊情形或近似,诸如例如:
1.高斯混合模型,将高斯分布用于每一模式;
2.将具有单位矩阵的高斯用作协方差矩阵。这些仅由它们的平均值表示。概率密度计算总计计算输入向量和平均值间的“距离”;
3.通过将其设置成对于具有最高概率的模型为1.0(“最接近”模式)和对于所有其他的为0.0,计算用于每一输入向量的概率的近似值。
其中,输出向量对应于用来代替或扩展频谱特性SL的带宽扩展信息IBE以便提供频谱特性集SL,E,似乎已经通过以较高频率fH采样获得。
在最终处理模块7中,在块23中,在对数频谱上执行离散余弦变换以便提供由自动语音处理器2所需的特征向量或训练数据DT。训练数据DT能直接转发到自动语音处理器2的下一阶段,或能存储在数据库21中,用于以后使用。
为反映自动语音识别器2将操作的环境,能在可选块8中,相应地修改频谱特性SL,E。该可选块8在此示为最终处理模块7的一部分,位于DCT前。例如,能将噪声添加到频谱上以便反映汽车中的噪声环境。由于这种类型的操作应当在线性频域中执行,在再次增加噪声频谱和计算用于频谱特性SL,E的对数前,首先计算用于频谱特性SL,E的反对数。
尽管以优选实施例和变形的形式公开了本发明,将理解到在不背离本发明的范围的情况下,能做出各种另外的改进和改变。用来描述输入音频的属性的频谱特性可以用作FFT系数、滤波器组功率值、对数频谱系数或任何其他适当的频谱描述(诸如小波等等)。可以选择将执行带宽扩展的点以便最适合实现。同样地,可以选择相对于其他阶段,设置LTN、DCT或其他处理阶段的顺序来适合实现的需求。
为清楚起见,还应理解到在整个申请中使用“一”或“一个”不排除多个,以及“包括”不排除其他步骤或元件。“单元”或“模块”可以包括多个块或设备,除非清楚地描述为单一实体。以硬件的形式和/或通过实现软件模块,本领域的技术人员可以实现单元、模块、块和设备。术语“频谱”和“频谱的”也表示“倒谱”和“倒谱的”,根据Bark或mel比例,其指的是在翘曲后对数频谱的FFT或DCT变换。

Claims (15)

1.一种用于生成用于以特定第一采样频率(fH)操作的自动语音识别器(2)的训练数据(DT)的方法,包括下述步骤:
-从以低于第一采样频率(fH)的第二采样频率(fL)采样的音频数据(DL)导出频谱特性(SL);
-通过从密码本(6)检索带宽扩展信息(IBE)扩展频谱特性(SL)的带宽;
-处理带宽扩展频谱特性(SLE)以便产生所需训练数据(DT)。
2.如权利要求1所述的方法,其中,将音频数据(DH,DL)转换成频谱特性集(SH,SL)包括计算音频数据(DH,DL)的FFT以便产生傅立叶系数集(31)以及用滤波器组(22)过滤FFT的输出以便产生滤波器组功率值集(32)。
3.如权利要求2所述的方法,其中,将音频数据(DH,DL)转换成频谱特性集(SH,SL)包括处理FFT系数(31)或滤波器组功率值(32)以便产生对数频谱系数集(33)。
4.如权利要求1至3的任何一个所述的方法,其中,处理带宽扩展频谱特性(SL,E)包括改变频谱以便调整音频数据(DL)的信号属性的步骤。
5.如权利要求4所述的方法,其中,在线性域中执行改变频谱以便调整音频数据(DL)的信号属性的步骤。
6.如权利要求1至5的任何一个所述的方法,其中,从音频数据(DL)导出频谱特性(SL)在从频谱特性(SL)减去平均频谱的步骤后。
7.一种用于训练自动语音识别系统(2)的方法,其中,用于训练的数据(DL)至少部分使用根据权利要求1至6的任何一个的方法生成。
8.一种用于生成密码本(6)的方法,用于将用于以第二采样频率(fL)采样的音频数据(DL)的频谱特性(SL)的带宽扩展到用于高于第二采样频率(fL)的第一采样频率(fH)的频谱特性(SH),包括用于密码本(6)的每一项的下述步骤:
-从以第一采样频率(fH)采样的音频数据(DCH)导出第一频谱特性集(SCH);
-在音频数据(DCH)上执行到第二采样频率(fL)的采样速率变换,以及导出相应的第二频谱特性集(SCL);
-基于第二频谱特性集(SCL)生成密码本项(12)以及向密码本项(12)增加来自第一频谱特性集(SH)的另外的较高频率信息。
9.如权利要求8所述的方法,其中,增加密码本项(12)包括从属于高于第二采样频率(fL)的频率的相应的第一频谱特性集(SH)抽取信息,以及将该信息附加到密码本(6)的密码本项(12)。
10.如权利要求8或9所述的方法,其中,导出第二频谱特性集(SCL)在背景降噪和/或沟道规格化步骤后。
11.如权利要求10所述的方法,其中,频谱特性(SCL)包括对数频谱表示,以及通过从对数频谱特性(SCL)减去平均对数频谱,执行沟道规格化。
12.如权利要求10所述的方法,其中,频谱特性(SCL)包括线性频谱表示,以及通过从线性频谱特性(SCL)减去背景噪声频谱,执行背景降噪。
13.如权利要求11和12所述的方法,其中,通过从线性频谱特性(SCL)减去背景噪声频谱,接着,计算对数,然后从对数频谱特性减去平均对数频谱,执行背景降噪。
14.一种用于生成用于以特定第一采样频率(fH)操作的自动语音识别器(2)的训练数据(DT)的系统,包括:
-转换器(3),用于由以低于第一采样频率(fH)的第二采样频率(fL)采样的音频数据(DC)导出频谱特性(SL);
-检索单元(4),用于从密码本(6)检索用于频谱特性(SL)的带宽扩展信息;
-处理模块(7),用于处理带宽扩展频谱特性(SL,E)以便产生所需训练数据(DT)。
15.一种用于生成密码本(6)的系统(5),用于将用于以第二采样频率(fL)采样的音频数据(DL)的频谱特性集(SL)的带宽扩展到用于高于第二采样频率(fL)的第一采样频率(fH)的频谱特性(SH),包括:
-转换器(9),用于从以第一采样频率(fH)采样的音频数据(DCH)导出第一频谱特性集(SCH);
-模块(10),用于在音频数据(DCH)上执行到第二采样频率(fL)的采样速率变换,以及用于导出用于第二采样频率(fL)的相应的第二频谱特性集(SCL);
密码本项生成器(12),用于基于第二频谱特性集(SCL)生成用于密码本(6)的项(12)以及用于向密码本项(12)增加来自相应的第一频谱特性集(SCH)的另外的较高频率信息。
CN200580005136.0A 2004-02-18 2005-02-10 用于生成用于自动语音识别器的训练数据的方法和系统 Active CN101014997B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04100646 2004-02-18
EP04100646.1 2004-02-18
PCT/IB2005/050518 WO2005083677A2 (en) 2004-02-18 2005-02-10 Method and system for generating training data for an automatic speech recogniser

Publications (2)

Publication Number Publication Date
CN101014997A true CN101014997A (zh) 2007-08-08
CN101014997B CN101014997B (zh) 2012-04-04

Family

ID=34896083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200580005136.0A Active CN101014997B (zh) 2004-02-18 2005-02-10 用于生成用于自动语音识别器的训练数据的方法和系统

Country Status (5)

Country Link
US (1) US8438026B2 (zh)
EP (1) EP1719114A2 (zh)
JP (1) JP5230103B2 (zh)
CN (1) CN101014997B (zh)
WO (1) WO2005083677A2 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
CN105989849A (zh) * 2015-06-03 2016-10-05 乐视致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
WO2018153214A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种混合频率声学识别模型的训练方法及语音识别方法
CN110459205A (zh) * 2019-09-24 2019-11-15 京东数字科技控股有限公司 语音识别方法及装置、计算机可存储介质
CN112116903A (zh) * 2020-08-17 2020-12-22 北京大米科技有限公司 语音合成模型的生成方法、装置、存储介质及电子设备
CN112131865A (zh) * 2020-09-11 2020-12-25 成都运达科技股份有限公司 一种轨道交通报文数字压缩处理方法、装置及存储介质
US10984795B2 (en) 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
WO2022032608A1 (zh) * 2020-08-11 2022-02-17 南京拓灵智能科技有限公司 一种音频降噪方法和装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60214027T2 (de) 2001-11-14 2007-02-15 Matsushita Electric Industrial Co., Ltd., Kadoma Kodiervorrichtung und dekodiervorrichtung
US7983916B2 (en) * 2007-07-03 2011-07-19 General Motors Llc Sampling rate independent speech recognition
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
JP5326714B2 (ja) * 2009-03-23 2013-10-30 沖電気工業株式会社 帯域拡張装置、方法及びプログラム、並びに、量子化雑音学習装置、方法及びプログラム
GB2485926B (en) 2009-08-28 2013-06-05 Ibm Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
WO2012025579A1 (en) * 2010-08-24 2012-03-01 Veovox Sa System and method for recognizing a user voice command in noisy environment
US9076446B2 (en) * 2012-03-22 2015-07-07 Qiguang Lin Method and apparatus for robust speaker and speech recognition
US9319510B2 (en) * 2013-02-15 2016-04-19 Qualcomm Incorporated Personalized bandwidth extension
US9684087B2 (en) 2013-09-12 2017-06-20 Saudi Arabian Oil Company Dynamic threshold methods for filtering noise and restoring attenuated high-frequency components of acoustic signals
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9842608B2 (en) * 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
CN104468001B (zh) * 2014-11-26 2017-04-19 北京邮电大学 基于无线电信号频谱特征模板的信号识别方法及系统
EP3265919B1 (en) * 2015-03-06 2021-09-29 Georgia Tech Research Corporation Device fingerprinting for cyber-physical systems
CN113870872A (zh) * 2018-06-05 2021-12-31 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
US11392794B2 (en) 2018-09-10 2022-07-19 Ca, Inc. Amplification of initial training data
US11295726B2 (en) 2019-04-08 2022-04-05 International Business Machines Corporation Synthetic narrowband data generation for narrowband automatic speech recognition systems
US11335329B2 (en) * 2019-08-28 2022-05-17 Tata Consultancy Services Limited Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition
US11749281B2 (en) 2019-12-04 2023-09-05 Soundhound Ai Ip, Llc Neural speech-to-meaning
US11308938B2 (en) 2019-12-05 2022-04-19 Soundhound, Inc. Synthesizing speech recognition training data
CN113708863B (zh) * 2021-09-10 2023-08-01 中国人民解放军63891部队 频谱感知训练数据集的构建方法及装置
US20230186925A1 (en) * 2021-12-10 2023-06-15 Nuance Communications, Inc. Feature domain bandwidth extension and spectral rebalance for asr data augmentation

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
CN1061205C (zh) * 1997-07-24 2001-01-24 北京信威通信技术有限公司 扩频通信系统中载波恢复和补偿的方法及其装置
US6381571B1 (en) * 1998-05-01 2002-04-30 Texas Instruments Incorporated Sequential determination of utterance log-spectral mean by maximum a posteriori probability estimation
US6199041B1 (en) * 1998-11-20 2001-03-06 International Business Machines Corporation System and method for sampling rate transformation in speech recognition
CA2363561C (en) * 1999-02-19 2009-08-18 Custom Speech Usa, Inc. Automated transcription system and method using two speech converting instances and computer-assisted correction
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
JP4577543B2 (ja) * 2000-11-21 2010-11-10 ソニー株式会社 モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
JP2002189487A (ja) * 2000-12-20 2002-07-05 Mitsubishi Electric Corp 音声認識装置および音声認識方法
JP2002268698A (ja) * 2001-03-08 2002-09-20 Nec Corp 音声認識装置と標準パターン作成装置及び方法並びにプログラム
US6990447B2 (en) * 2001-11-15 2006-01-24 Microsoft Corportion Method and apparatus for denoising and deverberation using variational inference and strong speech models
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7454338B2 (en) * 2005-02-08 2008-11-18 Microsoft Corporation Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989849A (zh) * 2015-06-03 2016-10-05 乐视致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
WO2018153214A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种混合频率声学识别模型的训练方法及语音识别方法
CN108510979A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种混合频率声学识别模型的训练方法及语音识别方法
US11120789B2 (en) 2017-02-27 2021-09-14 Yutou Technology (Hangzhou) Co., Ltd. Training method of hybrid frequency acoustic recognition model, and speech recognition method
US10984795B2 (en) 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
WO2021057029A1 (zh) * 2019-09-24 2021-04-01 京东数字科技控股有限公司 语音识别方法及装置、计算机可存储介质
CN110459205A (zh) * 2019-09-24 2019-11-15 京东数字科技控股有限公司 语音识别方法及装置、计算机可存储介质
CN110459205B (zh) * 2019-09-24 2022-04-12 京东科技控股股份有限公司 语音识别方法及装置、计算机可存储介质
WO2022032608A1 (zh) * 2020-08-11 2022-02-17 南京拓灵智能科技有限公司 一种音频降噪方法和装置
CN112116903A (zh) * 2020-08-17 2020-12-22 北京大米科技有限公司 语音合成模型的生成方法、装置、存储介质及电子设备
CN112131865A (zh) * 2020-09-11 2020-12-25 成都运达科技股份有限公司 一种轨道交通报文数字压缩处理方法、装置及存储介质
CN112131865B (zh) * 2020-09-11 2023-12-08 成都运达科技股份有限公司 一种轨道交通报文数字压缩处理方法、装置及存储介质

Also Published As

Publication number Publication date
EP1719114A2 (en) 2006-11-08
CN101014997B (zh) 2012-04-04
JP5230103B2 (ja) 2013-07-10
US8438026B2 (en) 2013-05-07
US20080215322A1 (en) 2008-09-04
WO2005083677A3 (en) 2006-12-21
WO2005083677A2 (en) 2005-09-09
JP2007523374A (ja) 2007-08-16

Similar Documents

Publication Publication Date Title
CN101014997B (zh) 用于生成用于自动语音识别器的训练数据的方法和系统
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Sarikaya et al. High resolution speech feature parametrization for monophone-based stressed speech recognition
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
CN108198545B (zh) 一种基于小波变换的语音识别方法
Dua et al. Performance evaluation of Hindi speech recognition system using optimized filterbanks
CN107464563B (zh) 一种语音交互玩具
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
US20100094622A1 (en) Feature normalization for speech and audio processing
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Litvin et al. Single-channel source separation of audio signals using bark scale wavelet packet decomposition
CN117409761B (zh) 基于频率调制的人声合成方法、装置、设备及存储介质
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Marković et al. Application of teager energy operator on linear and mel scales for whispered speech recognition
CN107919115B (zh) 一种基于非线性谱变换的特征补偿方法
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
Dimitriadis et al. Advanced front-end for robust speech recognition in extremely adverse environments.
Dutta et al. A comparison of three spectral features for phone recognition in sub-optimal environments
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATION INC.

Free format text: FORMER OWNER: KONINKLIKE PHILIPS ELECTRONICS N.V.

Effective date: 20121227

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20121227

Address after: Massachusetts

Patentee after: Nuance Communications, Inc.

Address before: Holland Ian Deho Finn

Patentee before: Koninklijke Philips Electronics N.V.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231027

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Massachusetts

Patentee before: Nuance Communications, Inc.