CN107958666A - 用于口音不变语音识别的方法 - Google Patents

用于口音不变语音识别的方法 Download PDF

Info

Publication number
CN107958666A
CN107958666A CN201711143001.1A CN201711143001A CN107958666A CN 107958666 A CN107958666 A CN 107958666A CN 201711143001 A CN201711143001 A CN 201711143001A CN 107958666 A CN107958666 A CN 107958666A
Authority
CN
China
Prior art keywords
linguistic unit
accent
change
pronunciation
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711143001.1A
Other languages
English (en)
Inventor
罗恩·弗瑞丹特尔
伊利亚·布雷瓦兹
帕维尔·纳斯科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Little Ant Technology (hongkong) Co Ltd
Original Assignee
Little Ant Technology (hongkong) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Little Ant Technology (hongkong) Co Ltd filed Critical Little Ant Technology (hongkong) Co Ltd
Publication of CN107958666A publication Critical patent/CN107958666A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开提供用于口音不变语音识别的方法,包括:维护数据库,所述数据库以给定语言存储一组语言单元,并且针对每个语言单元,存储由多个说话者发音的所述语言单元的发音变化的音频样本;在所述数据库中提取和存储用于在特征空间中定位每个音频样本的特征向量;标识发音变化距离和单元间距离,所述发音变化距离是所述特征空间中相同语言单元的音频样本的位置之间的距离,所述单元间距离是所述特征空间中不同语言单元的音频样本的位置之间的距离;计算适用于所述特征空间的变换,以相对于所述单元间距离减小所述发音变化距离;以及基于所计算的变换,训练处理器将相同语言单元的发音变化分类为所述相同语言单元。

Description

用于口音不变语音识别的方法
技术领域
本公开总体涉及语音识别,更具体地,涉及适用于来自各种人群的说话者的语音识别方法。
本申请基于申请号为US15/592,222、申请日为2017年5月11日的美国专利申请提出,并要求该美国专利申请的优先权,该美国专利申请的全部内容在此引入本申请作为参考。
背景技术
在一些已知的语音识别方法中,利用频谱分析,并且通过将某个音频段的提取出的特征向量用作预训练的学习引擎的输入来识别词,预训练的学习引擎可以获得来自词典和/或某种语言模型的词的先验概率。
有时,通过基于多个文本和/或实地标记的音频流来估计词出现的概率,从而获得语言模型。通常基于目标硬件上记录的某些目标人群在目标环境条件下所说的目标应用词典的预录制音频样本来训练学习引擎。
请注意以下参考文献:
现有技术文献
非专利文献
非专利文献1:[BH Juang,2005]B.H.Juang and L.R.Rabiner,“Automaticspeech recognition -A brief history of the technology development”in ElsevierEncyclopedia ofLanguage and Linguistics,Amsterdam,The Netherlands:Elsevier,2005.
非专利文献2:[I Blayvas 2006]I.Blayvas,et.al.Linear DimensionalityReduction for Classification,Technion,Technical Report CS-2006-04.
非专利文献3:[GH Golub 2012]Golub,Gene H.,and Charles F.VanLoan.Matrix computations.Vol.3.JHU Press,2012.
非专利文献4:[S.Mobin 2016]Shariq A.Mobin,Joan Bruna.Voice Conversionusing Convolutional Neural Networks,UC Berkeley.
非专利文献5:[Ian GoodFellow 2014]Ian GoodFellowet.al.GenerativeAdversarial Nets.
发明内容
根据本发明的一些实施例的方面,提供了一种用于口音不变语音识别的方法,包括:维护数据库,所述数据库以给定语言存储一组语言单元,并且针对每个语言单元,存储由多个说话者发音的所述语言单元的发音变化的音频样本;在所述数据库中提取和存储用于在特征空间中定位每个音频样本的特征向量;标识发音变化距离和单元间距离,所述发音变化距离是所述特征空间中相同语言单元的音频样本的位置之间的距离,所述单元间距离是所述特征空间中不同语言单元的音频样本的位置之间的距离;计算适用于所述特征空间的变换,以相对于所述单元间距离减小所述发音变化距离;以及基于所计算的变换,训练处理器将相同语言单元的发音变化分类为所述相同语言单元。
可选地,所述语言单元是词或音素。
可选地,所述方法包括:接收输入音频信号;将所计算的变换应用于所述输入音频信号;以及通过应用所述处理器的分类来识别所述输入音频信号中的语言单元。
可选地,识别语言单元包括基于语言统计来调整分类。
可选地,所述训练包括将所计算的变换应用于存储在所述数据库中的所述发音变化的音频样本。
可选地,所计算的变换包括线性判别分析(LDA)变换。
可选地,所计算的变换由适当训练的神经网络执行。
可选地,所存储的音频样本是由多个不同族群的说话者发音的语言单元的发音变化的音频样本。
根据本发明的一些实施例的方面,提供了一种用于口音不变语音识别的方法,包括:维护数据库,所述数据库以给定语言存储一组语言单元,并且针对每个语言单元,存储由具有已知口音的多个说话者发音的所述语言单元的发音变化的音频样本,其中所述音频样本根据所述音频样本中包括的所述语言单元和口音来索引;以及训练处理器以将音频信号分类为针对给定口音的相应语言单元。
可选地,所述方法包括:接收输入音频信号;在接收到的所述输入音频信号的口音被标识的情况下,由所述处理器应用所标识的口音的分类,从而识别所述输入音频信号中的语言单元;以及在接收到的所述输入音频信号的口音未被标识的情况下:对每个已知口音应用单独的分类,从而针对每个已知口音来识别所述输入音频信号中的语言单元;以及选择最可能的所识别的语言单元。
根据本发明的一些实施例的方面,提供了一种用于口音不变语音识别的方法,包括:维护数据库,所述数据库以给定语言存储一组语言单元,并且针对每个语言单元,存储由多个说话者发音的所述语言单元的标准发音音频样本和发音变化的多个变化音频样本;对于每个样本,提取描述符并将描述符存储在所述数据库中,从而获得至少一个标准描述符和一组变化描述符;训练处理器以产生用于将所述变化描述符变换为所述标准描述符的变换过程以及用于区分所述标准描述符与变换的变化描述符的区别过程,直到所述变换的变化描述符与所述标准描述符不可区分;接收输入音频信号;以及通过已训练的变换过程,将所述输入音频信号变换为与相应标准发音样本不可区分的修改信号。
附图说明
所公开的主题的一些非限制性示例性实施例或特征在下列附图中示出。
在附图中:
图1是根据本发明的一些实施例的用于口音不变语音识别的系统的示意图;
图2是根据本发明的一些实施例的用于训练处理器和/或分类引擎以用于口音不变语音识别的方法的示意性流程图;
图3是根据本发明的一些实施例的用于口音不变语音识别的系统的示意图;
图4是根据本发明的一些实施例的用于口音不变语音识别的方法的示意性流程图;
图5是根据本发明的一些实施例的用于口音不变语音识别的系统的示意图;以及
图6是根据本发明的一些实施例的用于口音不变语音识别的方法的示意性流程图。
现在详细参考附图,强调所示的细节是作为示例的,并且为了本发明的实施例的说明性讨论的目的。在这方面,使用附图进行的描述使得如何实施本发明的实施例对于本领域技术人员来说是显而易见的。
出现在一个或多个图中的相同或重复或相等或相似的结构、元素或部件通常用相同的附图标号来标记,可选地用附加的字母以区分相似实体或实体的变型,并且不会被重复地标记和/或描述。对以前呈现的元素的引用是隐含的,而不必进一步引用它们出现的图或描述。
图中所示组件和特征的尺寸是为了方便或清晰的呈现而选择的,并不一定按比例或真实的视角展示。为了方便或清楚起见,一些元件或结构未示出或仅部分地示出和/或以不同的视角或从不同的观点来示出。
具体实施方式
本发明的一些实施例提供了一种系统和方法,能够实现对各种口音不变的有效且准确的语音识别。
本发明的一些实施例提供了关于语音识别软件出现的问题的解决方案,该问题是:当存在例如各种非母语客户,具有显著口音并影响软件性能从显著降级到完全失败时,难以识别语音元素(例如词和/或音素)。
本发明的一些实施例提供的一些解决方案通过以下操作克服了该问题:对音频样本的特征向量应用变换,基于变换的所述特征向量训练语音识别引擎,以及对馈送到语音识别引擎的输入音频流进行相应变换。所述变换包括信号的时间、频谱和/或倒谱域变换。
提供的方法适用于从话音命令识别(VCR)到自然语言处理(NLP)的语音识别实现。在一些实施例中,所提供的方法被应用于音素级,其中样本、训练和数据库条目是语言的音素,而不是词。音素是一个声音或一组不同的声音,被所讨论的语言或方言的说话者感知为具有相同功能。例如,英语音素/k/出现在cat、kit、scat和skit等词中。
本发明的一些实施例可以包括系统,方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的有形的非暂态计算机可读存储介质(或媒体),所述指令用于使处理器执行本发明的各方面。用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或用一种或多种编程语言的任何组合编写的源代码或对象代码,包括任何面向对象的编程语言和/或常规的过程编程语言。
在详细解释本发明的至少一个实施例之前,应当理解,本发明在其应用中不一定限于以下描述中阐述和/或在附图和/或示例中示意的组件和/或方法的结构和布局的细节。本发明能够以其他实施例或以各种方式实现或执行。
现在参考图1,图1是根据本发明的一些实施例的用于口音不变语音识别的系统100的示意图。
系统100可以包括语音识别服务器10和数据库15,数据库15可以由服务器10控制、包括在服务器10中和/或与服务器10通信。服务器10可以包括至少一个硬件处理器12和非暂态存储器14,非暂态存储器14可以存储处理器12可执行的代码指令。一旦由处理器12执行,代码指令可以使处理器12执行本文描述的动作和/或方法。
数据库15可以存储一组语言单元,例如词和/或音素。例如,处理器12可以解析词典或任何其他合适的语言单元资源来提取语言单元,然后存储在数据库15中。
对于每个存储的语言单元,数据库15可以存储属于特定语言单元的发音变化的多个音频样本,例如,由多个说话者发音的语言单元的样本。例如,数据库15可以存储根据各自存储的语言单元索引的多个音频样本。例如,存储的音频样本具有由不同族群的多个说话者发音的语言单元的发音变化。在一些实施例中,音频样本可以包括多个语言单元,即多个词和/或音素,和/或被发音多于一次的相同的语言单元。例如,音频单元可以包括多个语言单元或相同单元的多个实例,并且可以与哪些语言单元和/或实例被包括在样本中和/或以何种顺序被包括在样本中的指示一起存储。
在本发明的一些实施例中,数据库15存储根据由处理器12提取的多个特征索引的多个音频样本16,例如如本文更详细描述的。基于提取的特征,处理器12可以计算音频样本之间的差异的度量。例如,处理器12针对音频样本获得相应特征空间中该音频样本的相应特征向量和/或位置。例如,处理器12计算特征空间中的音频样本之间的距离。
如本文更详细描述的,处理器12可以接收输入音频信号,并根据相应语言单元对其进行分类,即标识在输入音频信号中发音的语言单元。例如,处理器12可以针对输入信号提取特征空间中的特征向量和/或位置,并且基于位置和/或向量来标识输入信号属于哪个语言单元。在一些实施例中,例如为了增强语言单元之间的区别,处理器12可以计算和/或应用特征空间上的变换,这使得属于不同语言单元的样本之间的距离相对于属于同一语言单元的样本之间的距离更大。
例如,处理器12可以计算并在数据库15中存储距离18,作为发音变化距离索引,例如一类属于相同语言单元的样本之间的距离,或作为单元间距离索引,例如一类属于不同语言单元的样本之间的距离。处理器12可以针对每个类别中的距离计算代表值,例如均方根或任何其他合适的值。然后,例如,处理器12计算和/或应用相对于单元间距离减小发音变化距离的特征空间的变换。
换言之,特征空间包括例如通过不同类别(例如,词典或其他源的不同词)之间的距离张成的第一子空间,以及由同一类别内的不同实例(例如,不同说话者或不同族群和/或口音的说话者对相同词的不同发音)之间的距离张成的第二子空间。第二子空间构成特征空间内的某个词的估计的概率密度分布,由表示相同词的不同发音的向量定义。处理器12可以计算和/或应用相对于第二子空间减小第一子空间的特征空间的变换。
如本文更详细地描述的,通过应用变换,处理器12可以训练分类引擎13,以将相同语音单元的发音变化分类为相同的语音单元,例如在将所计算的变换应用于存储在数据库中的音频样本之后。例如,处理器12可以将所计算的变换应用于所接收的输入音频信号,并且根据转换的特征空间通过执行引擎13来应用分类。因此,例如,处理器12识别输入信号中的语言单元,例如,如果输入信号属于所存储的语言单元之一。分类引擎13可以是任何类型的,例如高斯混合模型(GMM)、支持向量机(SVM)、径向基函数(RBF)、多层神经网络、卷积神经网络(CNN)等。特征空间的计算变换可以是由矩阵乘法、应用公式、由多层神经网络辅助的任何线性或非线性变换。
在本发明的一些实施例中,音频样本和/或输入信号可以从更长的音频段获得。例如,处理器12可以将话音检测器应用于音频段,因此例如检测话音时段,即话音存在的时段。处理器12可以从话音时段中提取某些时间间隔的部分。例如,时间间隔可以包括例如0.1至5秒重叠的时间间隔。
现在参照图2,图2是示意了根据本发明一些实施例的用于训练处理器12和/或分类引擎13用于口音不变语音识别的方法200。如框210中所示,处理器12可以存储和/或维护根据语言单元索引的音频样本的数据库15。
如框220所示,处理器12可以提取每个音频样本的特征。在本发明的一些实施例中,为了提取音频样本的特征,处理器12可以对每个音频样本应用频域变换和/或其他操作。
基于提取的特征,如本文中详细描述的,处理器12可以将音频样本映射到特征空间,并且基于特征空间中的音频信号的位置便于识别语言单元。例如,处理器12和/或引擎13被训练以基于音频样本及其特征来识别语言单元。当接收到新的输入音频信号时,处理器12可以以与从音频样本中提取特征相同的方式从输入信号中提取特征,以便识别输入信号所属的语言单元。因此,提取特征的步骤对于音频样本和输入信号可以是相同的。
在本发明的一些实施例中,处理器12可以将音频采样分为K个时间帧信号。时间帧信号可能重叠。每个时间帧信号可以是例如5到50毫秒。处理器12可以例如通过应用快速傅立叶变换(FFT)将每个时间帧信号转换到频域,从而例如获得时间帧信号的功率谱。在一些实施例中,处理器12然后获得对时间帧信号的功率谱的对数的逆FFT(倒谱)。在一些实施例中,处理器12可以从倒谱获得时间帧信号的特征。例如,处理器12可以将倒谱分为在覆盖频率范围上对数展开的N个箱(例如5至50个箱),并针对每个箱获得量化的代表能量值,即表示时间帧信号的倒谱的N个值。
因此,处理器12可以针对K个时间帧信号中的每一个获得N个代表值,因此,例如,针对每个音频样本生成维度K*N的特征向量。在一些实施例中,K个时间帧信号中的每一个具有附加的代表值,例如在N个箱中的平均能量值,和/或信号的导数值,对时间的一阶和二阶导数表示信号的改变速率和加速度。因此,每个音频样本可以由具有更大维数的特征向量表示。
如框230所示,处理器12可以计算特征向量之间的距离。如框240所示,处理器12可以计算相对于发音变化距离增加(例如最大化)单元之间的距离的口音不变变换。例如,所计算的变换包括和/或构成线性判别分析(LDA)变换。
如框250所示,处理器12可以训练引擎13,以根据语言单元对音频信号进行分类。首先,例如,处理器12可以通过计算的口音不变变换来变换所存储的音频样本的特征向量。然后,处理器12可以基于变换的特征向量来训练分类引擎13用于识别语言单元。变换后的输入数据变得对于说话者口音不变或至少相对不可变,而分类引擎13实际上被训练用于基于类似变换的样本来识别语言单元。
在一些实施例中,处理器12调整分类引擎13以进一步基于语言统计来识别语音单元。例如,处理器12通过词典语言单元(即词和/或音素)的内容无关的使用概率来计算和/或调整分类引擎13。例如,处理器12还根据n个先前语言单元(即词和/或音素)的n元组语言统计来调整使用概率和/或分类引擎13。
现在参考图3,图3是根据本发明的一些实施例的用于口音不变语音识别的系统300的示意图。数据库15可以存储一组17已知口音和/或种族的。如上所述,数据库15可以以给定语言存储一组语言单元,并且针对每个语言单元,存储由具有已知口音和/或种族的多个说话者发音的语言单元的发音变化的音频样本。存储的音频样本可以根据已知口音和/或说话者的种族进行索引,即对于每个存储的音频样本,指示哪个已知口音和/或说话者的种族被包括在样本中。例如,每个音频样本根据语言单元(如上文详细描述的)、音频样本中包含的口音和/或种族来索引。
现在进一步参考图4,图4是根据本发明的一些实施例的用于口音不变语音识别的方法400的示意性流程图。如框410所示,处理器12可以存储和/或维护根据语言单元和包括在音频样本中的已知口音和/或种族来索引的音频样本的数据库15。如权利要求420所示,处理器12可以训练引擎13,以针对给定口音和/或种族根据语言单元对音频信号进行分类。例如,处理器12可以训练多个分类引擎13a-13n,针对每个口音和/或种族使用单独的引擎,每个引擎基于包括相应的口音和/或种族的音频样本。
如框430所示,处理器12可以接收输入音频信号,并检查说话者的口音和/或种族是否已知和/或已标识。例如,可以基于说话者的位置、设备的本地化、菜单语言设置和/或基于任何其他合适的指示来标识说话者的口音。
如框440所示,在说话者的口音已知和/或已标识的情况下,处理器12可以将引擎13a-13n的相应分类引擎应用于所述处理器所标识的口音,从而识别出输入音频信号中的语言单元。
如框450所示,在接收到的音频信号的口音不是已知和/或已标识的情况下,处理器12可以针对每个已知的口音应用引擎13a-13n的对应单独分类引擎,从而针对每个已知口音识别所述输入音频信号中的语言单元。如框460所示,处理器12可以例如基于词典语言单元的内容无关的使用概率和/或基于针对n个先前语言单元的n元组语言统计来计算所识别的语言单元的使用概率。处理器12可以选择最可能的识别的语言单元。
现在参考图5,图5是根据本发明的一些实施例的用于口音不变语音识别的系统500的示意图。数据库15可以针对每个语言单元存储标准语音音频样本19和由多个说话者发音的语言单元的发音变化的多个变化音频样本16。
现在参考图6,图6是根据本发明的一些实施例的用于口音不变语音识别的方法600的示意性流程图。如框610所示,处理器12可以为每个音频样本16和19提取描述符,并将描述符存储在数据库中,从而获得至少一个标准描述符,即标准样本19的描述符,以及一组变化描述符,即变化样本16的描述符。描述符可以包括例如至少如参照图2所获得的一些样本特征。处理器12可以以与获得特征相同的方式获得描述符,例如参照图2所述。
如框620所示,处理器12可以训练变换过程引擎11a,以产生变换过程,用于将变化描述符变换为标准描述符,例如,尽可能类似于标准描述符。所述变换可以是线性变换如线性判别分析(LDA)、独立分量分析(ICA),也可以是由矩阵、公式、算法或神经网络表示的任何非线性变换。另外,只要变换后的变化描述符与标准描述符不是不可区分,处理器12可以训练区别过程引擎11b来产生区分过程以区分标准描述符和变换后的变化描述符的,例如根据预定的可区分阈值和/或处理器12的固有限制。
例如,处理器12可以提取某个音频样本16的描述符,通过变换过程引擎11a将该描述符变换为标准描述符,并将获得的变换后的描述符馈送到区别过程引擎11b。在区别过程引擎l1b不区分变换后的变化描述符和标准描述符的情况下,处理器12相应地可以更新区别过程引擎11b,以调整其参数和/或改善区别程序。然而,在区别过程引擎11b区分变换后的变化描述符和标准描述符的情况下,处理器12可以相应地更新变换过程引擎11a,以调整其参数和/或改进变换过程。
在一些实施例中,处理器12可以提取某个特定音频样本19的标准描述符,对标准描述符应用变换过程引擎11a进行的变换,并且将变换的标准描述符馈送到区别过程引擎11b。在区别过程引擎11b区分变换后的标准描述符与提取出的标准描述符本身的情况下,处理器12可以相应地更新区别过程引擎11b,以调整其参数和/或校正区别过程中的错误。
如框630所示,处理器12可以接收输入音频信号,并且通过训练的变换过程,可以将输入音频信号变换为与相应标准发音不可区分的修改信号。
在本公开的一些实施例的上下文中,作为示例而非限制,如“操作”或“执行”之类的术语也分别意味着如“可操作”或“可执行”的能力。
作为示例,“事物属性”的结合术语意味着该事物的属性,除非从上下文中清楚地另有显示。
术语“处理器”或“计算机”或其系统在本文中用作本领域的通常上下文,如通用处理器、或诸如智能电话或平板计算机的便携式设备、微处理器、或RISC处理器、或DSP,可能包括诸如存储器或通信端口的附加元件。可选地或附加地,术语“处理器”或“计算机”或其派生物可以表示能够执行提供的或并入的程序和/或能够控制和/或访问数据存储设备和/或其他设备(如输入和输出端口)的设备。术语“处理器”或“计算机”还表示连接、和/或链接和/或以其他方式通信的多个处理器或计算机,可能共享一个或多个其他资源(如存储器)。
术语“软件”、“程序”、“软件程序”或“过程”或“软件代码”或“代码”或“应用”可以根据其上下文互换使用,并且表示用于执行通常表示算法和/或其他过程或方法的一系列操作的一个或多个指令或命令或电子电路。程序存储在如RAM、ROM或盘的介质中或介质上,或者嵌入在如处理器或其它电路的设备可访问和可执行的电路中。处理器和程序可以至少部分地构成相同的设备,例如被设计为执行编程的操作序列的电子门阵列,例如FPGA或ASIC,可选地包括或与处理器或其他电路链接。
术语“配置”和/或“适配”用于某个目的,或其变型,意味着至少使用设计和/或实现和/或可操作或操作以实现该目的的软件和/或电子电路和/或辅助设备。
存储和/或包括程序和/或数据的设备构成制品。除非另有指明,否则程序和/或数据存储在非暂态介质中或非暂态介质上。
在公开电气或电子设备的情况下,假设使用适当的电源用于其操作。
流程图和框图说明了根据本公开主题的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能或操作。在这方面,流程图或框图中的每个框可以表示程序代码的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。还应当注意,在一些替代实施方案中,示出或描述的操作可以以不同的顺序或以组合或并行操作进行,而不是顺序操作,以实现相同或等同效果。
所附权利要求中的所有装置或步骤加功能元件的相应结构、材料、作用和等同物旨在包括与具体要求保护的其他要求保护的要素相结合以执行功能的任何结构、材料或作用。如本文所使用的,单数形式“一”,“一个”和“该”也意图包括复数形式,除非上下文另有明确指出。还将理解,在本说明书中使用时,术语“包括”、“包含”和/或“具有”以及这些术语的其他形式指定了所述特征、整体、步骤、操作、元素和/或组件的存在,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其组合。
除非另有说明,本文使用的术语不应被理解为限制,仅用于描述特定实施例的目的,而不是限制所公开的主题。虽然已经示出和描述了所公开的主题的某些实施例,但是显而易见的是,本公开不限于这里描述的实施例。不排除各种修改、更改、变化、替代和等同物。

Claims (11)

1.一种用于口音不变语音识别的方法,包括:
维护数据库,所述数据库以给定语言存储一组语言单元,并且针对每个语言单元,存储由多个说话者发音的所述语言单元的发音变化的音频样本;
在所述数据库中提取和存储用于在特征空间中定位每个音频样本的特征向量;
标识发音变化距离和单元间距离,所述发音变化距离是所述特征空间中相同语言单元的音频样本的位置之间的距离,所述单元间距离是所述特征空间中不同语言单元的音频样本的位置之间的距离;
计算适用于所述特征空间的变换,以相对于所述单元间距离减小所述发音变化距离;以及
基于所计算的变换,训练处理器将相同语言单元的发音变化分类为所述相同语言单元。
2.根据权利要求1所述的方法,其中所述语言单元是词或音素。
3.根据权利要求1所述的方法,包括:
接收输入音频信号;
将所计算的变换应用于所述输入音频信号;以及
通过应用所述处理器的分类来识别所述输入音频信号中的语言单元。
4.根据权利要求1所述的方法,其中识别语言单元包括基于语言统计来调整分类。
5.根据权利要求1所述的方法,其中所述训练包括将所计算的变换应用于存储在所述数据库中的所述发音变化的音频样本。
6.根据权利要求1所述的方法,其中所计算的变换包括线性判别分析LDA变换。
7.根据权利要求1所述的方法,其中所计算的变换由适当训练的神经网络执行。
8.根据权利要求1所述的方法,其中所存储的音频样本是由多个不同族群的说话者发音的语言单元的发音变化的音频样本。
9.一种用于口音不变语音识别的方法,包括:
维护数据库,所述数据库以给定语言存储一组语言单元,并且针对每个语言单元,存储由具有已知口音的多个说话者发音的所述语言单元的发音变化的音频样本,其中所述音频样本根据所述样本中包括的所述语言单元和口音来索引;以及
训练处理器以将音频信号分类为针对给定口音的相应语言单元。
10.根据权利要求9所述的方法,包括:
接收输入音频信号;
在接收到的所述输入音频信号的口音被标识的情况下,由所述处理器应用所标识的口音的分类,从而识别所述输入音频信号中的语言单元;以及
在接收到的所述输入音频信号的口音未被标识的情况下:
对每个已知口音应用单独的分类,从而针对每个已知口音来识别所述输入音频信号中的语言单元;以及
选择最可能的所识别的语言单元。
11.一种用于口音不变语音识别的方法,包括:
维护数据库,所述数据库以给定语言存储一组语言单元,并且针对每个语言单元,存储由多个说话者发音的所述语言单元的标准发音音频样本和发音变化的多个变化音频样本;
对于每个样本,提取描述符并将描述符存储在所述数据库中,从而获得至少一个标准描述符和一组变化描述符;
训练处理器以产生用于将所述变化描述符变换为所述标准描述符的变换过程以及用于区分所述标准描述符与变换的变化描述符的区别过程,直到所述变换的变化描述符与所述标准描述符不可区分;
接收输入音频信号;以及
通过已训练的变换过程,将所述输入音频信号变换为与相应标准发音样本不可区分的修改信号。
CN201711143001.1A 2017-05-11 2017-11-17 用于口音不变语音识别的方法 Pending CN107958666A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/592,222 US10446136B2 (en) 2017-05-11 2017-05-11 Accent invariant speech recognition
US15/592,222 2017-05-11

Publications (1)

Publication Number Publication Date
CN107958666A true CN107958666A (zh) 2018-04-24

Family

ID=61964866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711143001.1A Pending CN107958666A (zh) 2017-05-11 2017-11-17 用于口音不变语音识别的方法

Country Status (2)

Country Link
US (1) US10446136B2 (zh)
CN (1) CN107958666A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110914898A (zh) * 2018-05-28 2020-03-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783873B1 (en) * 2017-12-15 2020-09-22 Educational Testing Service Native language identification with time delay deep neural networks trained separately on native and non-native english corpora
US10943580B2 (en) * 2018-05-11 2021-03-09 International Business Machines Corporation Phonological clustering

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465043A (zh) * 2001-06-08 2003-12-31 索尼公司 语音识别装置和语音识别方法
US20040148161A1 (en) * 2003-01-28 2004-07-29 Das Sharmistha S. Normalization of speech accent
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN101650943A (zh) * 2008-12-19 2010-02-17 中国科学院声学研究所 一种非母语语音识别系统及方法
US20110066434A1 (en) * 2009-09-17 2011-03-17 Li Tze-Fen Method for Speech Recognition on All Languages and for Inputing words using Speech Recognition
US20110119051A1 (en) * 2009-11-17 2011-05-19 Institute For Information Industry Phonetic Variation Model Building Apparatus and Method and Phonetic Recognition System and Method Thereof
US20110131046A1 (en) * 2009-11-30 2011-06-02 Microsoft Corporation Features for utilization in speech recognition
US20140058731A1 (en) * 2012-08-24 2014-02-27 Interactive Intelligence, Inc. Method and System for Selectively Biased Linear Discriminant Analysis in Automatic Speech Recognition Systems
CN103811000A (zh) * 2014-02-24 2014-05-21 中国移动(深圳)有限公司 语音识别系统及方法
CN104021786A (zh) * 2014-05-15 2014-09-03 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
US20150039315A1 (en) * 2008-06-23 2015-02-05 The John Nicholas Gross and Kristin Gross Trust U/A/D April 13, 2010 System & Method for Controlling Access to Resources with a Spoken CAPTCHA Test
CN105408952A (zh) * 2013-02-21 2016-03-16 谷歌技术控股有限责任公司 识别带口音的语音
CN106251859A (zh) * 2016-07-22 2016-12-21 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN106548774A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 语音识别的设备和方法以及训练变换参数的设备和方法
CN106663422A (zh) * 2014-07-24 2017-05-10 哈曼国际工业有限公司 利用单一声学模型和自动口音检测实现的基于文本规则的多口音言语识别

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
EP1233406A1 (en) * 2001-02-14 2002-08-21 Sony International (Europe) GmbH Speech recognition adapted for non-native speakers
EP1435087B1 (de) * 2001-10-11 2005-08-31 Siemens Aktiengesellschaft Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
ATE442641T1 (de) * 2004-07-22 2009-09-15 France Telecom Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
EP2192575B1 (en) * 2008-11-27 2014-04-30 Nuance Communications, Inc. Speech recognition based on a multilingual acoustic model
US8392190B2 (en) * 2008-12-01 2013-03-05 Educational Testing Service Systems and methods for assessment of non-native spontaneous speech
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
EP2638542B1 (en) * 2010-11-08 2014-08-06 Google, Inc. Generating acoustic models
US8825481B2 (en) * 2012-01-20 2014-09-02 Microsoft Corporation Subword-based multi-level pronunciation adaptation for recognizing accented speech
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
KR102332729B1 (ko) * 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
US9922643B2 (en) * 2014-12-23 2018-03-20 Nice Ltd. User-aided adaptation of a phonetic dictionary
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465043A (zh) * 2001-06-08 2003-12-31 索尼公司 语音识别装置和语音识别方法
US20040148161A1 (en) * 2003-01-28 2004-07-29 Das Sharmistha S. Normalization of speech accent
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
US20150039315A1 (en) * 2008-06-23 2015-02-05 The John Nicholas Gross and Kristin Gross Trust U/A/D April 13, 2010 System & Method for Controlling Access to Resources with a Spoken CAPTCHA Test
CN101650943A (zh) * 2008-12-19 2010-02-17 中国科学院声学研究所 一种非母语语音识别系统及方法
US20110066434A1 (en) * 2009-09-17 2011-03-17 Li Tze-Fen Method for Speech Recognition on All Languages and for Inputing words using Speech Recognition
US20110119051A1 (en) * 2009-11-17 2011-05-19 Institute For Information Industry Phonetic Variation Model Building Apparatus and Method and Phonetic Recognition System and Method Thereof
US20110131046A1 (en) * 2009-11-30 2011-06-02 Microsoft Corporation Features for utilization in speech recognition
US20140058731A1 (en) * 2012-08-24 2014-02-27 Interactive Intelligence, Inc. Method and System for Selectively Biased Linear Discriminant Analysis in Automatic Speech Recognition Systems
CN105408952A (zh) * 2013-02-21 2016-03-16 谷歌技术控股有限责任公司 识别带口音的语音
CN103811000A (zh) * 2014-02-24 2014-05-21 中国移动(深圳)有限公司 语音识别系统及方法
CN104021786A (zh) * 2014-05-15 2014-09-03 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
CN106663422A (zh) * 2014-07-24 2017-05-10 哈曼国际工业有限公司 利用单一声学模型和自动口音检测实现的基于文本规则的多口音言语识别
CN106548774A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 语音识别的设备和方法以及训练变换参数的设备和方法
CN106251859A (zh) * 2016-07-22 2016-12-21 百度在线网络技术(北京)有限公司 语音识别处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
庞程 等: "基于多特征融合的GMM汉语普通话口音识别", 《华中科技大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110914898A (zh) * 2018-05-28 2020-03-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法
CN110914898B (zh) * 2018-05-28 2024-05-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法

Also Published As

Publication number Publication date
US20180330719A1 (en) 2018-11-15
US10446136B2 (en) 2019-10-15

Similar Documents

Publication Publication Date Title
CN105118498B (zh) 语音合成模型的训练方法及装置
CN111433847B (zh) 语音转换的方法及训练方法、智能装置和存储介质
CN104021784B (zh) 基于大语料库的语音合成方法和装置
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
EP3469582A1 (en) Neural network-based voiceprint information extraction method and apparatus
CN109523989A (zh) 语音合成方法、语音合成装置、存储介质及电子设备
US20140025382A1 (en) Speech processing system
JP2017058674A (ja) 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
CN109949799B (zh) 一种语义解析方法及系统
JP2018147073A (ja) 出力文生成装置、出力文生成方法および出力文生成プログラム
CN110197279A (zh) 变换模型训练方法、装置、设备和存储介质
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN107958666A (zh) 用于口音不变语音识别的方法
CN110377882A (zh) 用于确定文本的拼音的方法、装置、系统和存储介质
US10283142B1 (en) Processor-implemented systems and methods for determining sound quality
Ali et al. DWT features performance analysis for automatic speech recognition of Urdu
CN110473571A (zh) 基于短视频语音的情感识别方法和装置
Koudounas et al. Italic: An italian intent classification dataset
US9484045B2 (en) System and method for automatic prediction of speech suitability for statistical modeling
CN116542783A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN113053409B (zh) 音频测评方法及装置
CN114999450A (zh) 同形异义字的识别方法、装置、电子设备及存储介质
Zheng [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
Liu et al. Supra-Segmental Feature Based Speaker Trait Detection.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20220311