CN108630197B - 用于语音识别的训练方法和设备 - Google Patents

用于语音识别的训练方法和设备 Download PDF

Info

Publication number
CN108630197B
CN108630197B CN201711064668.2A CN201711064668A CN108630197B CN 108630197 B CN108630197 B CN 108630197B CN 201711064668 A CN201711064668 A CN 201711064668A CN 108630197 B CN108630197 B CN 108630197B
Authority
CN
China
Prior art keywords
training
iteration
samples
sample
experience playback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711064668.2A
Other languages
English (en)
Other versions
CN108630197A (zh
Inventor
闵允泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN108630197A publication Critical patent/CN108630197A/zh
Application granted granted Critical
Publication of CN108630197B publication Critical patent/CN108630197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

公开一种用于语音识别的训练方法和设备,其中,所述训练方法的示例包括:确定是否通过使用经验回放集的经验回放迭代执行用于训练神经网络的当前迭代;基于确定的结果从经验回放集和训练集中的至少一个选择样本;基于选择的样本训练神经网络。

Description

用于语音识别的训练方法和设备
本申请要求于2017年3月23日提交到韩国知识产权局的第10-2017-0036909号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
以下描述涉及一种用于语音识别的训练技术。
背景技术
语音识别设备中使用的声学模型可以以隐马尔科夫模型(HMM)和高斯混合模型(GMM)的混合形式来实现。近来,主要使用基于神经网络的声学模型的深度学习方案正在被商业化。
已提出各种方案用于训练基于神经网络的声学模型。声学模型学习的速度(即,它的学习速度)是初始未训练的声学模型变为完全训练的速度。可需要用于提高学习速度并提高训练效率和准确度的训练方案。
发明内容
提供本发明内容以采用简化的形式介绍对在下面的具体实施方式中进一步描述的构思的选择。本发明内容不旨在标识所要求保护主题的关键特征或必要特征,也不意图被用作帮助确定所要求保护主题的范围。
在一个总体的方面,提供一种训练方法,包括:确定是否通过使用经验回放集的经验回放迭代执行用于训练神经网络的当前迭代;基于确定的结果从经验回放集和训练集中的至少一个选择样本;基于选择的样本训练神经网络。
确定的步骤可包括:确定与当前迭代对应的迭代编号是否为第一数字的倍数。
确定的步骤可包括:确定与当前迭代对应的迭代编号是否小于第一数字的倍数与第二数字之和。
确定的步骤可包括:确定与当前迭代之前的迭代对应的训练误差减小是否小于或等于阈值。
确定的步骤可包括:确定是否使用批处理方案执行当前迭代。
选择的步骤可包括:响应于通过经验回放迭代执行当前迭代,从经验回放集随机选择样本。
选择的步骤可包括:响应于通过经验回放迭代执行当前迭代,从训练集随机选择第一样本;从经验回放集选择与随机选择的第一样本具有最大相似度的第二样本。
可基于语音样本的三音素的分布定义相似度。
选择的步骤可包括:响应于通过经验回放迭代执行当前迭代,基于经验回放集中的样本的质量从经验回放集选择样本。
选择的步骤可包括:响应于通过经验回放迭代执行当前迭代并且使用批处理方案执行经验回放迭代,从经验回放集随机选择样本。
选择的步骤可包括:响应于通过经验回放迭代执行当前迭代并且使用批处理方案执行经验回放迭代,按照比例从经验回放集和训练集随机选择样本。
选择的步骤可包括:响应于通过经验回放迭代执行当前迭代并且使用批处理方案执行经验回放迭代,从训练集随机选择第一样本;从经验回放集选择与随机选择的第一样本具有最大相似度的第二样本。
选择的步骤可包括:响应于通过经验回放迭代执行当前迭代并且使用批处理方案执行经验回放迭代,基于经验回放集中的样本的质量从经验回放集选择样本。
所述训练方法可包括:基于训练的结果和选择的样本确定是否更新经验回放集。
确定是否更新经验回放集的步骤可包括基于以下项中的任意一个或任意组合计算选择的样本的质量:选择的样本在包括在经验回放集中的样本的分布中的概率;从基于选择的样本训练的神经网络获得的输出;对应于当前迭代的训练误差减小;对应于当前迭代之前的迭代的训练误差减小和对应于当前迭代的训练误差减小之间的差。
确定是否更新经验回放集的步骤可包括:将计算的质量与经验回放集中的样本的质量进行比较。
所述训练方法可包括:基于比较的结果,使用选择的样本替换与低于计算的质量的质量对应的至少一个样本。
确定是否更新经验回放集的步骤可包括:将计算的质量与阈值进行比较。
所述训练方法可包括:基于比较的结果,将选择的样本添加到经验回放集。
响应于基于所述差计算质量,阈值可随着当前迭代的迭代编号的增大而减小。
响应于基于所述输出计算质量,阈值可随着当前迭代的迭代编号的增大而增大。
经验回放集可包括记录在环境中的语音样本或与基于参考均匀分布的三音素对应的语音样本中的至少一个。
在另一总体的方面,提供一种训练方法,包括:基于从经验回放集或训练集中的至少一个选择的与用于训练神经网络的当前迭代相关联的样本,训练神经网络;基于训练的结果和选择的样本,确定是否更新经验回放集;基于确定的结果,更新经验回放集。
确定是否更新经验回放集的步骤可包括基于以下项中的任意一个或任意组合计算选择的样本的质量:选择的样本在包括在经验回放集中的样本的分布中的概率;从基于选择的样本训练的神经网络获得的输出;对应于当前迭代的训练误差减小;对应于当前迭代之前的迭代的训练误差减小和对应于当前迭代的训练误差减小之间的差。
确定是否更新经验回放集的步骤可包括:将计算的质量与经验回放集中的样本的质量进行比较,更新的步骤还可包括:基于比较的结果使用选择的样本替换与低于计算的质量的质量对应的至少一个样本。
确定的步骤可包括将计算的质量与阈值进行比较,更新的步骤还可包括基于比较的结果将选择的样本添加到经验回放集。
响应于基于所述差计算质量,阈值可随着当前迭代的迭代编号的增大而减小。
响应于基于所述输出计算质量,阈值可随着当前迭代的迭代编号的增大而增大。
训练的步骤可包括:确定是否通过使用经验回放集的经验回放迭代执行当前迭代。
在另一个总体的方面,提供一种训练设备,包括:处理器,被配置为:确定是否通过使用经验回放集的经验回放迭代执行用于训练神经网络的当前迭代;基于确定的结果从经验回放集或训练集中的至少一个选择样本;基于选择的样本训练神经网络。
在另一总体的方面,提供一种训练设备,包括:处理器,被配置为:基于从经验回放集或训练集中的至少一个选择的与用于训练神经网络的当前迭代相关联的样本,训练神经网络;基于训练的结果和选择的样本,确定是否更新经验回放集;基于确定的结果,更新经验回放集。
通过下面的具体实施方式,其他特征和方面将是清楚的。
附图说明
图1是示出训练方法的示例的示图。
图2是示出训练方法的示例的示图。
图3是示出当前迭代的训练处理的示例的示图。
图4A示出经验回放集(experience replay set)的示例。
图4B示出经验回放集的示例。
图4C示出经验回放集的示例。
图5示出经验回放集的示例。
图6示出经验回放集的示例。
图7是示出训练设备的示例的示图。
贯穿附图和具体实施方式,除非另外描述或提供,否则相同的参考标记将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和方便,附图中的元件的相对大小、比例和描述可被夸大。
具体实施方式
提供下面详细描述,以帮助读者获得对这里描述的方法、设备和/或系统的全面的理解。然而,在获得对本申请的公开的全面理解之后,这里描述的方法、设备和/或系统的各种变形、修改和等同物将是清楚的。例如,这里描述的操作顺序仅仅是示例,并不限于这里阐述的操作顺序,除了必须按照一定顺序发生的操作之外,这里描述的操作的顺序可以如本领域普通技术人员将清楚地那样改变。此外,为了更加清楚和简明,本领域公知的功能和结构的描述可被省略。
这里描述的特征可以以不同的形式体现,并不一定被解释为受限于这里所描述的示例。相反,已经提供了在这里描述的示例,使得本公开将是彻底和完整的,并且将把本公开的全部范围传达给本领域普通技术人员。
可对示例做出各种改变和修改。这里,示例不被解释为受限于本公开,而应当被理解为包括本公开的构思和技术范围内的所有的变化、等同物和替换物。
这里使用的术语仅出于描述特定示例的目的,并不限制示例。除非上下文清楚地另有指示,否则如这里所使用的单数形式也意图包括复数形式。
当参照附图描述示例时,相同的参考标记表示相同的构成元件,并且与其有关的重复描述将被省略。当确定在描述示例时与相关的已知功能或配置有关的详细描述可能使示例的目的不必要地模糊时,该详细描述将在这里被省略。
图1是示出训练方法的示例的示图。虽然可以以如图所示的顺序和方式执行图1中的操作,但是在不脱离描述的说明性示例的精神和范围的情况下,可改变某些操作的顺序或省略某些操作。可并行或同时执行图1中示出的很多操作。可通过执行特定功能的基于专用硬件的计算机或者专用硬件和计算机指令的组合来实现图1的一个或多个块以及块的组合。
参照图1,在操作101中,训练设备确定是否将通过使用经验回放集执行的经验回放迭代来执行用于训练神经网络的当前迭代。训练设备是用于训练识别器的设备。在一个示例中,训练设备训练在建立语音识别设备时使用的声学模型、语言模型或端到端(end-to-end)语音识别模型。声学模型用于自动语音识别(ASR),并处理语音信号特征与语言元素之间的关系。例如,训练设备估计语音信号的发音。与声学模型有区别的语言模型可估计词或句子在语法或语意上准确的程度。可以以组合声学模型和语言模型的形式来实现语音识别设备。在一个示例中,可以以通过在语音识别设备中组合声学模型和语言模型从语音信号直接估计词或句子的形式来实现端到端语音识别模型。
声学模型可用于服务器或各种类型的设备,诸如,智能代理、移动电话、蜂窝电话、智能电话、可穿戴智能装置(诸如,戒指、手表、眼镜、眼镜型装置、手镯、脚踝支架、皮带、项链、耳环、头带、头盔、嵌入在衣服中的装置或眼镜显示器(EGD,eye glass display))、个人计算机(PC)、膝上型计算机、笔记本计算机、小型笔记本计算机、上网本、平板个人计算机(平板计算机)、平板手机、移动互联网装置(MID)、个人数字助理(PDA)、企业数字助理(EDA)、数码相机、数码摄像机、便携式游戏机、MP3播放器、便携式/个人多媒体播放器(PMP)、手持电子书、超移动个人计算机(UMPC)、便携式膝上型PC、全球定位系统(GPS)导航、个人导航装置或便携式导航装置(PND)、掌上游戏机、电子书、智能电视(TV)、高清电视(HDTV)、智能家电、光盘播放器、DVD播放器、蓝光播放器、机顶盒、清洁机器人、家电、内容播放器、通信系统、图像处理系统、图形处理系统和其他消费电子/信息技术(CE/IT)装置、通过网络、智能车辆、智能汽车、自动驾驶车辆控制的各种物联网(IoT)装置或者能够进行与这里公开的内容一致的无线通信或网络通信的任何其他装置。
可使用多个样本训练基于深度学习设计的声学模型。例如,针对每一帧通过多个语音信号、声学特征以及音素或语素(senone)来训练基于神经网络的声学模型。然而,训练方法的示例不限于语音识别设备或基于神经网络的识别器。示例可被采用并应用于各种类型的模型或设备。
在一个示例中,训练设备执行用于训练神经网络的多次迭代,并基于经验回放迭代执行至少一部分迭代。在一个示例中,训练设备将样本输入到将被训练的神经网络,并迭代地更新神经网络。例如,训练设备使用用于优化包括在神经网络中的节点之间的权重的方案来训练神经网络。
迭代是通过训练执行的任意一次迭代。在一个示例中,迭代指示迭代地更新或优化神经网络的运算之中的使用至少一个样本更新或优化神经网络的运算。训练设备可使用至少一个第一样本执行第一迭代,并在第一迭代完成之后使用至少一个第二样本执行第二迭代。训练设备可执行迭代,并通过完成全部迭代来训练神经网络。可基于设计意图而不同地定义迭代次数。例如,基于预先定义的次数、条件、样本的数量、对应于迭代的训练误差、对应于先前迭代的训练误差与对应于当前迭代的训练误差之间的差来定义迭代次数。然而,迭代次数不限于此,并且可采用各种参考或策略。
经验回放迭代指示迭代之中的基于经验回放集执行的迭代。训练设备可使用多个样本执行用于训练的迭代。可单独管理部分样本,并且可在执行经验回放迭代时使用经验回放集。在一个示例中,训练设备从用于训练的样本之中选择并存储对训练有用的至少一个样本,并使用存储的样本提供经验回放集。经验回放集可以是被单独管理以执行经验回放迭代的样本的集合。
与用于训练声学模型的数据对应的样本被称为训练样本。可以以各种形式(诸如,语音信号、通过预处理语音信号而获得的数据、语音信号的特征或特征向量、语音信号的每一帧的音素或语素)来实现样本。然而,示例不限于样本的类型。可基于词、音素、词素、音标单位、短语、从句、句子和段落以各种形式来定义或设计语音信号的样本,示例不限制样本所隐含的信息的类型。
在一个示例中,训练设备通过回放经验并将训练模型应用到机器训练来复制训练模型。在一个示例中,训练设备是神经科学与认知科学中的人类学习处理的多个模型中一个模型。如上所述,训练设备通过单独管理被确定为对训练有用的样本作为经验回放集并定期或不定期地在训练处理中采用经验回放集,来提高训练的速度和准确度。
在一个示例中,训练设备确定在执行用于训练的迭代之前是否将通过经验回放迭代来执行至少一次迭代,或者确定在执行每次迭代之前是否将通过经验回放迭代来执行每次迭代。参照图3提供与是否将通过经验回放迭代来执行当前迭代有关的详细描述。
在操作102中,训练设备基于所述确定来选择样本。例如,训练设备从经验回放集或训练集选择一个或多个样本。训练设备可从经验回放集选择一个或多个样本,或从训练集选择一个或多个样本。
在操作103中,训练设备基于选择的样本训练神经网络。例如,训练设备可使用经验回放集执行经验回放迭代。在一个示例中,用于训练的样本包括来自经验回放集的样本和来自训练集的样本。在一个示例中,训练集是所有样本之中的除了包括在经验回放集中的样本之外的样本的集合。训练设备包括将被输入到神经网络以执行经验回放迭代的至少一个样本。将被输入到神经网络的一个或多个样本可包括:在经验回放集中包括的至少一个样本。因此,经验回放迭代可指示通过包括经验回放集中所包括的被设置为将被输入到神经网络的至少一个样本的样本而执行的迭代。
在一个示例中,训练设备确定是否将更新经验回放集,并根据确定的结果更新经验回放集。例如,训练设备在执行用于训练的迭代时更新经验回放集,随后使用更新的经验回放集来执行迭代。下面提供与经验回放集的更新有关的详细描述。
图2是示出训练方法的示例的示图。参照图2,训练设备使用包括在经验回放集201和训练集202中的至少一个样本来训练神经网络204。
在一个示例中,训练设备基于确定是否将通过经验回放迭代执行当前迭代,从经验回放集201和训练集202中的至少一个来选择一个或多个样本。在当前迭代对应于如上所述的经验回放迭代时,训练设备在从全部的样本之中选择用于当前迭代的样本时,从经验回放集201选择至少一个样本。例如,当执行经验回放迭代时,训练设备从经验回放集201选择样本S1
在一个示例中,训练设备包括当执行当前迭代时将被输入到神经网络204的多个样本。用于使用多个样本执行单个迭代的方案被称为批处理方案(batch scheme)。在一个示例中,训练设备确定是否使用批处理方案执行当前迭代。当使用批处理方案执行当前迭代时,训练设备产生批(batch)203作为将被输入到神经网络204的样本集。训练设备可使用从经验回放集201和/或训练集202选择的一个样本或至少一个样本来产生批203。
在一个示例中,训练设备基于当前迭代是否对应于经验回放迭代以及是否使用批处理方案执行当前迭代,来从所有样本之中自适应地选择将被输入到神经网络204的至少一个样本。
例如,响应于当前迭代对应于经验回放迭代并使用批处理方案执行当前迭代,训练设备仅使用从经验回放集201选择的多个样本来产生批203。此外,训练设备使用从经验回放集201选择的多个样本和从训练集202选择的多个样本,来产生批203。
响应于当前迭代对应于经验回放迭代并且不使用批处理方案执行当前迭代,训练设备从经验回放集201选择将被输入到神经网络204的单个样本。
响应于当前迭代不对应于经验回放迭代并使用批处理方案执行当前迭代,训练设备仅使用从训练集202选择的多个样本来产生批203。此外,响应于当前迭代不对应于经验回放迭代并且不使用批处理方案执行当前迭代,训练设备从训练集202选择任意一个样本。
在一个示例中,训练设备基于从经验回放集201或训练集202选择的至少一个样本来训练神经网络204。在一个示例中,当执行当前迭代时,训练设备通过采用各种类型的方案来训练神经网络。例如,训练设备使用随机梯度下降(SGD)方案训练神经网络,并当使用SGD方案时以单个样本或样本的集合为批单元来训练神经网络。
在一个示例中,当使用单个样本时,训练设备基于神经网络204的输出和样本的标签来使用SGD方案。
在一个示例中,当使用批处理方案时,训练设备基于神经网络204的输出和对应于批的标签或样本的标签来使用SGD方案。在一个示例中,SGD方案使用对应于批的输出,小批(mini-batch)SGD方案可被用于SGD方案。训练设备基于包括选择的样本S1和S2的批203训练神经网络204。训练设备可使用基于多个输出和多个标签修改的损失函数。在使用批处理方案时使用的损失函数可基于设计选择而以各种方式来应用,并可基于批单元中的标签和批单元中的输出而被修改。
例如,训练设备将包括在批203中的样本S1和S2输入到神经网络204,并基于神经网络204的输出和样本S1和S2的标签计算训练误差。训练设备可使用损失函数计算训练误差。在一个示例中,损失函数是预定义的。可使用标签、输出和参数将损失函数预定义为输入方差。这里,可通过神经网络204中的权重来设置参数。例如,可以以均方差(MSE)形式和熵形式来修改损失函数。各种方案和方法可被用于损失函数的修改的示例。
在一个示例中,训练设备基于训练的结果和选择的样本,确定是否将更新经验回放集201。训练设备在完成当前迭代之前确定是否将更新经验回放集201。经验回放集201的更新指示包括在经验回放集201中的样本的组合的更新。例如,训练设备使用新样本替换包括在经验回放集201中的样本,或者将新样本添加到经验回放集201。例如,训练设备基于对应于当前迭代的经验回放迭代的训练的结果,使用样本S1和S2中的样本S2替换经验回放集201中的样本S3。在一个示例中,训练设备将样本S2的质量与样本S3的质量进行比较或者将样本S2的质量与阈值进行比较,并基于比较使用样本S2替换样本S3
在一个示例中,训练设备将样本S1维持为包括在经验回放集201中。在一个示例中,训练设备通过从经验回放集201选择样本S1来从经验回放集201排除样本S1,并基于训练的结果确定是否再次将样本S1添加到经验回放集201。在一个示例中,训练设备通过选择样本S1来将样本S1维持为包括在经验回放集201中,并基于训练的结果确定是否将样本S1维持为包括在经验回放集201中或者是否从经验回放集201排除样本S1。可基于设计意图来设置是否从经验回放集201排除在执行对应迭代的时间点从经验回放集201选择的样本。在一个示例中,训练设备基于样本的质量更新经验回放集201。下面提供用于更新经验回放集201的条件、参考、方法或策略的详细描述。
训练设备基于确定是否将更新经验回放集201的结果来更新经验回放集201。基于确定将更新经验回放集201,训练设备基于至少一个样本和用于当前迭代的样本的质量来更新经验回放集201。下面提供经验回放集201的更新和样本的质量的详细描述。
图3是示出当前迭代的训练处理的示例的示图。虽然可以以如图所示的顺序和方式执行图3中的操作,但是在不脱离描述的说明性示例的精神和范围的情况下,可改变一些操作的顺序或省略一些操作。可并行或同时执行图3中示出的很多操作。可通过执行特定功能的基于专用硬件的计算机或者专用硬件和计算机指令的组合来实现图3的一个或多个块以及块的组合。除下面的图3的描述之外,图1至图2的描述也可应用于图3,并通过引用包含于此。因此,这里不再重复上面的描述。
参照图3,在操作301中,训练设备开始用于训练的第k次迭代。这里,“第k次”指示由训练设备执行的迭代之中的当前迭代的顺序或迭代编号。
在操作302中,训练设备确定是否通过经验回放迭代执行当前迭代。在一个示例中,训练设备确定与用于训练的迭代之中的当前迭代对应的迭代编号是否为特定数字的倍数。例如,训练设备将用于训练的迭代之中的迭代编号为预定义的M的倍数的迭代作为经验回放迭代,来迭代地执行。在这个示例中,训练设备确定k是否为预定义的M的倍数,并基于该确定来确定是否将执行经验回放迭代。
在一个示例中,训练设备确定与用于训练的迭代之中的当前迭代对应的迭代编号是否小于第一数字的倍数与第二数字之和。例如,训练设备将用于训练的迭代之中的迭代编号为M的倍数的迭代作为经验回放迭代来执行,并在执行与M的倍数的迭代编号对应的经验回放迭代之后,额外地将经验回放迭代执行N次。在这个示例中,训练设备确定k是否小于M的倍数与N之和。
在一个示例中,训练设备确定与当前迭代之前的迭代对应的训练误差减小是否小于或等于阈值。如上所述,训练设备使用随机梯度下降(SGD)方法来测量或计算通过执行预定迭代的神经网络中的训练误差的减小程度。训练设备可计算与迭代对应的训练误差或训练误差减小,并通过将计算的值映射到迭代来记录计算的或测量的训练误差减小。在一个示例中,当与第(k-1)迭代对应的训练误差减小小于或等于阈值时,训练设备确定通过经验回放迭代执行第k迭代。基于与先前的迭代对应的训练误差减小确定是否将执行经验回放迭代仅仅是一个非详尽的说明,用于确定是否将执行经验回放迭代的其他因素被认为在本公开的范围内。例如,训练设备可基于与先前的迭代对应的训练误差减小、训练误差减小的改变量或训练误差来确定是否将执行经验回放迭代。训练设备基于与先前的迭代对应的训练误差产生参数,并基于该参数确定是否将执行经验回放迭代。根据设计意图,各种方法可被使用并应用于变化的示例,所述变化的示例用于确定是否将执行经验回放迭代。
在一个示例中,训练设备使用批处理方案确定是否执行当前迭代。如上所述,训练设备可使用样本的集合来执行迭代,并确定是否将使用作为所述样本的集合的批来执行当前迭代。在一个示例中,训练设备确定是否使用基于批处理方案的SGD方案执行第k迭代,并响应于使用批处理方案而确定通过经验回放迭代来执行第k迭代。在一个示例中,训练设备基于调度确定是否使用批处理方案执行第k迭代,并基于与先前迭代对应的训练结果或由先前迭代产生的参数来自适应地确定是否使用批处理方案执行第k迭代。当使用批处理方案执行当前迭代时,训练设备可通过策略执行经验回放迭代。
在操作303中,当通过经验回放迭代执行当前迭代时,训练设备从经验回放集选择至少一个样本。如上所述,当使用批处理方案执行经验回放迭代时,训练设备选择用于经验回放迭代的多个样本。响应于不使用批处理方案执行经验回放迭代,训练设备从经验回放集选择用于经验回放迭代的单个样本。
在一个示例中,训练设备从经验回放集随机选择任意一个样本。例如,当使用SGD方案执行与当前迭代对应的经验回放迭代时,训练设备使用从经验回放集随机选择的任意一个样本来执行SGD方案。
在一个示例中,训练设备从经验回放集选择与从训练集选择的任意一个样本相似的样本。例如,当使用SGD方案执行与当前迭代对应的经验回放迭代时,训练设备从训练集随机选择任意一个第一样本。训练设备可从经验回放集选择与随机选择的第一样本具有最大相似度的第二样本。在一个示例中,可基于用于对样本进行分类的测量来定义相似度,例如,基于语音样本的三音素(triphone)的分布来定义相似度。当将被训练的神经网络是声学模型时,训练设备可采用语音样本或语音信号作为样本。训练设备可基于表示音标的分布的三音素的分布来定义指示语音信号之间的相似度的函数,并将该函数用作用于确定样本之间的相似度的参考。然而,相似度不限于此。可根据设计意图,以使用各种方案和参考的各种方式来定义相似度。
在一个示例中,训练设备基于包括在经验回放集中的样本的质量,从经验回放集选择任意一个样本。例如,当使用SGD方案执行与当前迭代对应的经验回放迭代时,训练设备从包括在经验回放集中的样本之中选择具有最高质量的样本。在一个示例中,训练设备从包括在经验回放集中的样本之中选择满足参考的样本,或者基于将样本的质量与阈值进行比较的方法来从经验回放集选择样本。各种参考或策略可根据设计意图而被应用于基于样本的质量从经验回放集选择样本的示例。可基于指示对训练的有用程度的参数来定义样本的质量。最高质量或最好质量指示质量的值最大。可根据设计意图以各种方式来设计指示质量的定量值或参数。例如,记录在环境(例如,预先控制与噪声和声音质量有关的参考的环境)中的语音样本的质量大于随机采集的语音样本的质量。当基于三音素的分布定义质量时,与基于参考均匀分布的三音素对应的语音样本的质量可大于随机选择的语音样本的质量。
在一个示例中,用于训练的样本的质量被预先存储,或者在训练处理中通过训练设备来更新。例如,训练设备将包括在经验回放集中的样本的质量记录在表中,或者使用包括在经验回放集中的样本的质量来建立数据库。训练设备可通过执行迭代来更新包括在经验回放集中的样本的质量,并基于更新的质量从经验回放集选择至少一个样本。在一个示例中,训练设备使用样本之中的具有相对高质量的样本来提供经验回放集,并通过使用经验回放集定期或不定期地执行经验回放迭代来提高与训练速度和训练准确度相关联的性能。可以以各种方式来设计用于定义样本的质量的条件、函数或参考,参照图4A至图4C提供定义质量的示例的详细描述。
在一个示例中,训练设备响应于使用批处理方案执行与当前迭代对应的经验回放迭代,通过应用上述方法选择多个样本。训练设备可从经验回放集随机选择样本。例如,训练设备响应于使用SGD方案执行与当前迭代对应的经验回放迭代,使用从经验回放集随机选择的样本执行SGD方案。
在一个示例中,当使用批处理方案执行与当前迭代对应的经验回放迭代时,训练设备可以按照比例从经验回放集和训练集随机选择样本。例如,当使用SGD方案执行与当前迭代对应的经验回放迭代时,训练设备可以按照M比N的比例从经验回放集和训练集随机选择样本。在一个示例中,基于当前迭代的迭代编号、包括在经验回放集中的样本的数量、包括在训练集中的样本的数量、先前迭代的训练误差和样本的质量中的一个或多个,来定义M比N的比例。然而,定义比例的方法不限于此。定义比例的方法可根据设计意图以各种方式来修改。
在一个示例中,当使用批处理方案执行与当前迭代对应的经验回放迭代时,训练设备可从经验回放集选择与从训练集选择的样本相似的样本。例如,训练设备响应于使用SGD方案执行与当前迭代对应的经验回放迭代,从训练集随机选择多个第一样本。训练设备选择与第一样本具有最大相似度的第二样本,第二样本是从经验回放集选择的。训练设备从经验回放集选择与各个第一样本具有最大相似度的每个第二样本。在一个示例中,训练设备基于根据三音素的分布而分类的样本的分布,从经验回放集选择与第一样本具有最大相似度的第二样本。
在一个示例中,训练设备响应于使用批处理方案执行与当前迭代对应的经验回放迭代,基于包括在经验回放集中的样本的质量来从经验回放集选择多个样本。例如,训练设备响应于使用SGD方案执行与当前迭代对应的经验回放迭代,以从高质量到低质量的顺序从包括在经验回放集中的样本之中选择样本。训练设备可选择包括在经验回放集中的样本之中的满足预设参考的样本,或者通过将样本的质量与阈值进行比较来从经验回放集选择样本。
在操作304中,当不通过经验回放迭代执行当前迭代时,训练设备从训练集选择至少一个样本。当使用批处理方案执行不与经验回放迭代对应的当前迭代时,训练设备可从训练集选择多个样本。
在操作305中,训练设备使用从经验回放集和训练集中的至少一个选择的样本来更新神经网络的权重。如上所述,训练设备可使用反向传播方案和SGD方案更新权重。
在操作306中,训练设备基于训练的结果和至少一个选择的样本,来确定是否将更新经验回放集。在一个示例中,训练设备确定是否将用于当前迭代的至少一个样本添加到经验回放集或者是否使用用于当前迭代的至少一个样本替换包括在经验回放集中的样本中的至少一个。例如,训练设备基于用于当前迭代的样本的质量,确定是否将更新经验回放集。训练设备可计算用于当前迭代的样本的质量,并通过将计算的质量与包括在经验回放集中的样本的质量进行比较来确定是否将更新经验回放集。
训练设备基于以下项中的任何一个或任意组合来计算从当前迭代选择的样本的质量:从当前迭代选择的样本在包括在经验回放集中的样本的分布中的概率、从基于从当前迭代选择的样本训练的神经网络获得的至少一个输出、与当前迭代对应的训练误差减小、对应于当前迭代的先前迭代的训练误差减小和对应于当前迭代的训练误差减小之间的差。可将关于包括在经验回放集中的样本的信息存储在如表1所示的表中,训练设备可从数据库或存储器获得关于包括在经验回放集中的样本的信息。
[表1]
样本 S1 S2 S3 S4 SN
质量 Q1 Q2 Q3 Q4 QN
标签 L1 L2 L3 L4 LN
样本的分布的概率 P1 P2 P3 P4 PN
训练误差减小 R1 R2 R3 R4 RN
训练误差减小的差 D1 D2 D3 D4 DN
神经网络的输出 O1 O2 O3 O4 ON
参照表1,经验回放集包括样本S1至SN。样本S1至SN被映射到标签、样本的分布的概率、训练误差减小、训练误差减小的差和神经网络的输出,使得样本S1至SN以数据库的形式被提供。在一个示例中,可基于样本的分布的概率、训练误差减小、训练误差减小的差和神经网络的输出中的至少一个来量化和定义质量。
在一个示例中,训练设备计算从当前迭代选择的样本在包括在经验回放集中的样本的分布中的概率,并基于计算的概率来计算从当前迭代选择的样本的质量。样本的分布可被理解为属于各个组的样本的数量的分布的程度,其中,各个组基于根据参考(例如,相似度)对样本进行分类的结果而被产生。例如,基于通过包括样本的组中的样本的数量除以全部样本的数量获得的值,来计算所述样本的概率。
参照图4A,样本的分布可以是正态分布。在正态分布中,样本S1的概率是P1,样本S2的概率是P2。样本的分布可以是指示基于三音素或相似度的分布对样本进行分类的结果的分布。训练设备基于概率P1计算样本S1的质量,并基于概率P2计算样本S2的质量。在一个示例中,训练设备将具有相对低概率的样本S1的质量计算得高于样本S2的质量。训练设备可将从当前迭代选择的样本的概率(例如,包括在经验回放集中的样本的分布的概率)与包括在经验回放集中的样本的概率进行比较,并基于比较的结果确定是否将更新经验回放集。例如,当包括在经验回放集中的样本的概率之中的最高概率高于从当前迭代选择的样本的概率时,训练设备将从当前迭代选择的样本添加到经验回放集,并从经验回放集排除与最高概率对应的样本。训练设备可基于样本的概率从经验回放集排除相对大分布的样本并将相对小分布的样本包括在经验回放集中。
参照图4B,可基于三音素的分布对样本S1至SN进行排列或分类。在一个示例中,因为样本S1的概率小于样本S2至SN的概率,所以训练设备将样本S1的质量计算得相对大于样本S2至SN的质量。图4B中示出的阴影指示用于基于三音素的分布识别样本的视觉表示。训练设备基于样本的分布更新经验回放集,因此,包括在经验回放集中的样本可通过执行迭代而均匀分布。在一个示例中,训练设备以如表1所示的表的形式管理包括在经验回放集中的样本S1至SN以及与样本S1至SN对应的概率P1至PN
在一个示例中,训练设备使用从当前迭代选择的样本训练神经网络,并基于从训练的神经网络获得的至少一个输出来计算从当前迭代选择的样本的质量。参照图4C,神经网络401包括输入层402、中间层404和输出层403。训练设备通过输入层402将从当前迭代选择的样本SN输入到神经网络401,通过神经网络401的输出层403获得输出On,并基于输出On训练神经网络401。当样本SN对应于语音样本时,训练设备可使用多个帧产生语音样本的特征,并基于产生的特征训练神经网络。可基于从输出层403的节点输出的对数似然值和输出层403的节点的激活函数来定义输出On。在一个示例中,训练设备基于与从当前迭代选择的样本SN对应的输出On来计算样本SN的质量。例如,训练设备将样本SN的质量计算为:随着指示从输出层403的节点输出的值的输出On的减小而增大。相对小的输出指示神经网络以相对低的识别率识别与相对小的输出对应的样本,或者指示与样本相关联的迭代的次数需要增加。因此,训练设备将与输出对应的样本的质量设置为随着输出的减小而增大,使得该样本更多地用于训练。
训练设备以如表1所示的表的形式管理与包括在经验回放集中的样本S1至SN对应的输出O1至ON。训练设备将从当前迭代选择的样本的输出与包括在经验回放集中的样本的输出进行比较,并基于比较的结果确定是否将更新经验回放集。例如,响应于包括在经验回放集中的样本的输出之中的最大输出大于从当前迭代选择的样本的输出,训练设备将从当前迭代选择的样本添加到经验回放集,并从经验回放集排除与最大的输出对应的样本。训练设备可基于神经网络的输出,从经验回放集排除具有相对大的输出的样本并将具有相对小的输出的样本包括在经验回放集中。因此,训练设备可允许神经网络中具有相对小的输出的样本通过经验回放迭代而定期、不定期或迭代地用于训练。
在一个示例中,训练设备基于与当前迭代对应的训练误差减小来计算从当前迭代选择的样本的质量,并以如表1所示的表的形式管理与包括在经验回放集中的样本S1至SN对应的训练误差减小R1至RN。训练设备可将与从当前迭代选择的样本对应的训练误差减小与包括在经验回放集中的样本的训练误差减小进行比较,并基于所述比较确定是否将更新经验回放集。例如,当与包括在经验回放集中的样本对应的训练误差减小之中的最小训练误差减小小于从当前迭代选择的样本的训练误差减小时,训练设备将从当前迭代选择的样本添加到经验回放集,并从经验回放集排除与最小训练误差减小对应的样本。训练设备可基于训练误差减小,从经验回放集排除具有相对小的训练误差减小的样本并将具有相对大的训练误差减小的样本包括在经验回放集中。因此,训练设备可允许具有相对大的训练误差减小的样本通过经验回放迭代而定期、不定期或迭代地用于训练。
在一个示例中,训练设备基于训练误差减小的差,来计算从当前迭代选择的样本的质量。在一个示例中,训练误差减小的差包括对应于当前迭代的训练误差减小和对应于先前迭代的训练误差减小之间的差。训练设备可以以如表1所示的表的形式管理与包括在经验回放集中的样本S1至SN对应的训练误差减小的差D1至DN。训练设备可将对应于从当前迭代选择的样本的差和对应于包括在经验回放集中的样本的差进行比较,并基于比较的结果确定是否将更新经验回放集。例如,当与包括在经验回放集中的样本对应的差之中的最小差小于与从当前迭代选择的样本对应的差时,训练设备添加从当前迭代选择的样本,并排除与最小差对应的样本。训练设备可基于训练误差减小的差,从经验回放集排除具有相对小的差的样本并将具有相对大的差的样本包括在经验回放集中。因此,训练设备可允许的具有相对大的训练误差减小的差的样本通过经验回放迭代而定期、不定期或迭代地用于训练。定义样本的质量的方法不限于上述参考。上述方法可被用于定义作为样本的集合的批的质量。
返回参照图3,在操作307中,训练设备使用从当前迭代选择的样本更新经验回放集。在一个示例中,训练设备将从当前迭代选择的样本的质量与包括在经验回放集中的样本的质量进行比较。训练设备基于比较,使用从当前迭代选择的样本替换包括在经验回放集中的样本之中的与低于从当前迭代选择的样本的质量的质量对应的至少一个样本。
在一个示例中,训练设备将从当前迭代选择的样本的质量与阈值进行比较。训练设备可基于比较将从当前迭代选择的样本添加到经验回放集。例如,响应于基于训练误差减小的差计算样本的质量,随着与当前迭代对应的迭代编号的增大,作为用于将阈值与质量进行比较的参考的阈值可减小。响应于基于神经网络的输出计算样本的质量,随着与当前迭代对应的迭代编号的增大,作为用于将阈值与质量进行比较的参考的阈值可增大。在一个示例中,训练设备将包括在经验回放集中的样本的质量与阈值进行比较,并基于比较从经验回放集排除包括在经验回放集中的至少一个样本。在不将使用从当前迭代选择的样本更新经验回放集的操作限制为上述方法的情况下,训练设备可通过采用各种方案和方法来使用样本的质量。
在操作308中,训练设备完成经验回放集的更新,或基于确定经验回放集将不被更新的结果结束第k迭代。在第k迭代结束之后,训练设备可基于与第k迭代对应的训练误差、训练误差减小和训练误差减小的差中的至少一个,来确定是结束神经网络的训练还是开始第(k+1)迭代。
图5示出经验回放集的示例。
参照图5,经验回放集501包括多个批B1至BN。训练设备可以以如上所述的表的形式来管理包括在经验回放集501中的批B1至BN以及与批B1至BN对应的质量。在一个示例中,训练设备通过采用上述示例来构造并更新经验回放集501。例如,训练设备以批为单位更新经验回放集501,并基于与批对应的质量使用批Bnew替换包括在经验回放集501中的批B3
图6示出经验回放集的示例。
参照图6,在开始神经网络603的训练之前,训练设备可不在经验回放集601中包括样本。例如,在图6中,训练设备示出经验回放集601是空的,开始神经网络603的训练,并当执行用于训练的迭代时更新经验回放集601。上述示例被应用于更新经验回放集601的操作。训练设备在执行用于训练的迭代之中的初始迭代时从训练集602选择样本Snew,使用选择的样本Snew训练神经网络603,并基于神经网络603的输出计算样本Snew的质量。训练设备可基于样本Snew的质量将样本Snew添加到经验回放集601。
虽然在图6中经验回放集601初始为空,但是经验回放集601初始可包括满足条件的样本。如上所述,经验回放集601可包括被确定为对训练有用的样本的集合。在一个示例中,训练设备将经验回放集601维持为具有一定数量的样本的集合。例如,训练设备在执行迭代的处理中将包括在经验回放集601中的样本的数量维持为N。训练设备可在执行用于训练的迭代的处理中记录N个样本的质量,并基于样本的质量和从当前迭代选择的样本的质量来更新经验回放集601。在一个示例中,训练设备在执行用于训练的迭代的处理中自适应地更新包括在经验回放集601中的样本的数量。训练设备可基于质量、样本的分布、训练误差、训练误差减小、训练误差减小的差和神经网络的输出中的至少一个来更新样本的数量。
图7是示出训练设备的示例的示图。
参照图7,训练设备701包括处理器702和存储器703。处理器702包括上面参照如1至图6描述的至少一个设备,或者执行上面参照图1至图6描述的至少一个方法。存储器703存储与样本相关联的信息或实现训练方法的程序。存储器703可以是如下所述的易失性存储器或非易失性存储器。
处理器702执行程序并控制训练设备701。可由处理器702执行的程序代码被存储在存储器703中。训练设备701通过输入和输出装置(未示出)连接到外部装置(例如,个人计算机或网络),从而执行数据交换。
通过硬件组件实现这里描述的训练设备、其他设备、单元、模块、装置以及其他组件。可用于执行本申请中描述的操作的硬件组件的示例在适当情况下包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中,通过计算硬件(例如,通过一个或多个处理器或计算机)来实现执行本申请中描述的操作的一个或多个硬件组件。可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以获得期望结果的任意其他装置或装置的组合)来实现处理器或计算机。在一个示例中,处理器或计算机包括(或连接到)存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如,操作系统(OS)和在OS上运行的一个或多个软件应用),以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行而访问、操控、处理、创建和存储数据。为了简单,单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述,但在其他示例中,多个处理器或计算机可被使用,或者一个处理器或一个计算机可包括多个处理元件或多种类型的处理元件或二者。例如,可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来实现单个硬件组件或者两个或更多个硬件组件。可通过一个或多个处理器或者一个处理器和一个控制器来实现一个或多个硬件组件,可通过一个或多个其他处理器或者另一处理器和另一控制器来实现一个或多个其他硬件组件。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置,处理配置的示例包括单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)。
通过计算硬件(例如,通过被实现为如上面描述地执行指令或软件以执行本申请中描述的由方法执行的操作的一个或多个处理器或计算机)来执行在图1和图3中示出的执行本申请中描述的操作的方法。例如,可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行单个操作或者两个或更多个操作。可通过一个或多个处理器或者一个处理器和一个控制器来执行一个或多个操作,可通过一个或多个其他处理器或者另一处理器和另一控制器来执行一个或多个其他操作。一个或多个处理器或者一个处理器和一个控制器可执行单个操作或者两个或更多个操作。
为了单独或共同地命令或配置处理器或计算机作为机器或专用计算机运行以执行如上面描述的由硬件组件执行的操作和方法,控制处理器或计算机实施硬件组件和执行如上面描述的方法的指令或软件被写为计算机程序、代码段、指令或其组合。在一个示例中,指令或软件包括小应用程序、动态链接库(DLL)、中间件、固件、装置驱动器、存储防止冲突的方法的程序。在一个示例中,指令或软件包括直接由处理器或计算机执行的机器码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由处理器或计算机使用解释器来执行的更高级代码。本领域的普通程序员可基于附图中示出的框图和流程图以及说明书中的相应描述来容易地编写指令或软件,附图和说明书公开了用于如上所述地执行由硬件组件执行的操作和方法的算法。
用于控制处理器或计算机实现硬件组件并且执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件以及数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储、硬盘驱动(HDD)、固态驱动(SSD)、闪存、卡型存储器(诸如,微型多媒体卡或卡(例如,安全数字卡(SD)或极速卡(XD))、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态磁盘以及被配置为以非暂时性方式存储指令或软件和任何关联数据、数据文件和数据结构并将指令或软件和任何关联数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能够执行指令的任何其他装置。
虽然本说明包括特定示例,但是本领域普通技术人员将清楚的是:在不脱离权利要求和它们的等同物的精神和范围的情况下,可在这些示例中进行形式上和细节上的各种改变。在此描述的示例应仅在描述意义上考虑,而非为了限制的目的。在每个示例中的特征或方面的描述将被视为可被应用于在其它示例中的相似特征或方面。如果按照不同顺序执行描述的技术,和/或如果按照不同方式组合在描述的系统、架构、装置或电路中的组件和/或由其它组件或其等同物来替代或补充在描述的系统、架构、装置或电路中的组件,则可实现适当的结果。因此,本公开的范围并非由具体实施方式限定而是由权利要求和它们的等同物所限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开中。

Claims (31)

1.一种语音识别训练方法,包括:
确定是否通过使用经验回放集的经验回放迭代执行用于训练语音识别神经网络的当前迭代;
基于确定的结果从经验回放集和训练集中的至少一个选择样本;
基于选择的样本训练语音识别神经网络;
基于对应于当前迭代之前的迭代的训练误差减小与对应于当前迭代的训练误差减小之间的差来计算选择的样本的质量;
基于计算的选择的样本的质量,确定是否更新经验回放集。
2.如权利要求1所述的语音识别训练方法,其中,确定的步骤包括:确定与当前迭代对应的迭代编号是否为第一数字的倍数。
3.如权利要求1所述的训练方法,其中,确定的步骤包括:确定与当前迭代对应的迭代编号是否小于第一数字的倍数与第二数字之和。
4.如权利要求1所述的语音识别训练方法,其中,确定的步骤包括:确定与当前迭代之前的迭代对应的训练误差减小是否小于或等于阈值。
5.如权利要求1所述的语音识别训练方法,其中,确定的步骤包括:确定是否使用批处理方案执行当前迭代。
6.如权利要求1所述的语音识别训练方法,其中,选择的步骤包括:响应于通过经验回放迭代执行当前迭代,从经验回放集随机选择样本。
7.如权利要求1所述的语音识别训练方法,其中,选择的步骤包括:
响应于通过经验回放迭代执行当前迭代,从训练集随机选择第一样本;
从经验回放集选择与随机选择的第一样本具有最大相似度的第二样本。
8.如权利要求7所述的语音识别训练方法,其中,基于语音样本的三音素的分布定义相似度。
9.如权利要求1所述的语音识别训练方法,其中,选择的步骤包括:响应于通过经验回放迭代执行当前迭代,基于经验回放集中的样本的质量从经验回放集选择样本。
10.如权利要求1所述的语音识别训练方法,其中,选择的步骤包括:响应于通过经验回放迭代执行当前迭代并且使用批处理方案执行经验回放迭代,从经验回放集随机选择多个样本。
11.如权利要求1所述的语音识别训练方法,其中,选择的步骤包括:响应于通过经验回放迭代执行当前迭代并且使用批处理方案执行经验回放迭代,按照比例从经验回放集和训练集随机选择多个样本。
12.如权利要求1所述的语音识别训练方法,其中,选择的步骤包括:
响应于通过经验回放迭代执行当前迭代并且使用批处理方案执行经验回放迭代,从训练集随机选择多个第一样本;
从经验回放集选择与随机选择的所述多个第一样本具有最大相似度的多个第二样本。
13.如权利要求1所述的语音识别训练方法,其中,选择的步骤包括:响应于通过经验回放迭代执行当前迭代并且使用批处理方案执行经验回放迭代,基于经验回放集中的样本的质量从经验回放集选择多个样本。
14.如权利要求1所述的语音识别训练方法,其中,还基于以下项中的任意一个或任意组合计算选择的样本的质量:
选择的样本在包括在经验回放集中的样本的分布中的概率;
从基于选择的样本训练的语音识别神经网络获得的输出;
对应于当前迭代的训练误差减小。
15.如权利要求14所述的训练方法,其中,确定是否更新经验回放集的步骤还包括:将计算的质量与经验回放集中的样本的质量进行比较。
16.如权利要求15所述的训练方法,还包括:
基于比较的结果,使用选择的样本替换与经验回放集中的样本之中的低于计算的质量的质量对应的至少一个样本。
17.如权利要求14所述的训练方法,其中,确定是否更新经验回放集的步骤还包括:将计算的质量与阈值进行比较。
18.如权利要求17所述的训练方法,还包括:
基于比较的结果,将选择的样本添加到经验回放集。
19.如权利要求17所述的训练方法,其中,响应于基于所述差计算质量,所述阈值随着当前迭代的迭代编号的增大而减小。
20.如权利要求17所述的训练方法,其中,响应于基于所述输出计算质量,所述阈值随着当前迭代的迭代编号的增大而增大。
21.如权利要求1所述的训练方法,其中,经验回放集包括在环境中记录的语音样本和与基于参考均匀分布的三音素对应的语音样本中的至少一个。
22.一种存储在被处理器执行时使得所述处理器执行如权利要求1所述的方法的指令的非暂时性计算机可读介质。
23.一种语音识别训练方法,包括:
基于从经验回放集和训练集中的至少一个选择的与用于训练语音识别神经网络的当前迭代相关联的样本,训练语音识别神经网络;
基于训练的结果和选择的样本,确定是否更新经验回放集;
基于确定的结果,更新经验回放集,
其中,确定是否更新经验回放集的步骤包括:
基于对应于当前迭代之前的迭代的训练误差减小与对应于当前迭代的训练误差减小之间的差来计算选择的样本的质量;
基于计算的选择的样本的质量,确定是否更新经验回放集。
24.如权利要求23所述的训练方法,其中,还基于以下项中的任意一个或任意组合计算选择的样本的质量:
选择的样本在包括在经验回放集中的样本的分布中的概率;
从基于选择的样本训练的语音识别神经网络获得的输出;
对应于当前迭代的训练误差减小。
25.如权利要求24所述的训练方法,其中,确定是否更新经验回放集的步骤还包括:将计算的质量与经验回放集中的样本的质量进行比较,更新的步骤还包括:基于比较的结果使用选择的样本替换与经验回放集中的样本之中的低于计算的质量的质量对应的至少一个样本。
26.如权利要求24所述的训练方法,其中,确定的步骤还包括将计算的质量与阈值进行比较,更新的步骤还包括基于比较的结果将选择的样本添加到经验回放集。
27.如权利要求26所述的训练方法,其中,响应于基于所述差计算质量,所述阈值随着当前迭代的迭代编号的增大而减小。
28.如权利要求26所述的训练方法,其中,响应于基于所述输出计算质量,所述阈值随着当前迭代的迭代编号的增大而增大。
29.如权利要求23所述的训练方法,其中,训练的步骤包括:确定是否通过使用经验回放集的经验回放迭代执行当前迭代。
30.一种语音识别训练设备,包括:
处理器,被配置为:确定是否通过使用经验回放集的经验回放迭代执行用于训练语音识别神经网络的当前迭代;基于确定的结果从经验回放集和训练集中的至少一个选择样本;基于选择的样本训练语音识别神经网络;基于对应于当前迭代之前的迭代的训练误差减小与对应于当前迭代的训练误差减小之间的差来计算选择的样本的质量;基于计算的选择的样本的质量,确定是否更新经验回放集。
31.一种语音识别训练设备,包括:
处理器,被配置为:基于从经验回放集和训练集中的至少一个选择的与用于训练语音识别神经网络的当前迭代相关联的样本,训练语音识别神经网络;基于训练的结果和选择的样本,确定是否更新经验回放集;基于确定的结果,更新经验回放集,
其中,确定是否更新经验回放集的步骤包括:
基于对应于当前迭代之前的迭代的训练误差减小与对应于当前迭代的训练误差减小之间的差来计算选择的样本的质量;
基于计算的选择的样本的质量,确定是否更新经验回放集。
CN201711064668.2A 2017-03-23 2017-11-02 用于语音识别的训练方法和设备 Active CN108630197B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170036909A KR102399535B1 (ko) 2017-03-23 2017-03-23 음성 인식을 위한 학습 방법 및 장치
KR10-2017-0036909 2017-03-23

Publications (2)

Publication Number Publication Date
CN108630197A CN108630197A (zh) 2018-10-09
CN108630197B true CN108630197B (zh) 2023-10-31

Family

ID=60301805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711064668.2A Active CN108630197B (zh) 2017-03-23 2017-11-02 用于语音识别的训练方法和设备

Country Status (5)

Country Link
US (1) US10540958B2 (zh)
EP (1) EP3379531A1 (zh)
JP (1) JP7055630B2 (zh)
KR (1) KR102399535B1 (zh)
CN (1) CN108630197B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305619B (zh) * 2017-03-10 2020-08-04 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
US11410641B2 (en) * 2018-11-28 2022-08-09 Google Llc Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance
CN110033089B (zh) * 2019-04-17 2021-03-26 山东大学 基于分布式估计算法的手写体数字图像识别深度神经网络参数优化方法及系统
CN109979257B (zh) * 2019-04-27 2021-01-08 深圳市数字星河科技有限公司 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
US11335347B2 (en) * 2019-06-03 2022-05-17 Amazon Technologies, Inc. Multiple classifications of audio data
CN110556100B (zh) * 2019-09-10 2021-09-17 思必驰科技股份有限公司 端到端语音识别模型的训练方法及系统
CN111291657B (zh) * 2020-01-21 2022-09-16 同济大学 一种基于难例挖掘的人群计数模型训练方法及应用
CN111951789B (zh) * 2020-08-14 2021-08-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质
CN111933121B (zh) * 2020-08-31 2024-03-12 广州市百果园信息技术有限公司 一种声学模型训练方法及装置
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN113344056B (zh) * 2021-05-31 2022-11-22 北京邮电大学 一种人员移动性预测模型的训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1065601A1 (en) * 1999-07-02 2001-01-03 BRITISH TELECOMMUNICATIONS public limited company Training process
CN101334998A (zh) * 2008-08-07 2008-12-31 上海交通大学 基于异类模型区分性融合的汉语语音识别系统
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
CN105679317A (zh) * 2014-12-08 2016-06-15 三星电子株式会社 用于训练语言模型并识别语音的方法和设备
CN105955921A (zh) * 2016-04-18 2016-09-21 苏州大学 基于自动发现抽象动作的机器人分层强化学习初始化方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895939A (ja) * 1994-09-28 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> 時系列データの学習方法及び時系列データの学習装置
US7058617B1 (en) * 1996-05-06 2006-06-06 Pavilion Technologies, Inc. Method and apparatus for training a system model with gain constraints
JP3827037B2 (ja) * 1997-05-23 2006-09-27 ソニー株式会社 学習方法および装置、ロボット、並びに記録媒体
IES20020063A2 (en) * 2001-01-31 2002-08-07 Predictions Dynamics Ltd Neutral network training
US7194320B2 (en) * 2003-06-05 2007-03-20 Neuco, Inc. Method for implementing indirect controller
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
US7295700B2 (en) 2003-10-24 2007-11-13 Adobe Systems Incorporated Object extraction based on color and visual texture
US7245250B1 (en) * 2005-08-16 2007-07-17 Itt Manufacturing Enterprises, Inc. Synthetic aperture radar image compression
US8510242B2 (en) * 2007-08-31 2013-08-13 Saudi Arabian Oil Company Artificial neural network models for determining relative permeability of hydrocarbon reservoirs
EP2851895A3 (en) 2011-06-30 2015-05-06 Google, Inc. Speech recognition using variable-length context
US20130090926A1 (en) 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
PL2639749T3 (pl) 2012-03-15 2017-05-31 Cortical.Io Gmbh Sposoby, urządzenia i produkty do przetwarzania semantycznego tekstu
US9508347B2 (en) * 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US9730643B2 (en) * 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US20150242747A1 (en) * 2014-02-26 2015-08-27 Nancy Packes, Inc. Real estate evaluating platform methods, apparatuses, and media
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
RU2666631C2 (ru) * 2014-09-12 2018-09-11 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Обучение dnn-студента посредством распределения вывода
CN105636197B (zh) * 2014-11-06 2019-04-26 株式会社理光 距离估计方法和装置、以及节点定位方法和设备
US10445641B2 (en) * 2015-02-06 2019-10-15 Deepmind Technologies Limited Distributed training of reinforcement learning systems
US10540611B2 (en) * 2015-05-05 2020-01-21 Retailmenot, Inc. Scalable complex event processing with probabilistic machine learning models to predict subsequent geolocations
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images
AU2016297852C1 (en) * 2015-07-24 2019-12-05 Deepmind Technologies Limited Continuous control with deep reinforcement learning
JP7080811B2 (ja) * 2015-09-11 2022-06-06 グーグル エルエルシー 強化学習ニューラルネットワークのトレーニング
US9792531B2 (en) * 2015-09-16 2017-10-17 Siemens Healthcare Gmbh Intelligent multi-scale medical image landmark detection
KR20170036909A (ko) 2015-09-24 2017-04-04 푸시맨 주식회사 푸시 메시지 발송 장치
EP3360086B1 (en) * 2015-11-12 2024-10-23 DeepMind Technologies Limited Training neural networks using a prioritized experience memory
JP6679898B2 (ja) * 2015-11-24 2020-04-15 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
US11042798B2 (en) * 2016-02-04 2021-06-22 Adobe Inc. Regularized iterative collaborative feature learning from web and user behavior data
CA3017135A1 (en) * 2016-03-08 2017-09-14 Your Trainer Inc. Systems and methods of dynamically creating a personalized workout video
KR20180137562A (ko) * 2016-04-27 2018-12-27 뉴럴라 인코포레이티드 심층 신경망 기반의 큐-러닝을 위한 경험 기억을 프루닝하는 방법 및 장치
US10204097B2 (en) * 2016-08-16 2019-02-12 Microsoft Technology Licensing, Llc Efficient dialogue policy learning
US10671908B2 (en) * 2016-11-23 2020-06-02 Microsoft Technology Licensing, Llc Differential recurrent neural network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1065601A1 (en) * 1999-07-02 2001-01-03 BRITISH TELECOMMUNICATIONS public limited company Training process
CN101334998A (zh) * 2008-08-07 2008-12-31 上海交通大学 基于异类模型区分性融合的汉语语音识别系统
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
CN105679317A (zh) * 2014-12-08 2016-06-15 三星电子株式会社 用于训练语言模型并识别语音的方法和设备
CN105955921A (zh) * 2016-04-18 2016-09-21 苏州大学 基于自动发现抽象动作的机器人分层强化学习初始化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning What Data to Learn;YangFan等;arXiv:Learing;全文 *
ONLINE BATCH SELECTION FOR FASTER TRAINING OF NEURAL NETWORKS.Workshop track - ICLR 2016.1-20. *
Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching;LONG-JI LIN;Machine Learning;全文 *

Also Published As

Publication number Publication date
CN108630197A (zh) 2018-10-09
JP7055630B2 (ja) 2022-04-18
KR102399535B1 (ko) 2022-05-19
KR20180107940A (ko) 2018-10-04
EP3379531A1 (en) 2018-09-26
US10540958B2 (en) 2020-01-21
US20180277098A1 (en) 2018-09-27
JP2018160234A (ja) 2018-10-11

Similar Documents

Publication Publication Date Title
CN108630197B (zh) 用于语音识别的训练方法和设备
US10929607B2 (en) Dialogue state tracking using a global-local encoder
US20210287663A1 (en) Method and apparatus with a personalized speech recognition model
US11935516B2 (en) Speech recognition method and appratus using weighted scores
US20190354810A1 (en) Active learning to reduce noise in labels
US10747637B2 (en) Detecting anomalous sensors
US9460711B1 (en) Multilingual, acoustic deep neural networks
US9858534B2 (en) Weight generation in machine learning
US11631414B2 (en) Speech recognition method and speech recognition apparatus
US8965763B1 (en) Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US20180197106A1 (en) Training data set determination
US10909451B2 (en) Apparatus and method for learning a model corresponding to time-series input data
US10528666B2 (en) Method and apparatus for determining domain of sentence
US20190122654A1 (en) Speech recognition method and apparatus
US20190294969A1 (en) Generation of neural network containing middle layer background
US20220101186A1 (en) Machine-learning model retraining detection
US20170185907A1 (en) Method of probabilistic inference using open statistics
US9460705B2 (en) Devices and methods for weighting of local costs for unit selection text-to-speech synthesis
CN116681081A (zh) 一种语义泛化的方法、系统、电子设备、存储介质及车辆
JP2009210975A (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP2009210976A (ja) 音声認識装置、方法、プログラム及びその記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant