CN110853628A - 一种模型训练方法、装置、电子设备及存储介质 - Google Patents

一种模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110853628A
CN110853628A CN201911125492.6A CN201911125492A CN110853628A CN 110853628 A CN110853628 A CN 110853628A CN 201911125492 A CN201911125492 A CN 201911125492A CN 110853628 A CN110853628 A CN 110853628A
Authority
CN
China
Prior art keywords
model
trained
data
language model
newly added
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911125492.6A
Other languages
English (en)
Inventor
温亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Suzhou Speech Information Technology Co Ltd
Original Assignee
Suzhou Speech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Speech Information Technology Co Ltd filed Critical Suzhou Speech Information Technology Co Ltd
Priority to CN201911125492.6A priority Critical patent/CN110853628A/zh
Publication of CN110853628A publication Critical patent/CN110853628A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种模型训练方法、装置、电子设备及存储介质,其中,所述方法包括:基于至少一个音频数据以及至少一个文本数据,对声学模型以及语言模型进行训练,基于所述性能分析结果判断训练后的声学模型和/或语言模型是否满足对应的性能阈值;若所述训练后的声学模型和/或语言模型不满足对应的性能阈值,则基于所述日志信息,确定针对所述训练后的声学模型和/或语言模型的待处理问题;基于所述声学模型和/或语言模型的所述待处理问题,获取新增的至少一个音频数据和/或新增的至少一个文本数据,基于所述新增的至少一个音频数据和/或新增的至少一个文本数据对所述声学模型和/或语言模型进行重新训练。

Description

一种模型训练方法、装置、电子设备及存储介质
技术领域
本申请涉及电子技术领域,尤其涉及一种模型训练方法、装置、电子设备及存储介质。
背景技术
随着生活智能化水平的提高,对语音识别的要求越来越高,语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器能够自动识别和理解人类口述的语言。在相关技术中,主要采用深度学习的方法,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘。且面向车载、智能家居、可穿戴等领域提供语音交互整体解决方案。然而随着语音识别的应用场景越来越多,对于识别的准确率的影响因素也越来越多,因此需要针对语音识别所采用的相关模型进行优化处理,但是,相关技术中提供的方案无法避免人工介入,由于无法避免人工介入使得语音识别的相关模型无法更加智能化的进行自动迭代优化。
发明内容
本申请提供一种模型训练方法、装置、电子设备及存储介质,以解决现有技术中存在的上述问题。
本发明一方面提供一种模型训练方法,所述方法包括:
基于至少一个音频数据以及至少一个文本数据,对声学模型以及语言模型进行训练,对训练后的声学模型以及语言模型进行解码测试得到性能分析结果以及日志信息;
基于所述性能分析结果判断训练后的声学模型和/或语言模型是否满足对应的性能阈值;
若所述训练后的声学模型和/或语言模型不满足对应的性能阈值,则基于所述日志信息,确定针对所述训练后的声学模型和/或语言模型的待处理问题;
基于所述声学模型和/或语言模型的所述待处理问题,获取新增的至少一个音频数据和/或新增的至少一个文本数据,基于所述新增的至少一个音频数据和/或新增的至少一个文本数据对所述声学模型和/或语言模型进行重新训练。
本发明另一方面提供一种模型训练装置,所述装置包括:
模型训练模块,用于基于至少一个音频数据以及至少一个文本数据,对声学模型以及语言模型进行训练,对训练后的声学模型以及语言模型进行解码测试得到性能分析结果以及日志信息;
性能分析模块,用于基于所述性能分析结果判断训练后的声学模型和/或语言模型是否满足对应的性能阈值;
日志分析模块,用于若所述训练后的声学模型和/或语言模型不满足对应的性能阈值,则基于所述日志信息,确定针对所述训练后的声学模型和/或语言模型的待处理问题;
数据获取模块,用于基于所述声学模型和/或语言模型的所述待处理问题,获取新增的至少一个音频数据和/或新增的至少一个文本数据;
所述模型训练模块,还用于基于所述新增的至少一个音频数据和/或新增的至少一个文本数据对所述声学模型和/或语言模型进行重新训练。
本发明另一方面提供一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够前述方法。
本发明另一方面还提供一种存储介质,所述存储介质用于存储计算机指令,所述计算机指令用于使所述计算机执行前述方法。
通过采用上述方案,通过对训练后的声学模型以及语言模型进行测试,得到性能分析结果以及相关的日志信息,进而在声学模型以及语言模型不满足预设性能阈值的情况下,能够对日志信息进行分析并得到新增的文本数据和/或音频数据,进而循环的对声学模型以及语言模型进行训练。如此,能够通过自身迭代优化提升识别性能,而且减少了由于人工介入所带来的人为因素的干预的情况,再进一步地,由于避免了人工介入使得语音识别的相关模型的训练更加智能化,并且能够适应更多的使用场景。
附图说明
图1为本发明实施例提供的一种模型训练方法流程示意图一;
图2为本发明实施例提供的一种模型训练方法流程示意图二;
图3为本发明实施例提供的一种模型训练装置的组成结构示意图一;
图4为本发明实施例提供的一种模型训练装置的组成结构示意图二;
图5为本发明实施例提供的一种模型训练装置的组成结构示意图三;
图6为本发明实施例提供的一种电子设备组成结构示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。在相关技术中,主要采用深度学习的方法,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘。且面向车载、智能家居、可穿戴等领域提供语音交互整体解决方案。其中语音识别的应用场景也逐渐从语音输入法的近场低噪扩展到远场高噪场景,识别难度也越来越大,影响到准确率的因素也随之逐渐增多。比如:说话人的口音、多语种混合识别、说话方式、语音场景、识别领域等,这些场景领域使得真实的语音识别系统,会面临自然对话场景下的吞音、语速、方言、噪声、混响、专业领域词汇等诸多复杂问题,进而导致现有的识别系统,准确率受到影响,很难达到百分之百的识别准确性。为此,诞生了一系列针对性的优化方法,来优化语音识别系统。
在相关技术中,语音识别系统的优化方法,可以归为三类。第一类、从语音信号处理,声学特性层面作识别优化。第二类、从语言语料库层面,作场景领域语料的知识扩充。第三类、在语音识别解码器层面,作多路解码或多系统融合。
其中,第一类,从语音识别信号处理、声学特性角度作识别优化。主要是解决一些语速较快、有方言口音、含噪声混响的场景所带来的影响。通常的做法是在已有的语音数据里,混入一些含有方言口音和噪声混响的数据整体训练,以提高识别鲁棒性。从声学特性层面作优化,往往可以提升识别对场景的感知,提高在不同场景下的识别鲁棒性,使得一些噪声场景、带口音的方言音频,都能够正常识别。但是,这类方法中,声学训练的优化,需要结合相关的数据。这个数据的获取,一般来说,通过购买或者真实业务反馈而来。尤其是当应用于某个具体业务的时候,最希望获取到的音频是切合真实业务场景的音频,但这种类型的音频,一是不便于获取到,二是获取到之后,需要较高的人力成本投入。另一个方面,需要一套自动化的方式将该优化过程形成一个闭环。
第二类在语言语料库层面,作场景领域语料的知识扩充。主要是弥补语音识别内容的缺陷,丰富相关业务领域语料,增强词与词之间的统计意义。一般来说,这个方面更快速高效,也更直接。从语言语料库层面,做场景领域语料的知识扩充。往往是最直接有效的方法,但是,这类方法,需要提前准备好大量的语料,用于语言模型的训练优化。对于一些识别的错误案例,也需要按照相应的话术,人工编写话术模板作相应的数据扩充,增强识别。
第三类方法中,从语音识别解码器角度,作多路解码或多系统融合。主要是能够解决单一线路识别不准的问题,采用多线路融合的策略,提升整体的识别性能。但是,从语音识别解码器角度来看,多路解码与多系统融合,需要提前准备好相应的资源,对于一些识别的错误案例,也需要针对性的优化处理。而这些针对性的优化处理,行业内往往通过人为干预的方式,进而影响到整个优化的闭环。
上述提到的三方面的技术,都有两个主要矛盾,一是需要针对优化的场景领域,提前准备好相应的资源,无法通过自身的迭代更新优化。二是数据不足时,就需要人为介入,流程处理逻辑影响到整个自动化闭环的形成。
为了解决数据不足的问题,针对于音频数据,通常会采用购买或者真实业务线上采集、或者对现有音频数据做一些数据增强的方式。针对于文本语料数据,通常会分领域,不断的通过采集的方式或者人工写一些固定话术的模板,丰富现有的领域语料。为了解决模型资源优化的事情,通常会不断的研发介入,做一些优化的实验,比如掺入一些数据,换个模型结构,验证在相同测试集上的识别性能。
基于前述分析可以看出,相关技术中的语音识别上对模型进行优化都无法避免人工介入,由于无法避免人工介入使得语音识别的相关模型无法更加智能化的进行自动迭代优化,无法提升模型训练的智能化程度。基于此,本申请主要提供一种模型训练方法,如图1所示,包括:
S101:基于至少一个音频数据以及至少一个文本数据,对声学模型以及语言模型进行训练,对训练后的声学模型以及语言模型进行解码测试得到性能分析结果以及日志信息;
S102:基于所述性能分析结果判断训练后的声学模型和/或语言模型是否满足对应的性能阈值;
S103:若所述训练后的声学模型和/或语言模型不满足对应的性能阈值,则基于所述日志信息,确定针对所述训练后的声学模型和/或语言模型的待处理问题;
S104:基于所述声学模型和/或语言模型的所述待处理问题,获取新增的至少一个音频数据和/或新增的至少一个文本数据,基于所述新增的至少一个音频数据和/或新增的至少一个文本数据对所述声学模型和/或语言模型进行重新训练。
总的来说,本申请主要是结合数据分析、数据增强、自动采集三个角度出发,将整个智能识别系统的优化形成一个闭环,且这个闭环是自动化的,即可自身不断的优化迭代。该闭环系统主要有三个关键点,其一、如何对当前语音识别系统性能以及优缺点做出自动化的有效判断,以及相应识别日志信息分析完后的有效解决方案。其二、针对怎样的语音数据作数据增强,增强的类型如何自动化的定义,以支持诸如噪音、口音等场景感知问题。其三、对于缺乏的文本语料数据,如何通过爬虫等自动采集的方式,从网络上自动获取到有效的语料。这三个环节在整个语音识别系统的闭环里,起着至关重要的作用。每个环节都不是一件容易处理的事情。
再具体一些,本申请首先通过种子语料,结合爬虫系统,配合搜索策略,自动从互联网上采集相应的文本和音频数据。以快速高效的解决业务领域语料不足、场景音频数据不足的问题。其次,对采集到的数据做针对性的自动化清洗,以筛选出更有价值的数据,用于后续的模型训练系统。然后,对筛选后的数据,结合现有的语料以及音频数据,做数据预处理。将预处理后的数据送入到模型训练模块,做声学模型和语言模型的训练。训练完成后,会自动的在相应的测试集合上作解码测试验证,以检查当前语音识别系统的优劣。解码测试之后,会输出相应的解码日志。日志会自动输入到日志信息分析模块,做相应的数据分析处理,以分析出当前识别未能解决的问题的原因以及相应的解决方法。如果是声学的问题,会再次送入到数据增强系统,做数据增强。比如对数据作加噪的处理,调速处理、混合背景音处理等。如果是语言模型问题,会再次送入到数据采集系统,结合错误样例,配合搜索爬虫策略,有效的展开数据扩充,以弥补领域和错误样例的支持不足。整个过程从开始到结束,再回到开始,不断的循环往复。不断的通过自身系统自主迭代,减少了人为干预。达到了闭环优化的目的。
结合上述分析,对本申请提供的具体实施例进行详细说明:
在执行S101之前,需要先获取至少一个音频数据以及至少一个文本数据。这部分的获取方法可以包括:
从网络侧采集得到候选文本数据以及候选音频数据,对所述候选文本数据以及候选音频数据进行预处理,得到所述至少一个文本数据以及所述至少一个音频数据。
可以理解为,首先通过种子语料,结合爬虫系统,配合搜索策略,自动从互联网上采集相应的文本和音频数据;从而能够快速高效的解决业务领域语料不足、场景音频数据不足的问题。其次,对采集到的数据做针对性的自动化清洗,以筛选出更有价值的数据。然后,对筛选后的数据,结合现有的语料以及音频数据,做数据预处理,得到所述至少一个音频数据以及至少一个文本数据。
其中,所述爬虫系统可以为:是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。通过爬虫系统可以从网络获取一系列文本数据,举例来说,比如通过搜索引擎里输入文字,可能会出来一系列与输入的文本相关的内容,通过爬虫系统可以获取与所述输入文本相关的标题、摘要、文本内容等信息,将这些作为文本的语料,也就是前述候选文本数据;
另外,获取音频数据及其对应的文本数据可以为获取关联的音频以及音视频的字幕,音频和字幕是对应的,把音频和字幕对应起来,作为候选音频数据及其对应的候选文本数据。
前述预处理,主要可以包括:
针对候选音频数据的预处理可以为:将音频数据转换为格式以及长度符合预设要求的格式以及长度;比如,较长的音频数据可以进行切分,得到符合预设要求的长度的一个或多个音频数据;再比如,音频数据的格式与预设要求的格式不同的情况下,可以转换为预设要求的格式。举例来说,音频数据可以有mp3格式、wave格式;预设要求的格式则可以为mp3格式,那么如果音频格式与其不符,可以将音频格式进行转换。
针对于候选文本数据进行的预处理可以包括:会对文本进行规范化处理,将特殊标记、特殊符号、非常规字符等清除掉。以及会对规范化后的文本数据,做分词处理,从而便于语言模型训练系统统计词频。
经过前述候选文本数据、音频数据的选择进而经过预处理,就可以得到前述S101所需的至少一个文本数据以及至少一个音频数据。
需要指出的是,至少一个音频数据可以存在与其对应的至少一个文本数据;换句话说,S101中的文本数据的数量可以大于音频数据的数量。
完成前述音频数据以及文本数据的获取以及预处理之后,就能够采用音频数据以及文本数据进行前述S101中的声学模型以及语言模型训练的处理。
关于声学模型的训练可以为:将音频数据以及与其对应的文本数据输入至声学模型中进行训练。以使得训练后的声学模型能够在输入某一音频数据的时候,能够得到其对应的文本数据。
关于语言模型的训练可以为:将文本数据,输入到语言模型进行训练;其中,在对语言模型进行训练时,按照设定好的模式,采用N元语法去统计词频,以及N元文法的同时出现的词频概率,并基于得到的语言模型,编译构建对应的加权有限状态机网络。
也就是说,所述语言模型用于在输入文本数据的时候,得到与文本数据关联度最高(或者同时出现的频率最高)的相关的一个或多个文本数据。再换句话说,对语言模型进行训练可以为统计与某一个文本数据同时出现的频率最高的一个或多个文本数据。
步骤S101中对训练后的声学模型以及语言模型进行解码测试得到性能分析结果以及日志信息,可以为:基于所述训练后的声学模型、训练后的语言模型以及预设的发音词典,对预设的语音测试集进行解码测试,得到针对所述训练后的声学模型以及训练后的语言模型的性能分析结果以及日志信息。
具体的,将训练后的声学模型、语言模型、发音词典三个打包输入到解码器,采用语音测试集,对所述声学模型以及语言模型作解码识别操作。针对于语音测试集,使用所述训练后的声学模型以及语言模型进行解码后,会输出语音识别的性能分析结果(或者可以称为性能报告),以及整体识别解码测试所对应的日志信息。
需要指出的是,性能分析结果可以为针对声学模型以及语言模型的共同分析结果;或者,可以为针对声学模型生成一个性能分析结果,以及针对语言模型也生成一个性能分析结果。
所述日志信息,则可以包含有针对所述声学模型以及语言模型的日志信息。
其中,所述日志信息中可以包含:在解码过程中,针对声学模型的问题,以及出现问题的一个或多个音频数据和/或出现问题的一个或多个文本数据;针对语言模型出现的问题,以及出现问题的一个或多个文本数据等。需要理解的是,日志信息中可以不仅仅包含上述内容,可能会存在更多的内容,只是本实施例中不进行穷举。
前述S102之后,即所述基于所述性能分析判断训练后的声学模型和/或语言模型是否满足对应的性能阈值之后,所述方法还包括:
若所述训练后的声学模型满足对应的性能阈值,则确定所述训练后的声学模型训练完成;
和/或,
若所述训练后的语言模型满足对应的性能阈值,则所述训练后的语言模型训练完成。
也就是说,可能存在情况是,根据前述性能分析结果,可以确定训练后的声学模型或者训练后的语言模型中的一个满足所述性能阈值,那么此时,就可以认为其中满足性能阈值的一个模型为训练成功。比如,声学模型达到其对应的性能阈值,但是语言模型没有达到,那么声学模型确定训练成功,后续需要对语言模型进行重新训练。
还可能存在的情况是,根据前述性能分析结果,确定训练后的声学模型以及训练后的语言模型均满足对应的性能阈值,那么就确定两个模型均训练成功,后续可以跟相关技术一样使用声学模型以及语言模型进行语音(也就是音频)识别处理。
关于采用前述声学模型与语言模型结合起来进行语音(或音频)识别处理,可以包括有:采用声学模型对输入的语音(或音频)进行识别,得到对应的输出文本;将输出文本输入到语言模型之后,得到与输入文本关联度最高的文本数据。
举例来说,用户语音讲出“水里有一只”的时候,通过声学模型能够识别得到相应的输出文本;然后将输出文本输入到语言模型中,得到与前述“水里”、“只”关联度最高的词,可能是“鱼”,那么最终输出的应该为“水里有一只鱼”。
前述S102之后,还可以确定若声学模型和/或语言模型不满足对应的性能阈值,那么就可以执行S103,也就是基于日志信息,确定针对所述训练后的声学模型和/或训练后的语言模型的待处理问题。
具体来说,可以存在以下几种情况:
如果确定声学模型不满足对应的性能阈值,那么就基于日志信息,确定针对所述训练后的声学模型的待处理问题;
如果训练后的语言模型不满足对应的性能阈值,那么就基于日志信息,确定针对所述训练后的语言模型的待处理问题;
如果训练后的声学模型以及语言模型均不满足对应的性能阈值,那么就基于日志信息,确定针对训练后的声学模型的待处理问题,以及针对训练后的语言模型的待处理问题。
进而,执行S104中,基于所述声学模型和/或语言模型的所述待处理问题,获取新增的至少一个音频数据和/或新增的至少一个文本数据,可以包括:
基于所述声学模型的待处理问题,模拟生成新增的至少一个音频数据及其对应的新增的至少一个文本数据;
和/或,
基于所述语言模型的待处理问题,从网络侧获取与所述待处理问题所对应的新增的至少一个文本数据。
分别来说,如果是声学模型的问题,就会分析是因为对噪声的鲁棒性不够,还是因为对中英文的支持不好,还是因为口音方言,还是因为语速过快等问题造成。可以通过相应的数据增强方法,自动的去模拟生产出一批数据(包含有新增的至少一个音频数据及其对应的新增的至少一个文本数据),用于做辅助性的迭代优化。
如果是语言模型的问题,就会分析当前语言模型的PPL,如果PPL过高,则说明语言模型语料需要做一些扩充。若是因为同音问题、专业词汇问题、以及替换错误问题。相应的,针对不同的问题可以配置对应的搜索策略,并且可以结合爬虫采集技术,从互联网以及现有数据库中,采集相关的话术数据,以优化语言模型。
需要指出的是,在本次获取新增的音频数据以及文本数据的时候,为针对待处理问题而获取的。以语言模型为例,如果是某些词语的关联出现问题,比如“一只”这样的量词,得到的关联结果为“笔记本”,那么可以针对“一只”以及“笔记本”再次从网络侧获取相关的语料作为新增的文本数据。以声学模型为例,如果是因为噪音等问题出现识别误差,那么可以采用模拟的方式再增加更多的音频数据及其对应的文本数据等等。
执行S104的时候,还可以包括:对所述新增的至少一个音频数据以及新增的至少一个文本数据进行数据清理,去除新增的至少一个音频数据以及新增的至少一个文本数据的冗余信息以及无效信息。
这里,数据清洗,可以包含有前述去除无效信息、去除冗余信息的处理,进一步还可以包含有前述预处理的相关操作;关于预处理的操作这里不再赘述。
关于去除冗余信息可以为某些文本数据或某些音频数据相同,那么可以仅保留一个文本数据或一个音频数据。关于无效信息,可以为与待处理问题相干度不高的数据,如某些文本数据的PPL过高,超出常规的预设阈值,这样会产生的直观感受为话术不通顺、较难理解。以及某些音频数据的信噪比不高,低于预设阈值,这样会产生的直观感受就是很难分清人声,环境嘈杂,导致音频内容无法辨识。通过本步骤的处理,将这部分冗余信息以及无效信息去除,从而基于保留下来的新僧的音频数据和/或文本数据进行后续处理。
最后,S104基于所述新增的至少一个音频数据和/或新增的至少一个文本数据对所述声学模型和/或语言模型进行重新训练;然后可以重复前述S101~S104的处理,同样的,如果执行S102之后,确定重新训练的声学模型满足对应的性能阈值的时候,可以确定声学模型训练成功;如果语言模型满足对应的性能阈值的时候,确定语言模型训练成功。如果某一个模型不满足性能阈值,则继续执行S103-S104。如此循环处理,直至声学模型以及语言模型均训练成功为止。
下面结合图2,对本实施例提供的方案再次进行说明:
对输入的语音数据和文本数据做相应的预处理;比如,针对于语音数据,会将音频先做格式检查,格式标准化,长语音切割为短语音,多通道处理为单通道,以及将音频数据处理为声学模型训练系统接受的规范输入格式等操作。针对于文本预处理,会对文本进行规范化处理,将特殊标记、特殊符号、非常规字符等清除掉。以及会对规范化后的文本数据,做分词处理,便于语言模型训练系统统计词频。
经过数据预处理后,会将音频数据,输入到声学模型训练系统,按照设定好的模式,采用特定的神经网路结构以及建模单元,进行声学模型训练。同时会将文本数据,输入到语言模型训练系统,按照设定好的模式,采用N元语法去统计词频,以及N元文法的同时出现的词频概率,并基于得到的语言模型,编译构建对应的加权有限状态机网络。经过这两个系统之后,会输出得到对应的声学模型资源和语言模型资源。
经过训练系统后,会将训练后的声学模型、训练后的语言模型、发音词典三个打包输入到解码器,并在语音测试集合上作解码识别操作。针对于语音测试集;解码测试后,会输出语音识别的性能报告以及整体识别解码的日志信息。若识别性能CER(CharacterError Rate,字符错误率)满足预期,则识别系统满足业务需求,可以通过,结束处理。反之,则进入迭代优化系统,开始作日志信息分析。
在日志信息分析时,会对解码后的识别结果做日志分析,会分析导致识别错误的案例的原因是什么。如果是声学模型的问题,就会分析是因为对噪声的鲁棒性不够,还是因为对中英文的支持不好,还是因为口音方言,还是因为语速过快等问题造成。并通过相应的数据增强方法,自动的去模拟生产出一批数据,做辅助性的迭代优化。如果是语言模型的问题,就会分析当前语言模型的PPL(perplexity,一种衡量概率分布或概率模型预测未知样本时的性能指标),如果PPL过高,则说明语言模型语料需要做一些扩充。若是因为同音问题、专业词汇问题、以及替换错误问题。会配置对应的搜索策略,结合爬虫采集技术,从互联网以及现有数据库中,采集相关的话术数据,以优化语言模型。
经过数据采集以及数据增强系统后,会得到大量的新增文本和语音数据,这些数据,会再次经过数据清洗系统,做一次清洗,以筛选出更有价值,对最终识别更有效的数据,去除无效的冗余干扰数据。处理模块,再次经过整个系统,如此循环往复,直至识别性能满足阈值要求,任务结束。
进一步地,针对前述方案,还可以包括有:
将新词发现技术融入至数据获取的处理过程中,通过去不断增加新词,更新发音词典,以达到优化识别的效果。
还可以包括:将新增的文本数据进行数据清洗后,直接用于语言模型训练和加权有限状态机资源编译,将得到的资源,用于多路解码的框架上。
具体的,所述多路解码框架的主要是在解码搜索阶段,可以同时加载多路的加权有限状态机资源,基于解码得到的不同路的搜索路径的计算得分,融合决策得到最终输出的识别结果。
本申请提供的方案,不仅可以通过自身迭代优化提升识别性能,而且减少了人为因素的干预。在整个闭环优化系统里,每一个模块的优化,都将带来整个系统的性能提升。比如在声学模型训练及语言模型训练模块,新的算法的更新,新的参数的变动,都将对最终的识别资源产生影响。在数据模块,互联网上有大量的音频和文本数据,自动化有效获取数据的方式,一方面可以节约数据获取成本,另一方面也提高了效率。在日志分析模块,将经验性的分析技术,融入到自动化的工具里,实现日志分析问题定位,以及解决方法输出,可以更高效的解决问题。因为往往数据日志分析这个过程,需要投入研发较大工作量。从整体操作来看,自动化的闭环优化系统,既减少了成本投入,也减少了手工的来回往复的搬运,实现了高效自主迭代优化。
可见,通过采用上述方案,通过对训练后的声学模型以及语言模型进行测试,得到性能分析结果以及相关的日志信息,进而在声学模型以及语言模型不满足预设性能阈值的情况下,能够对日志信息进行分析并得到新增的文本数据和/或音频数据,进而循环的对声学模型以及语言模型进行训练。如此,能够通过自身迭代优化提升识别性能,而且减少了由于人工介入所带来的人为因素的干预的情况,再进一步地,由于避免了人工介入使得语音识别的相关模型的训练更加智能化,并且能够适应更多的使用场景。
本申请主要提供一种模型训练装置,如图3所示,包括:
模型训练模块301,用于基于至少一个音频数据以及至少一个文本数据,对声学模型以及语言模型进行训练,对训练后的声学模型以及语言模型进行解码测试得到性能分析结果以及日志信息;
性能分析模块302,用于基于所述性能分析结果判断训练后的声学模型和/或语言模型是否满足对应的性能阈值;
日志分析模块303,用于若所述训练后的声学模型和/或语言模型不满足对应的性能阈值,则基于所述日志信息,确定针对所述训练后的声学模型和/或语言模型的待处理问题;
数据获取模块304,用于基于所述声学模型和/或语言模型的所述待处理问题,获取新增的至少一个音频数据和/或新增的至少一个文本数据;
所述模型训练模块301,还用于基于所述新增的至少一个音频数据和/或新增的至少一个文本数据对所述声学模型和/或语言模型进行重新训练。
本实施例中,所述模型训练装置可以设置在任意一种电子设备中,只要具备信息处理功能即可。比如,可以设置在个人电脑(PC)中,可以设置在服务器中,笔记本电脑、平板电脑、智能手机等任何设备中。
如图6所示,所述装置还包括:
数据预处理模块305,用于对所述候选文本数据以及候选音频数据进行预处理,得到所述至少一个文本数据以及所述至少一个音频数据;
所述数据获取模块304,用于从网络侧采集得到候选文本数据以及候选音频数据。
性能分析模块302,用于基于所述训练后的声学模型、训练后的语言模型以及预设的发音词典,对预设的语音测试集进行解码测试,得到针对所述训练后的声学模型以及训练后的语言模型的性能分析结果以及日志信息。
性能分析模块302,用于若所述训练后的声学模型满足对应的性能阈值,则确定所述训练后的声学模型训练完成;
和/或,
若所述训练后的语言模型满足对应的性能阈值,则所述训练后的语言模型训练完成。
所述数据获取模块,用于基于所述声学模型的待处理问题,模拟生成新增的至少一个音频数据及其对应的新增的至少一个文本数据;
和/或,
基于所述语言模型的待处理问题,从网络侧获取与所述待处理问题所对应的新增的至少一个文本数据。
所述模型训练装置,如图5所示,还包括:
数据清洗模块306,用于对所述新增的至少一个音频数据以及新增的至少一个文本数据进行数据清理,去除新增的至少一个音频数据以及新增的至少一个文本数据的冗余信息以及无效信息。
可见,通过采用上述方案,通过对训练后的声学模型以及语言模型进行测试,得到性能分析结果以及相关的日志信息,进而在声学模型以及语言模型不满足预设性能阈值的情况下,能够对日志信息进行分析并得到新增的文本数据和/或音频数据,进而循环的对声学模型以及语言模型进行训练。如此,能够通过自身迭代优化提升识别性能,而且减少了由于人工介入所带来的人为因素的干预的情况,再进一步地,由于避免了人工介入使得语音识别的相关模型的训练更加智能化,并且能够适应更多的使用场景。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备。图6为本发明实施例电子设备的硬件组成结构示意图,包括:
通信接口91,能够与其它设备比如网络设备等进行信息交互;
处理器92,与所述通信接口91连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述信息处理装置的一个或多个技术方案提供的方法。而所述计算机程序存储在存储器93上。
当然,实际应用时,信息处理装置中的各个组件通过总线系统94耦合在一起。
可理解,总线系统94用于实现这些组件之间的连接通信。总线系统94除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统94。
本发明实施例中的存储器93用于存储各种类型的数据以支持信息处理装置的操作。这些数据的示例包括:用于在信息处理装置上操作的任何计算机程序。
可以理解,存储器93可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。
上述本发明实施例揭示的方法可以应用于处理器92中,或者由处理器92实现。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器93,上述计算机程序可由终端的处理器92执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种模型训练方法,其特征在于,所述方法包括:
基于至少一个音频数据以及至少一个文本数据,对声学模型以及语言模型进行训练,对训练后的声学模型以及语言模型进行解码测试得到性能分析结果以及日志信息;
基于所述性能分析结果判断训练后的声学模型和/或语言模型是否满足对应的性能阈值;
若所述训练后的声学模型和/或语言模型不满足对应的性能阈值,则基于所述日志信息,确定针对所述训练后的声学模型和/或语言模型的待处理问题;
基于所述声学模型和/或语言模型的所述待处理问题,获取新增的至少一个音频数据和/或新增的至少一个文本数据,基于所述新增的至少一个音频数据和/或新增的至少一个文本数据对所述声学模型和/或语言模型进行重新训练。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从网络侧采集得到候选文本数据以及候选音频数据,对所述候选文本数据以及候选音频数据进行预处理,得到所述至少一个文本数据以及所述至少一个音频数据。
3.根据权利要求1所述的方法,其特征在于,所述对训练后的声学模型以及语言模型进行解码测试得到性能分析结果以及日志信息,包括:
基于所述训练后的声学模型、训练后的语言模型以及预设的发音词典,对预设的语音测试集进行解码测试,得到针对所述训练后的声学模型以及训练后的语言模型的性能分析结果以及日志信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述性能分析判断训练后的声学模型和/或语言模型是否满足对应的性能阈值之后,所述方法还包括:
若所述训练后的声学模型满足对应的性能阈值,则确定所述训练后的声学模型训练完成;
和/或,
若所述训练后的语言模型满足对应的性能阈值,则所述训练后的语言模型训练完成。
5.根据权利要求1所述的方法,其特征在于,所述基于所述声学模型和/或语言模型的所述待处理问题,获取新增的至少一个音频数据和/或新增的至少一个文本数据,包括:
基于所述声学模型的待处理问题,模拟生成新增的至少一个音频数据及其对应的新增的至少一个文本数据;
和/或,
基于所述语言模型的待处理问题,从网络侧获取与所述待处理问题所对应的新增的至少一个文本数据。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述新增的至少一个音频数据以及新增的至少一个文本数据进行数据清理,去除新增的至少一个音频数据以及新增的至少一个文本数据的冗余信息以及无效信息。
7.一种模型训练装置,其特征在于,所述装置包括:
模型训练模块,用于基于至少一个音频数据以及至少一个文本数据,对声学模型以及语言模型进行训练,对训练后的声学模型以及语言模型进行解码测试得到性能分析结果以及日志信息;
性能分析模块,用于基于所述性能分析结果判断训练后的声学模型和/或语言模型是否满足对应的性能阈值;
日志分析模块,用于若所述训练后的声学模型和/或语言模型不满足对应的性能阈值,则基于所述日志信息,确定针对所述训练后的声学模型和/或语言模型的待处理问题;
数据获取模块,用于基于所述声学模型和/或语言模型的所述待处理问题,获取新增的至少一个音频数据和/或新增的至少一个文本数据;
所述模型训练模块,还用于基于所述新增的至少一个音频数据和/或新增的至少一个文本数据对所述声学模型和/或语言模型进行重新训练。
8.根据权利要求7所述的模型训练装置,其特征在于,所述装置还包括:
数据预处理模块,用于对所述候选文本数据以及候选音频数据进行预处理,得到所述至少一个文本数据以及所述至少一个音频数据;
所述数据获取模块,用于从网络侧采集得到候选文本数据以及候选音频数据。
9.根据权利要求7所述的模型训练装置,其特征在于,所述性能分析模块,用于基于所述训练后的声学模型、训练后的语言模型以及预设的发音词典,对预设的语音测试集进行解码测试,得到针对所述训练后的声学模型以及训练后的语言模型的性能分析结果以及日志信息。
10.根据权利要求7所述的模型训练装置,其特征在于,所述性能分析模块,用于若所述训练后的声学模型满足对应的性能阈值,则确定所述训练后的声学模型训练完成;
和/或,
若所述训练后的语言模型满足对应的性能阈值,则所述训练后的语言模型训练完成。
11.根据权利要求7所述的模型训练装置,其特征在于,所述数据获取模块,用于基于所述声学模型的待处理问题,模拟生成新增的至少一个音频数据及其对应的新增的至少一个文本数据;
和/或,
基于所述语言模型的待处理问题,从网络侧获取与所述待处理问题所对应的新增的至少一个文本数据。
12.根据权利要求7所述的模型训练装置,其特征在于,所述模型训练装置,还包括:
数据清洗模块,用于对所述新增的至少一个音频数据以及新增的至少一个文本数据进行数据清理,去除新增的至少一个音频数据以及新增的至少一个文本数据的冗余信息以及无效信息。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储介质,其特征在于,所述存储介质用于存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
CN201911125492.6A 2019-11-18 2019-11-18 一种模型训练方法、装置、电子设备及存储介质 Pending CN110853628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911125492.6A CN110853628A (zh) 2019-11-18 2019-11-18 一种模型训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911125492.6A CN110853628A (zh) 2019-11-18 2019-11-18 一种模型训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110853628A true CN110853628A (zh) 2020-02-28

Family

ID=69600835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911125492.6A Pending CN110853628A (zh) 2019-11-18 2019-11-18 一种模型训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110853628A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405122A (zh) * 2020-03-18 2020-07-10 苏州科达科技股份有限公司 音频通话测试方法、装置及存储介质
CN111667821A (zh) * 2020-05-27 2020-09-15 山西东易园智能家居科技有限公司 一种语音识别系统及识别方法
CN111798838A (zh) * 2020-07-16 2020-10-20 上海茂声智能科技有限公司 一种提高语音识别准确率的方法、系统、设备及存储介质
CN111951789A (zh) * 2020-08-14 2020-11-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质
CN112017634A (zh) * 2020-08-06 2020-12-01 Oppo(重庆)智能科技有限公司 数据的处理方法、装置、设备以及存储介质
CN112818680A (zh) * 2020-07-10 2021-05-18 腾讯科技(深圳)有限公司 语料的处理方法、装置、电子设备及计算机可读存储介质
CN113012683A (zh) * 2021-02-02 2021-06-22 虫洞创新平台(深圳)有限公司 语音识别方法及装置、设备、计算机可读存储介质
CN114974221A (zh) * 2022-04-29 2022-08-30 中移互联网有限公司 语音识别模型训练方法及装置、计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
US20040210434A1 (en) * 1999-11-05 2004-10-21 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
CN102236639A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 更新语言模型的系统和方法
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
CN109256152A (zh) * 2018-11-08 2019-01-22 上海起作业信息科技有限公司 语音评分方法及装置、电子设备、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
US20040210434A1 (en) * 1999-11-05 2004-10-21 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
CN102236639A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 更新语言模型的系统和方法
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
CN109256152A (zh) * 2018-11-08 2019-01-22 上海起作业信息科技有限公司 语音评分方法及装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李雪涛等: "基于Web网页语料构建动态语言模型", 《信息技术》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405122A (zh) * 2020-03-18 2020-07-10 苏州科达科技股份有限公司 音频通话测试方法、装置及存储介质
CN111667821A (zh) * 2020-05-27 2020-09-15 山西东易园智能家居科技有限公司 一种语音识别系统及识别方法
CN112818680A (zh) * 2020-07-10 2021-05-18 腾讯科技(深圳)有限公司 语料的处理方法、装置、电子设备及计算机可读存储介质
CN111798838A (zh) * 2020-07-16 2020-10-20 上海茂声智能科技有限公司 一种提高语音识别准确率的方法、系统、设备及存储介质
CN112017634A (zh) * 2020-08-06 2020-12-01 Oppo(重庆)智能科技有限公司 数据的处理方法、装置、设备以及存储介质
CN111951789A (zh) * 2020-08-14 2020-11-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质
CN111951789B (zh) * 2020-08-14 2021-08-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质
CN113012683A (zh) * 2021-02-02 2021-06-22 虫洞创新平台(深圳)有限公司 语音识别方法及装置、设备、计算机可读存储介质
CN114974221A (zh) * 2022-04-29 2022-08-30 中移互联网有限公司 语音识别模型训练方法及装置、计算机可读存储介质
CN114974221B (zh) * 2022-04-29 2024-01-19 中移互联网有限公司 语音识别模型训练方法及装置、计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110853628A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN108305634B (zh) 解码方法、解码器及存储介质
CN106297800B (zh) 一种自适应的语音识别的方法和设备
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
US20110015927A1 (en) System and method for efficient laser processing of a moving web-based material
CN108710704B (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN110853649A (zh) 基于智能语音技术的标签提取方法、系统、设备及介质
EP2387031A1 (en) Methods and systems for grammar fitness evaluation as speech recognition error predictor
CN111339278B (zh) 训练话术生成模型、生成应答话术的方法和装置
US20070067171A1 (en) Updating hidden conditional random field model parameters after processing individual training samples
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
Jacob Modelling speech emotion recognition using logistic regression and decision trees
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN114999463B (zh) 语音识别方法、装置、设备及介质
CN112885336A (zh) 语音识别系统的训练、识别方法、装置、电子设备
CN114330371A (zh) 基于提示学习的会话意图识别方法、装置和电子设备
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Le et al. Automatic quality estimation for speech translation using joint ASR and MT features
CN115527551A (zh) 语音标注质量评价方法、装置、电子设备和存储介质
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
CN114254628A (zh) 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质
CN112420022A (zh) 一种噪声提取方法、装置、设备和存储介质
KR20110071742A (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Building 14, Tengfei science and Technology Park, 388 Xinping street, Suzhou Industrial Park, Suzhou area, China (Jiangsu) pilot Free Trade Zone, Suzhou, Jiangsu 215000

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215024 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228

RJ01 Rejection of invention patent application after publication