CN112767942A - 语音识别引擎适配方法、装置、电子设备及存储介质 - Google Patents
语音识别引擎适配方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112767942A CN112767942A CN202011642709.3A CN202011642709A CN112767942A CN 112767942 A CN112767942 A CN 112767942A CN 202011642709 A CN202011642709 A CN 202011642709A CN 112767942 A CN112767942 A CN 112767942A
- Authority
- CN
- China
- Prior art keywords
- corpus
- speech recognition
- voice
- recognition model
- recognition engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000006978 adaptation Effects 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000006243 chemical reaction Methods 0.000 claims abstract description 48
- 230000003044 adaptive effect Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 13
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种语音识别引擎适配方法、装置、电子设备及存储介质,涉及语音交互领域,该方法包括:确定语音识别引擎,语音识别引擎包括语音识别模型;获取原始训练语料,基于原始训练语料,语音识别模型及预设的转换函数确定用于语音识别模型的增强训练语料;基于增强训练语料将语音识别模型训练至收敛,得到训练好的适配语音识别模型;将语音识别模型替换为适配语音识别模型,本申请所提供的语音识别引擎适配方法可以使得切换后的识别引擎具有较好的识别表现,同时无需对对话系统的其他模块进行调整,一定程度上降低了对切换后的语音识别引擎的适配难度。
Description
技术领域
本申请涉及语音交互领域,具体而言,涉及一种语音识别引擎适配方法、装置、电子设备及存储介质。
背景技术
随着数字化和智能化技术的深入发展,越来越多的智能设备应用在人们的日常生活中。目前,智能音箱,智能手机,智能机器人等智能设备支持语音交互功能,可以通过人机语音对话实现控制设备、订票、客需等功能。
智能设备用于实现语音交互功能的对话系统一般包括语音识别(AutomaticSpeech Recognition,ASR)、语言理解(Natural Language Understanding,NLU),对话管理(Dialog Management,DM),自然语言的生成(Natural Language Generating,NLG)和语音合成(Text To Speech,TTS)等功能模块。其中,语音识别模块对于语音交互功能的实现尤其重要,语音识别模块如果出现识别错误,对话系统的其他功能模块即便准确地完成相应的处理,也会使得语音交互出现答非所问的情况,严重影响用户的使用体验。
现有技术中,智能设备的对话系统中通常具有多种语音识别引擎(例如,谷歌语音识别引擎、科大讯飞语音识别引擎、百度语音识别引擎等)可供选择。不同的语音识别引擎具有不同的识别表现。当前,在对话系统中,切换语音识别引擎后,难以对切换后的语音识别引擎进行适配,需要对对话系统的其他功能模块进行相应的调整,才能保证切换后的语音识别引擎具有较好的识别表现。
发明内容
有鉴于此,本发明的主要目的在于提供一种语音识别引擎适配方法、装置、电子设备及存储介质,用以在无需对对话系统的其他模块进行调整的基础上,实现切换后的语音识别引擎的适配,降低语音识别引擎的适配难度,同时保证切换后的语音识别引擎具有较好的识别表现。
本申请提供一种语音识别引擎适配方法,所述方法包括:确定语音识别引擎,所述语音识别引擎包括语音识别模型;获取原始训练语料,基于所述原始训练语料,所述语音识别模型及预设的转换函数确定用于所述语音识别模型的增强训练语料;基于所述增强训练语料将所述语音识别模型训练至收敛,得到训练好的适配语音识别模型;将所述语音识别模型替换为所述适配语音识别模型。
在本申请实施例中,在用户切换语音识别引擎后,通过确定语音识别引擎及其所包括的语音识别模型;获取原始训练语料,并基于原始训练语料,语音识别模型及预设的转换函数确定用于该语音识别模型的增强训练语料,基于增强训练语料将语音识别模型训练至收敛得到训练好的适配语音识别模型,然后将语音识别模型替换为适配语音识别模型,由此,可以使得切换后的识别引擎具有较好的识别表现,同时无需对对话系统的其他模块进行调整,一定程度上降低了对切换后的语音识别引擎的适配难度。
一实施例中,所述确定语音识别引擎,包括:基于用户的选择指令,从多个不同的语音识别引擎中确定出所述语音识别引擎,其中,不同的语音识别引擎各自的语音识别模型不同。
在本申请实施例中,用户可以根据自身需求,从多个语音识别引擎中,选择需要的语音识别引擎,对于不同场景,切换合适的语音识别引擎可以减小语音识别错误率,提高识别效率。
一实施例中,所述的语音识别引擎适配方法,包括,所述基于所述原始训练语料,所述语音识别模型及与预设的转换函数确定用于所述语音识别模型的增强训练语料,包括:获得标准语料库,所述标准语料库包括语音语料及与所述语音语料对应的标准文本;基于所述语音识别模型对所述语音语料进行识别,得到所述语音语料对应的识别文本;将所述语音语料对应的所述识别文本与所述标准文本进行对比;基于对比结果,通过编辑距离算法得到所述语音语料的标准文本中的每个词的转换概率;将所述转换概率代入所述预设的转换函数中,并通过计算得到所述语音识别模型对所述标准语料库进行语音识别的第一误差值;基于所述第一误差值确定所述原始训练语料的增强训练语料。
在本申请实施例中,标准语料库作为对比标准,语音识别模型对标准语料库中的语音语料进行识别,获得识别文本;通过将识别文本与标准语料库中的标准文本进行对比;基于对比结果,通过编辑距离算法得到所述语音语料的标准文本中的每个词的转换概率;将所述转换概率代入所述预设的转换函数中,并通过计算得到所述语音识别模型对所述标准语料库进行语音识别的第一误差值;基于所述第一误差值确定所述原始训练语料的增强训练语料,由此,可以使得基于增强训练语料将语音识别模型训练至收敛,所得到的训练好的适配语音识别模型,具有较好的识别表现。
一实施例中,所述语音语料包括不同录音环境及不同录音口音的录音内容。
在本申请实施例中,通过采用不同的录音环境和录音口音的录音内容作为语音语料,可以在一定程度上增加增强训练语料的丰富性,由此,进一步使得基于增强训练语料将语音识别模型训练至收敛,所得到的训练好的适配语音识别模型,具有较好的识别表现。
一实施例中,所述基于所述第一误差值确定所述原始训练语料的增强训练语料,包括:对所述原始训练语料进行随机排序处理;利用所述预设的转换函数和轮盘赌算法对随机排序结果进行处理,得到新训练语料;确定所述语音识别引擎对所述新训练语料进行语音识别的第二误差值;在确定所述第二误差值小于第一误差值时,确定所述新训练语料为所述增强训练语料。
在本申请实施例中,通过对原始训练语料进行随机排序处理;利用预设的转换函数和轮盘赌算法对随机排序结果进行处理,得到新训练语料;确定语音识别引擎对新训练语料进行语音识别的第二误差值;在确定第二误差值小于第一误差值时,确定新训练语料为增强训练语料。其中,第二误差值小于第一误差值意味着新训练语料更适用于对语音识别模型进行训练。利用所述预设转换函数和轮盘赌算法能在一定程度上减小新训练语料的所述语音识别误差值,轮盘算法可以让所述新训练语料里的识别易错文本有效转换成正确文本,保证所述新训练语料的训练有效性。
第二方面,本申请提供了一种语音识别引擎适配装置,包括:确定模块,用于确定语音识别引擎,所述语音识别引擎包括语音识别模型;获取模块,用于获取原始训练语料,基于所述原始训练语料,所述语音识别模型及预设的转换函数确定用于所述语音识别模型的增强训练语料;训练模块,用于基于所述增强训练语料将所述语音识别模型训练至收敛,得到训练好的适配语音识别模型;替换模块,用于将所述语音识别模型替换为所述适配语音识别模型。
一实施例中,所述确定模块还用于基于用户的选择指令,从多个不同的语音识别引擎中确定出所述语音识别引擎,其中,不同的语音识别引擎各自的语音识别模型不同。
一实施例中,所述获取模块还用于获得标准语料库,所述标准语料库包括语音语料及与所述语音语料对应的标准文本;基于所述语音识别模型对所述语音语料进行识别,得到所述语音语料对应的识别文本;将所述语音语料对应的所述识别文本与所述标准文本进行对比;基于对比结果,通过编辑距离算法得到所述语音语料的标准文本中的每个词的转换概率;将所述转换概率代入所述预设的转换函数中,并通过计算得到所述语音识别模型对所述标准语料库进行语音识别的第一误差值;基于所述第一误差值确定所述原始训练语料的增强训练语料。
一实施例中,所述语音语料包括不同录音环境及不同录音口音的录音内容。
一实施例中,所述获取模块还用于对所述原始训练语料进行随机排序处理;利用所述预设的转换函数和轮盘赌算法对随机排序结果进行处理,得到新训练语料;确定所述语音识别引擎对所述新训练语料进行语音识别的第二误差值;在确定所述第二误差值小于第一误差值时,确定所述新训练语料为所述增强训练语料。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式的方法。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被计算机运行时,执行如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的语音识别引擎适配方法流程图。
图2为本申请一实施例提供的语音识别引擎适配装置的结构框图。
图3为本申请一实施例提供的电子设备的内部结构示意图。
图标:语音识别引擎适配装置20;确定模块21;获取模块22;训练模块23;替换模块24。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着数字化和智能化技术的深入发展,越来越多的智能设备应用在人们的日常生活中。目前,智能音箱,智能手机,智能机器人等智能设备支持语音交互功能,可以通过人机语音对话实现控制设备、订票、客需等功能。
智能设备用于实现语音交互功能的对话系统一般包括语音识别(AutomaticSpeech Recognition,ASR)、语言理解(Natural Language Understanding,NLU),对话管理(Dialog Management,DM),自然语言的生成(Natural Language Generating,NLG)和语音合成(Text To Speech,TTS)等功能模块。其中,语音识别模块对于语音交互功能的实现尤其重要,语音识别模块如果出现识别错误,对话系统的其他功能模块即便均准确地完整相应的处理,也会使得语音交互出现答非所问的情况,严重影响用户的使用体验。
现有技术中,智能设备的对话系统中通常具有多种语音识别引擎(例如,谷歌语音识别引擎、科大讯飞语音识别引擎、百度语音识别引擎等)可供选择。不同的语音识别引擎具有不同的识别表现。当前,在对话系统中,切换语音识别引擎后,难以对切换后的语音识别引擎进行适配,需要对对话系统的其他功能模块进行相应的调整,才能保证切换后的语音识别引擎具有较好的识别表现。
本申请实施例提供一种语音识别引擎适配方法、装置、电子设备及存储介质,用以在无需对对话系统的其他模块进行调整的基础上,实现切换后的语音识别引擎的适配,降低语音识别引擎的适配难度,同时保证切换后的语音识别引擎具有较好的识别表现。
接下来结合附图进行详细的介绍。
请参阅图1,本申请一实施例提供的一种语音识别引擎适配方法,该语音识别引擎适配方法可以包括如下步骤。
步骤S101,确定语音识别引擎,所述语音识别引擎包括语音识别模型。
本实施例中,智能设备的对话系统可以提供有多个不同的语音识别引擎供用户选择,每个语音识别引擎均包括(对应)一个语音识别模型。智能设备可以设置有人机交互界面,用户可以根据自身的需要从多个语音识别引擎中选择出一个语音识别引擎。也就是说,步骤S101可以包括:基于用户的选择指令,从多个不同的语音识别引擎中确定出语音识别引擎,其中,语音识别引擎各自的语音识别模型不同。
可以理解,不同语音识别引擎在不同的场景,例如:酒店、餐厅等场景中的语音识别精度存在差别。多个不同的语音识别引擎可以是对应不同应用场景的语音识别引擎。
当然,多个不同的语音识别引擎也可以是不同厂商提供的语音识别引擎,包括但不限于百度、讯飞、搜狗、谷歌等语音识别引擎。
步骤S102:获取原始训练语料,基于所述原始训练语料,所述语音识别模型及预设的转换函数确定用于所述语音识别模型的增强训练语料。
原始训练语料用于对多个不同的语音识别引擎各自的语音识别模型进行训练。原始训练语料可以预先设置。
一实施例中,基于所述原始训练语料,所述语音识别模型及与预设的转换函数确定用于所述语音识别模型的增强训练语料,可以包括以下步骤。
步骤S201,获得标准语料库,所述标准语料库包括语音语料及与所述语音语料对应的标准文本。
一实施例中,标准语料库包括n条语音标注对(语音语料以及对应的标注的标准文本)。标准语料库可以看作是一个数据集,例如,表示为{pair1,pair2,...,pairn}。每个pair均包括语音语料和对应的标注的标准文本。例如,第i个语音标注对可以表示为(Voicei,Texti)。标注的标准文本Texti可以包括若干独立划分的词,因此,Texti可以表示为其中,i表示第i个语音语料的标注的标准文本,k为词序号,max表示允许的句子的最大词量。本实施例中,max为1000。对于词序号排在max之后的词,可以进行舍弃。可以理解,其他实施例中,也可以根据需要设定max的取值,本申请并不以此为限。标准语料库中与语音语料对应的标准文本可以是通过人工标注正确的语音转文字的结果。该标准语料库的具体规格(或者说,录音指标)可以如表1所示:
指标 | 要求 |
格式 | 16kHz,16bit,wav,单声道 |
录音环境 | 安静室内,正常工作场景,酒店场景等 |
录音内容 | 通用口语;交互;家居命令;方言等 |
录音设备 | 音箱、手机、电话等 |
总时长 | 800小时 |
标准文本的标注 | 句准确率99%以上 |
表1
步骤S202,基于所述语音识别模型对所述语音语料进行识别,得到所述语音语料对应的识别文本。
可以理解,语音识别的具体过程为本领域现有技术,本申请在此不展开介绍。本实施例中,基于语音识别模型对语音语料进行识别得到的识别结果可以表示ResultASR对应地,识别结果可以包括n条语音识别对。每条语音识别对包括语音语料以及对应的识别文本。例如,第i个语音识别对可以表示为(Voicex,ASRTexti)语音识别文本ASRTexti -可以包括若干独立划分的词。因此,ASRTexti -可以表示为其中i表示第i个语料的识别文本,k为词序号,max表示允许的句子的最大词量。本实施例中,max为1000。对于词序号排在max之后的词,可以进行舍弃。
步骤S203,将所述语音语料对应的所述识别文本与所述标准文本进行对比。
本实施例中,可以将识别结果ResultASR和标准语料库Corpusvoice做对比,具体地,将每一具体语音语料的ASRTexti与对应的Texti进行对比。由此,可以获知当前语音识别引擎的词错误率(WER,word-error-rate),句错误率等,以及确定利用当前语音识别引擎进行语音识别易被增、删、改的字词等。
步骤S204,基于对比结果,通过编辑距离算法得到所述语音语料的标准文本中的每个词的转换概率;将所述转换概率代入所述预设的转换函数中,并通过计算得到所述语音识别模型对所述标准语料库进行语音识别的第一误差值。
可以理解,基于现有的编辑距离算法(https://en.wikipedia.org/wiki/ Levenshtein_distance),可以对任意两个句子,例如,句子和句子利用最少的替换(记为WS)、删除(记为WD)、插入(记为WI)的操作,将句子a转换为句子b。因此,本实施例中,可以基于对比结果,通过编辑距离算法得到所述语音语料的标准文本中的每个词的转换概率;将所述转换概率代入所述预设的转换函数中,并通过现有词误差率算法(https://en.wikipedia.org/wiki/Word_error_rate)计算得到所述语音识别模型对所述标准语料库进行语音识别的词错误率,即第一误差值。
具体地,本实施例中,预设的转换函数可以包括多个参数{weightword_i,word_j},其中,word为一词语,选自预设的词典集合Dict。词典集合Dict可以由常用词构成(特别的,该词典集合Dict还包括空串,记为NULL)。在词典集合Dict中设置空串是为了计算在语音识别过程中遗漏识别某些字词的情况。词典集合Dict包含的词量记为DictSize。需要说明的是,i和j在[1,DictSize]中选择。预设的转换函数的参数大小为DictSize×DictSize。
在对标准语料库Corpusvoice中的所有句子和识别结果ResultASR的句子均进行编辑距离计算后,可以得到如下参数值:
其中,当word_j为NULL时,
其中,当word_i为NULL时,
由此,便可以确定通过该语音识别引擎进行语音识别时,word_i对应的语音语料被识别成word_j的参数值,weightword_i,word_j即为对应的转换概率,以及该语音识别引擎的词错误率,作为第一误差值,记作WERASR。
步骤S205,基于所述第一误差值确定所述原始训练语料的增强训练语料。
需要说明的是,现有的对话系统通常采取机器学习方法,基于数据驱动的策略构建语音识别模型。基于训练数据进行模型训练及学习,一般要求训练集的数据分配和内容与实际的环境输入类似。因此,在确定第一误差值后,可以基于第一误差值确定原始训练语料的增强训练语料,使得增强训练语料与所确定的语音识别引擎的更加匹配,从而能够更好地对该语音识别引擎的语音识别模型进行训练。
本实施例中,原始训练语料可以表示为DataSet,包含n条文本数据{Texti″},其中,n为大于1的正整数。{Texti″}包括若干独立划分的词,其可以表示为其中i表示第i个训练语料的文本,k为词序号,max表示允许的句子的最大词量。
步骤S205可以包括如下步骤。
步骤S501,对原始训练语料进行随机排序处理。
具体地,对原始训练语料DataSet中的n条文本数据,进行随机排序。
步骤S502,利用所述预设的转换函数和轮盘赌算法对随机排序结果进行处理,得到新训练语料。
具体地,首先,获取第i条文本数据其中,i为小于n的正整数。接着,对于第i条文本数据中的每个词基于预设的转换函数(转换函数包括多个参数{weightword_a,word_b},其中,)及轮盘赌算法,将转为可能的word_b,以此类推,完成第i条文本数据的处理后,采用所得的处理结果替换原始训练数据,得到新训练语料DataSetimproved。
步骤S503,确定所述语音识别引擎对所述新训练语料进行语音识别的第二误差值。
可以理解,确定语音识别引擎对新训练语料DataSetimproved进行语音识别的第二误差值WERcorpus_improved与前述确定第一误差值WERASR的过程类似,相同及相似的内容可以参前述确定第一误差值WERASR的部分,在此不再赘述。
步骤S504,在确定所述第二误差值小于第一误差值时,确定所述新训练语料为所述增强训练语料。
具体地,对比第一误差值WERASR和第二误差值若则确定新训练语料为增强训练语料DataSetimproved;否则,依次对第i+1条(其中,i=(i+1)mod n文本数据进行步骤S502至步骤S504,直至使得得到增强训练语料DataSetimproved。
本实施例中,通过上述过程可对句子中的单词进行增、删、改等操作,且预设的转换函数的参数能够保证生成与所选的语音识别引擎类似的结果,由此,生成类似的训练语料。步骤S504能够保证增强训练集中整体的词错误的分布类似。
步骤S103:基于所述增强训练语料将所述语音识别模型训练至收敛,得到训练好的适配语音识别模型。
可以理解,模型训练的具体过程为本领域现有技术,在此不展开说明。
步骤S104:将所述语音识别模型替换为所述适配语音识别模型。
在本申请实施例中,在用户切换语音识别引擎后,通过确定语音识别引擎及其所包括的语音识别模型;获取原始训练语料,并基于原始训练语料,语音识别模型及预设的转换函数确定用于该语音识别模型的增强训练语料,基于增强训练语料将语音识别模型训练至收敛得到训练好的适配语音识别模型,然后将语音识别模型替换为适配语音识别模型,由此,可以使得切换后的识别引擎具有较好的识别表现,同时无需对对话系统的其他模块进行调整,一定程度上降低了对切换后的语音识别引擎的适配难度。
请参阅图2,基于同一发明构思,本申请一实施例还提供一种语音识别引擎适配装置20。本实施例中,语音识别引擎适配装置20可以包括确定模块21,获取模块22,训练模块23及替换模块24。
确定模块21用于确定语音识别引擎,所述语音识别引擎包括语音识别模型。
获取模块22,用于获取原始训练语料,基于所述原始训练语料,所述语音识别模型及预设的转换函数确定用于所述语音识别模型的增强训练语料;训练模块23,用于基于所述增强训练语料将所述语音识别模型训练至收敛,得到训练好的适配语音识别模型;替换模块24,用于将所述语音识别模型替换为所述适配语音识别模型。
在本申请实施例中,所述确定模块还用于基于用户的选择指令,从多个不同的语音识别引擎中确定出所述语音识别引擎,其中,不同的语音识别引擎各自的语音识别模型不同。
在本申请实施例中,所述获取模块22还用于获得标准语料库,所述标准语料库包括语音语料及与所述语音语料对应的标准文本;基于所述语音识别模型对所述语音语料进行识别,得到所述语音语料对应的识别文本;将所述语音语料对应的所述识别文本与所述标准文本进行对比;基于对比结果,通过编辑距离算法得到所述语音语料的标准文本中的每个词的转换概率;将所述转换概率代入所述预设的转换函数中,并通过计算得到所述语音识别模型对所述标准语料库进行语音识别的第一误差值;基于所述第一误差值确定所述原始训练语料的增强训练语料。
在本申请实施例中,所述语音语料包括不同录音环境及不同录音口音的录音内容。
在本申请实施例中,所述获取模块22还用于对所述原始训练语料进行随机排序处理;利用所述预设的转换函数和轮盘赌算法对随机排序结果进行处理,得到新训练语料;确定所述语音识别引擎对所述新训练语料进行语音识别的第二误差值;在确定所述第二误差值小于第一误差值时,确定所述新训练语料为所述增强训练语料。
可以理解,本申请提供的语音识别引擎适配装置20与本申请提供的语音识别引擎适配方法对应,为使说明书简洁,相同或相似部分可以参照语音识别引擎适配方法部分的内容,在此不再赘述。
上述语音识别引擎适配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于服务器中的处理器中,也可以以软件形式存储于服务器中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
上述语音识别引擎适配方法和/或语音识别引擎适配装置可以实现为一种计算机可读指令的形式,计算机可读指令可以在如图3所示的电子设备上运行。
本申请实施例还提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,该处理器执行该程序时实现上述的语音识别引擎适配方法。
图3为根据本申请的一个实施例的电子设备的内部结构示意图,电子设备可以为服务器。请参阅图3,该电子设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、输入装置、显示屏和网络接口。其中,该电子设备的非易失性存储介质可存储操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行本申请各实施例的一种语音识别引擎适配方法,该方法的具体实现过程可参考图1的具体内容,在此不再赘述。该电子设备的处理器用于提供计算和控制能力,支撑整个电子设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种语音识别引擎适配方法。电子设备的输入装置用于各个参数的输入,电子设备的显示屏用于进行显示,电子设备的网络接口用于进行网络通信。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
基于同一发明构思,本申请实施例提供的一种计算机可读存储介质,其上存储有计算机可读指令,该程序被处理器执行时实现上述的语音识别引擎适配方法中的步骤。
如此处所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音识别引擎适配方法,其特征在于,包括:
确定语音识别引擎,所述语音识别引擎包括语音识别模型;
获取原始训练语料,基于所述原始训练语料,所述语音识别模型及预设的转换函数确定用于所述语音识别模型的增强训练语料;
基于所述增强训练语料将所述语音识别模型训练至收敛,得到训练好的适配语音识别模型;
将所述语音识别模型替换为所述适配语音识别模型。
2.根据权利要求1所述的语音识别引擎适配方法,其特征在于,所述确定语音识别引擎,包括:
基于用户的选择指令,从多个不同的语音识别引擎中确定出所述语音识别引擎,其中,不同的语音识别引擎各自的语音识别模型不同。
3.根据权利要求1所述的语音识别引擎适配方法,其特征在于,所述基于所述原始训练语料,所述语音识别模型及与预设的转换函数确定用于所述语音识别模型的增强训练语料,包括:
获得标准语料库,所述标准语料库包括语音语料及与所述语音语料对应的标准文本;
基于所述语音识别模型对所述语音语料进行识别,得到所述语音语料对应的识别文本;
将所述语音语料对应的所述识别文本与所述标准文本进行对比;
基于对比结果,通过编辑距离算法得到所述语音语料的标准文本中的每个词的转换概率;将所述转换概率代入所述预设的转换函数中,并通过计算得到所述语音识别模型对所述标准语料库进行语音识别的第一误差值;
基于所述第一误差值确定所述原始训练语料的增强训练语料。
4.根据权利要求3所述的语音识别引擎适配方法,其特征在于,所述语音语料包括不同录音环境及不同录音口音的录音内容。
5.根据权利要求3所述的语音识别引擎适配方法,其特征在于,所述基于所述第一误差值确定所述原始训练语料的增强训练语料,包括:
对所述原始训练语料进行随机排序处理;
利用所述预设的转换函数和轮盘赌算法对随机排序结果进行处理,得到新训练语料;
确定所述语音识别引擎对所述新训练语料进行语音识别的第二误差值;
在确定所述第二误差值小于第一误差值时,确定所述新训练语料为所述增强训练语料。
6.一种语音识别引擎适配装置,其特征在于,包括:
确定模块,用于确定语音识别引擎,所述语音识别引擎包括语音识别模型;
获取模块,用于获取原始训练语料,基于所述原始训练语料,所述语音识别模型及预设的转换函数确定用于所述语音识别模型的增强训练语料;
训练模块,用于基于所述增强训练语料将所述语音识别模型训练至收敛,得到训练好的适配语音识别模型;
替换模块,用于将所述语音识别模型替换为所述适配语音识别模型。
7.根据权利要求6所述的一种语音识别引擎适配装置,其特征在于,所述确定模块还用于基于用户的选择指令,从多个不同的语音识别引擎中确定出所述语音识别引擎,其中,不同的语音识别引擎各自的语音识别模型不同。
8.根据权利要求6所述的一种语音识别引擎适配装置,其特征在于,所述获取模块还用于:
获得标准语料库,所述标准语料库包括语音语料及与所述语音语料对应的标准文本;
基于所述语音识别模型对所述语音语料进行识别,得到所述语音语料对应的识别文本;
将所述语音语料对应的所述识别文本与所述标准文本进行对比;
基于对比结果,通过编辑距离算法得到所述语音语料的标准文本中的每个词的转换概率;将所述转换概率代入所述预设的转换函数中,并通过计算得到所述语音识别模型对所述标准语料库进行语音识别的第一误差值;
基于所述第一误差值确定所述原始训练语料的增强训练语料。
9.一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1-5任一项所述的一种语音识别引擎适配方法或实现如权利要求6-8任一项所述的一种语音识别引擎适配装置的功能。
10.一种存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1-5任一项所述的一种语音识别引擎适配方法或实现如权利要求6-8任一项所述的一种语音识别引擎适配装置的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642709.3A CN112767942B (zh) | 2020-12-31 | 2020-12-31 | 语音识别引擎适配方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642709.3A CN112767942B (zh) | 2020-12-31 | 2020-12-31 | 语音识别引擎适配方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767942A true CN112767942A (zh) | 2021-05-07 |
CN112767942B CN112767942B (zh) | 2023-04-07 |
Family
ID=75698743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011642709.3A Active CN112767942B (zh) | 2020-12-31 | 2020-12-31 | 语音识别引擎适配方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767942B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113506565A (zh) * | 2021-07-12 | 2021-10-15 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
CN114999481A (zh) * | 2022-05-30 | 2022-09-02 | 北斗星通智联科技有限责任公司 | 适配多种语音识别引擎的适配器系统和适配方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100023331A1 (en) * | 2008-07-17 | 2010-01-28 | Nuance Communications, Inc. | Speech recognition semantic classification training |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN107945792A (zh) * | 2017-11-06 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 语音处理方法和装置 |
CN108415896A (zh) * | 2017-02-09 | 2018-08-17 | 北京京东尚科信息技术有限公司 | 深度学习模型训练方法、分词方法、训练系统和分词系统 |
CN111433847A (zh) * | 2019-12-31 | 2020-07-17 | 深圳市优必选科技股份有限公司 | 语音转换的方法及训练方法、智能装置和存储介质 |
WO2020216134A1 (zh) * | 2019-04-23 | 2020-10-29 | 华为技术有限公司 | 一种人机对话系统中组合槽位的配置方法及装置 |
-
2020
- 2020-12-31 CN CN202011642709.3A patent/CN112767942B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100023331A1 (en) * | 2008-07-17 | 2010-01-28 | Nuance Communications, Inc. | Speech recognition semantic classification training |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN108415896A (zh) * | 2017-02-09 | 2018-08-17 | 北京京东尚科信息技术有限公司 | 深度学习模型训练方法、分词方法、训练系统和分词系统 |
CN107945792A (zh) * | 2017-11-06 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 语音处理方法和装置 |
WO2020216134A1 (zh) * | 2019-04-23 | 2020-10-29 | 华为技术有限公司 | 一种人机对话系统中组合槽位的配置方法及装置 |
CN111433847A (zh) * | 2019-12-31 | 2020-07-17 | 深圳市优必选科技股份有限公司 | 语音转换的方法及训练方法、智能装置和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113506565A (zh) * | 2021-07-12 | 2021-10-15 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
CN113506565B (zh) * | 2021-07-12 | 2024-06-04 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
CN114999481A (zh) * | 2022-05-30 | 2022-09-02 | 北斗星通智联科技有限责任公司 | 适配多种语音识别引擎的适配器系统和适配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112767942B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8170866B2 (en) | System and method for increasing accuracy of searches based on communication network | |
US10037758B2 (en) | Device and method for understanding user intent | |
US8862478B2 (en) | Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server | |
KR100563365B1 (ko) | 계층적 언어 모델 | |
US20210193121A1 (en) | Speech recognition method, apparatus, and device, and storage medium | |
JP5062171B2 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
KR20090106937A (ko) | 철자 오류 보정 시스템 및 방법 | |
CN112767942B (zh) | 语音识别引擎适配方法、装置、电子设备及存储介质 | |
CN104299623A (zh) | 语音应用中用于自动确认和消歧模块的方法和系统 | |
JP2023547847A (ja) | 簡略化されたストリーミングおよび非ストリーミングasr用のカスケードエンコーダ | |
CN110008471A (zh) | 一种基于拼音转换的智能语义匹配方法 | |
JP2015049254A (ja) | 音声データ認識システム及び音声データ認識方法 | |
CN111128175B (zh) | 口语对话管理方法及系统 | |
JP2019101065A (ja) | 音声対話装置、音声対話方法及びプログラム | |
US9218807B2 (en) | Calibration of a speech recognition engine using validated text | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2017167270A (ja) | 音声処理装置および音声処理方法 | |
CN113744713A (zh) | 一种语音合成方法及语音合成模型的训练方法 | |
CN111710328B (zh) | 语音识别模型的训练样本选取方法、装置及介质 | |
CN111508481B (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
JP7349523B2 (ja) | 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム | |
Eide | Automatic modeling of pronunciation variations. | |
CN114360499A (zh) | 语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 201, building 4, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing Applicant after: Beijing Yunji Technology Co.,Ltd. Address before: Room 201, building 4, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing Applicant before: BEIJING YUNJI TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |