CN111508479A - 一种语音识别方法、装置、设备及存储介质 - Google Patents
一种语音识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111508479A CN111508479A CN202010300250.2A CN202010300250A CN111508479A CN 111508479 A CN111508479 A CN 111508479A CN 202010300250 A CN202010300250 A CN 202010300250A CN 111508479 A CN111508479 A CN 111508479A
- Authority
- CN
- China
- Prior art keywords
- voice
- training
- training set
- language
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本发明公开了一种语音识别方法、装置、设备及存储介质,该方法包括:获取通用训练集及与各业务场景分别对应的子训练集;其中,所述通用训练集包含通用的语音及相应文本信息,所述子训练集包含对应业务场景下的语音及相应的符合对应业务场景下用语规则的文本信息;利用所述通用训练集对预设识别模型进行训练,得到初始识别模型;并利用与各业务场景对应的子训练集对所述初始识别模型进行训练,得到与各业务场景分别对应的订制模型;利用各订制模型对在对应业务场景下输入的语音进行识别,得到所识别的语音对应的文本信息。大大增加了语音识别的准确性。
Description
技术领域
本发明涉及语音识别技术领域,更具体地说,涉及一种语音识别方法、装置、设备及存储介质。
背景技术
为了提升客户体验,当前许多行业都采用智能化设备响应客户发出的语音,实现相应的操作;在实现语音识别时,通常采用语音识别模型进行相应的语音识别,但是发明人发现,现有的技术方案通常无法对某些特定词汇根据场景正常展示,这就导致语音识别的准确性较低。
发明内容
本发明的目的是提供一种语音识别方法、装置、设备及存储介质,能够有效提高语音识别的准确性。
为了实现上述目的,本发明提供如下技术方案:
一种语音识别方法,包括:
获取通用训练集及与各业务场景分别对应的子训练集;其中,所述通用训练集包含通用的语音及相应文本信息,所述子训练集包含对应业务场景下的语音及相应的符合对应业务场景下用语规则的文本信息;
利用所述通用训练集对预设识别模型进行训练,得到初始识别模型;并利用与各业务场景对应的子训练集对所述初始识别模型进行训练,得到与各业务场景分别对应的订制模型;
利用各订制模型对在对应业务场景下输入的语音进行识别,得到所识别的语音对应的文本信息。
优选的,利用所述通用训练集对预设识别模型进行训练,得到初始识别模型,包括:
分别利用第一通用训练集及第二通用训练集对预设识别模型进行训练,得到第一初始识别模型及第二初始识别模型;所述第一通用训练集及所述第二通用训练集分别为所包含语音采用标准语言及指定方言的通用训练集;
利用与各业务场景对应的子训练集对所述初始识别模型进行训练,得到与各业务场景分别对应的订制模型,包括:
利用与各业务场景对应的第一子训练集及第二子训练集一一对应的分别对所述第一初始识别模型及所述第二初始识别模型进行训练,得到与各业务场景分别对应的第一订制模型及第二订制模型;所述第一子训练集及所述第二子训练集分别为所包含语音采用标准语言及指定方言的子训练集;
利用各订制模型对在对应业务场景下输入的语音进行识别,包括:
确定在任意业务场景下输入的语音为待识别语音,如果所述待识别语音采用标准语言,则利用该任意业务场景对应的第一订制模型对所述待识别语音进行识别,如果所述待识别语音采用指定方言,则利用该任意业务场景对应的第二订制模型对所述待识别语音进行识别。
优选的,确定所述待识别语音所采用的语言,包括:
将所述待识别语音输入至语言识别模型中,并确定所述语言识别模型输出的结果所表示的语言为所述待识别语音所采用的语言;其中,所述语言识别模型为预先利用语言训练集训练得到的,所述语言训练集包括分别采用标准语言及指定方言的语音、以及表示各语音采用的语言的标注。
优选的,确定所述待识别语音所采用的语言,包括:
将所述待识别语音转换为拼音,判断转换得到的拼音中出现指定字母的频率是否大于频率阈值,如果是,则确定所述待识别语音采用的语言为标准语言,否则,确定所述待识别语音采用的语言为指定方言;其中,所述指定字母为在所述标准语言中使用的、且在所述指定方言中被映射为其他字母的字母。
优选的,所述通用训练集及所述子训练集包含的语音中均包括采用指定方言的语音及采用标准语言的语音。
优选的,得到所识别的语音对应的文本信息之后,还包括:
将得到的所识别的语音对应的文本信息进行输出,在外界基于输出的文本信息点击确认后执行与该输出的文本信息对应的操作,否则,指示外界重新输入语音。
优选的,获取与各业务场景分别对应的子训练集之前,还包括:
接收外界输入的场景划分指令,在该场景划分指令的指示下将指定行业中的全部场景划分为与不同业务分别对应的业务场景。
一种语音识别装置,包括:
获取模块,用于:获取通用训练集及与各业务场景分别对应的子训练集;其中,所述通用训练集包含通用的语音及相应文本信息,所述子训练集包含对应业务场景下的语音及相应的符合对应业务场景下用语规则的文本信息;
训练模块,用于:利用所述通用训练集对预设识别模型进行训练,得到初始识别模型;并利用与各业务场景对应的子训练集对所述初始识别模型进行训练,得到与各业务场景分别对应的订制模型;
识别模块,用于:利用各订制模型对在对应业务场景下输入的语音进行识别,得到所识别的语音对应的文本信息。
一种语音识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述语音识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述语音识别方法的步骤。
本发明提供了一种语音识别方法、装置、设备及存储介质,该方法包括:获取通用训练集及与各业务场景分别对应的子训练集;其中,所述通用训练集包含通用的语音及相应文本信息,所述子训练集包含对应业务场景下的语音及相应的符合对应业务场景下用语规则的文本信息;利用所述通用训练集对预设识别模型进行训练,得到初始识别模型;并利用与各业务场景对应的子训练集对所述初始识别模型进行训练,得到与各业务场景分别对应的订制模型;利用各订制模型对在对应业务场景下输入的语音进行识别,得到所识别的语音对应的文本信息。本申请公开的技术方案中,利用包含通用语音及对应文本信息的通用训练集及包含对应业务场景中语音及对应符合该业务场景中用语规则的文本信息的子训练集,分别对预设识别模型进行训练得到与业务场景对应的订制模型,从而利用订制模型实现相应业务场景下输入的语音的语音识别,不仅能够识别出符合对应业务场景下用语规则的某些特定词语,也即能够对某些特定词语根据业务场景进行正常识别,还能够对通用的语音进行直译得到对应的文本,大大增加了语音识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种语音识别方法的路程图;
图2为本发明实施例提供的一种语音识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种语音识别方法的流程图,可以包括:
S11:获取通用训练集及与各业务场景分别对应的子训练集;其中,通用训练集包含通用的语音及相应文本信息,子训练集包含对应业务场景下的语音及相应的符合对应业务场景下用语规则的文本信息。
本发明实施例提供的一种语音识别方法的执行主体可以为对应的语音识别装置。另外,本申请实施例提供的技术方案可以应用于金融行业,当然也可以应用于其他需要办理业务且可支持语音交互实现业务办理的行业,如通信行业、采购行业等,均在本发明的保护范围之内。
获取通用训练集及与各业务场景分别对应的子训练集,其中,业务场景即为办理相应业务的场景,而通用则是指通用于不同的业务场景;具体来说,通用训练集中包含的语音可以指任意业务场景下客户输入的任意语音,与其中的每个语音对应的文本信息则是直接将相应的语音转换得到的文本,该文本是对语音进行直译得到的;子训练集中包含的语音是指在该子训练集对应的业务场景下客户输入的任意语音,与其中每个语音对应的文本信息则是将相应的语言转换得到的符合对应的业务场景下用语规则的文本,简单来说,用语规则是对一些特定词语的专业命名,而该文本中包含的某些特定词语是在当前业务场景下用到的对应行业的专业术语,如行业为金融行业,业务场景为存款,则在存款的业务场景下的专业术语可以包括定期、活期等。
S12:利用通用训练集对预设识别模型进行训练,得到初始识别模型;并利用与各业务场景对应的子训练集对初始识别模型进行训练,得到与各业务场景分别对应的订制模型。
预先可以设置一识别模型,利用通用训练集对该识别模型进行训练,训练得到的初始识别模型能够对输入的语音进行直译得到相应的文本,再利用各业务场景对应的子训练集对初始识别模型进行训练,训练得到的订制模型能够对输入的语音进行转换得到相应的文本,具体来说,如果输入的语音中包含对应业务场景中的某些特定词语,则转换得到的为包含符合相应业务场景的用语规则的文本,否则,则转换得到的则为对语音进行直译得到的文本,从而通过这种方式,使得订制模型能够识别符合业务场景中的某些特定词语的同时,保证对其他语音也能够实现相应的识别。
S13:利用各订制模型对在对应业务场景下输入的语音进行识别,得到所识别的语音对应的文本信息。
在需要利用任意订制模型实现对应业务场景下输入的语音时,可以将该语音输入至该任意订制模型,从而获得该任意订制模型输出的信息则为识别得到的文本信息。
本申请公开的技术方案中,利用包含通用语音及对应文本信息的通用训练集及包含对应业务场景中语音及对应符合该业务场景中用语规则的文本信息的子训练集,分别对预设识别模型进行训练得到与业务场景对应的订制模型,从而利用订制模型实现相应业务场景下输入的语音的语音识别,不仅能够识别出符合对应业务场景下用语规则的某些特定词语,也即能够对某些特定词语根据业务场景进行正常识别,还能够对通用的语音进行直译得到对应的文本,大大增加了语音识别的准确性。
另外,现有技术中实现语音识别时并不对具体业务场景做区分,因此仅用一个通用的模型来进行语音识别,而通用的模型体积较大,难以离线部署,同时影响识别速度;本申请针对不同业务场景训练相应的订制模型,进而在不同的业务场景下利用不同的订制模型实现语音识别,储存空间占用小,方便离线部署,且识别速度快。
本发明实施例提供的一种语音识别方法,利用通用训练集对预设识别模型进行训练,得到初始识别模型,可以包括:
分别利用第一通用训练集及第二通用训练集对预设识别模型进行训练,得到第一初始识别模型及第二初始识别模型;第一通用训练集及第二通用训练集分别为所包含语音采用标准语言及指定方言的通用训练集;
利用与各业务场景对应的子训练集对初始识别模型进行训练,得到与各业务场景分别对应的订制模型,可以包括:
利用与各业务场景对应的第一子训练集及第二子训练集一一对应的分别对第一初始识别模型及第二初始识别模型进行训练,得到与各业务场景分别对应的第一订制模型及第二订制模型;第一子训练集及第二子训练集分别为所包含语音采用标准语言及指定方言的子训练集;
利用各订制模型对在对应业务场景下输入的语音进行识别,可以包括:
确定在任意业务场景下输入的语音为待识别语音,如果待识别语音采用标准语言,则利用该任意业务场景对应的第一订制模型对待识别语音进行识别,如果待识别语音采用指定方言,则利用该任意业务场景对应的第二订制模型对待识别语音进行识别。
其中,指定方言可以为任意需要进行语音识别的方言(地方语言,如重庆话等),标准语言则为普通话等官言,采用指定方言的语音为使用指定方言发出的语音,而采用标准语言的语音则为使用标准语言发出的语音;本实施例中获取的通用训练集包括第一通用训练集及第二通用训练集,子训练集包括第一子训练集及第二子训练集;其中,第一通用训练集包括采用标准语言的语音及对应的文本信息,第二通用训练集包括采用指定方言的语音及对应的文本信息,第一子训练集包括对应业务场景下采用标准语言的语音及对应的文本信息,第二子训练集包括对应业务场景下采用指定方言的语音及对应的文本信息;进而在实现初始识别模型的训练时,利用第一通用训练集训练预设识别模型得到第一初始识别模型,利用第二通用训练集训练预设识别模型得到第二初始识别模型,在实现订制模型的训练时,利用第一子训练集训练第一初始识别模型得到第一订制模型,利用第二子训练集训练第二初始识别模型得到第二订制模型;由此得到的第一订制模型用于识别对应业务场景下输入的采用标准语言的语音,而第二订制模型用于识别对应业务场景下输入的采用指定方言的语音,因此在需要实现语音识别时,先确定出待识别语音所采用的语言(标准语言或者指定方言),然后再利用相应的第一订制模型或者第二订制模型进行语音识别;通过这种方式针对采用不同语言的语音进行相应模型的训练,进而利用训练得到的模型实现采用相应语言的语音的识别,从而实现采用不同语言的语音的针对性识别,大大增加了语音识别的准确性。
本发明实施例提供的一种语音识别方法,确定待识别语音所采用的语言,可以包括:
将待识别语音输入至语言识别模型中,并确定语言识别模型输出的结果所表示的语言为待识别语音所采用的语言;其中,语言识别模型为预先利用语言训练集训练得到的,语言训练集包括分别采用标准语言及指定方言的语音、以及表示各语音采用的语言的标注。
需要说明的是,为了实现待识别语音所用语言的识别,本实施例可以预先训练得到用于实现语言识别的语言识别模型,具体可以是利用包含有采用标准语言的语音、采用指定方言的语音及表示各语音所采用的语言的标准,进而将待识别语音输入至语言识别模型中,语言识别模型输出的结果所表示的语言则为待识别语音所表示的语言,通过这种方式可以离线单次实现语言识别模型的训练后,即可多次实现待识别语音所采用的语言的识别,语言识别效率高且操作简便。
本发明实施例提供的一种语音识别方法,确定待识别语音所采用的语言,可以包括:
将待识别语音转换为拼音,判断转换得到的拼音中出现指定字母的频率是否大于频率阈值,如果是,则确定待识别语音采用的语言为标准语言,否则,确定待识别语音采用的语言为指定方言;其中,指定字母为在标准语言中使用的、且在指定方言中被映射为其他字母的字母。
需要说明的是,由于采用指定方言及采用标准语言发出表达相同含义的语音时,因不同语言具有不同的发音特点,发出的表达相同含义的语音转换得到的文字对应拼音中的字母也相应的存在不同,如存在某字母在标准语言中为A时在指定方言中则为B(A被映射为B),因此将字母A确定为指定字母;相应的,由于在指定方言中字母A一般会被映射为B,因此指定方言中出现字母A的频率(或者说比例)会比较低;基于此,本申请在确定实现语音所用语言时,如果待识别语音对应拼音中存在出现字母A的频率大于频率阈值,则说明字母A在待识别语音中出现的频率较高,其并未被映射为字母B,因此可以确定待识别语音采用语言为标准语言,否则,说明字母A在待识别语音中出现的频率较低,其被映射成了字母B,因此可以确定待识别语音采用语言为指定方言;以指定方言为重庆话为例对此进行具体说明,按照重庆话发音特点,在标准语言中的翘舌sh、ch、zh在重庆话中一般会被分别映射为平舌s、c、z,在标准语言中的后鼻音ang、eng、ing在重庆话中一般会被分别映射为前鼻音an、en、in,因此在重庆话中上述翘舌及后鼻音出现的频率会比较低(也即对应于重庆话,指定字母则为上述翘舌及后鼻音),此时在判断语音采用的是何种语言时,如果语音转换得到的拼音中出现上述翘舌及后鼻音的频率较低(出现上述翘舌及后鼻音的频率不大于频率阈值),则说明该语音采用的为重庆话,否则,说明该语音采用的为标准语言。其中,频率阈值可以根据实际需要进行确定(对应不同应用场景、不同指定字母可以具有不同的取值),而出现指定字母的频率则为出现指定字母的次数占转换得到的拼音中包含的字母总数量的百分比;从而通过这种方式可以有效确定出待识别语音采用的是何种语言。
本发明实施例提供的一种语音识别方法,通用训练集及子训练集包含的全部语音中均包括使用指定方言发出的语音及使用标准语言发出的语音。从而通过设置各训练集的语音中均包括使用指定方言发出的语音及使用标准语言发出的语音,能够使得训练得到的订制模型不仅可以识别方言,还可以识别普通话,提高了语音识别的适用性。
本发明实施例提供的一种语音识别方法,得到所识别的语音对应的文本信息之后,还可以包括:
将得到的所识别的语音对应的文本信息进行输出,在外界基于输出的文本信息点击确认后执行与该输出的文本信息对应的操作,否则,指示外界重新输入语音。
为了保证实现操作的正确性,本实施例中在得到所识别的语音对应文本信息之后,还可以将文本信息进行输出,使得客户可以获知该文本信息,进而确定文本信息所表达内容是否为客户想要表达的内容,在判断结果为是时点击确认对应的按钮或者位置等,在判断结果为否是点击错误对应的按钮或者位置等,以实现语音的重新输入。
本发明实施例提供的一种语音识别方法,用于实现订制模型训练的预设识别模型及用于实现语言识别模型的识别模型均可以为深度学习模型,由于深度学习模型在实现分类时具有精确度较高的特点,因此本实施例中采用深度学习模型实现语音识别及语言识别也能够保证语音识别及语言识别具有较高的准确度。
本发明实施例提供的一种语音识别方法,获取与各业务场景分别对应的子训练集之前,还可以包括:
接收外界输入的场景划分指令,在该场景划分指令的指示下将指定行业中的全部场景划分为与不同业务分别对应的业务场景。
需要说明的是,在确定出需要进行语音识别的行业后,可以按照该行业内不同的业务分别对应不同的业务场景的方式实现业务场景的划分,如行业为金融行业,业务包括存款、贷款、信用卡等,则对应的业务场景也包括存储场景、贷款场景、信用卡场景等,从而便于实现不同业务场景内语音识别。
另外,本申请中包含的语音可以为包含一个整句的语音,也可以根据实际需要进行其他设定,均在本发明的保护范围之内。
在一种具体应用场景中,行业为金融行业,本申请公开的上述语音识别方法可以包括以下步骤:
步骤A:划分业务场景,如:存款-定期、活期;贷款-个人贷款-信用、抵押;信用卡-申请、还款、分期。
步骤B:准备各业务场景语音语料:
建立标注平台,可以将真实语音用工具切成一句一句的声音文件,进而在标注平台上,针对每个声音文件转换得到相应的整句文本;具体可以准备100小时以上语音语料。
步骤C:训练各业务场景下的订制模型:
1、使用普通话+方言数据训练出初始识别模型;
2、以初始识别模型作为初始化,使用数小时各业务场景内的数据对初始识别模型进行自适应,获得订制模型。
步骤D:使用订制模型实现相应业务场景下的语音识别。
与现有语音识别方法相比,本发明具有以下特点:
1、准确性提升,如下表所示:
2、高效性:整体识别速度可提升1-5秒;
3、省空间:现有通用的模型约3G左右,本申请各订制模型可在5-10M左右。
从而通过本申请建成统一的智能语音平台,在智能柜台、机器人上加载各订制模块,为不熟悉电脑操作的中老年人、方言使用人员等客户群体“导航”。
本发明实施例还提供了一种语音识别装置,如图2所示,可以包括:
获取模块11,用于:获取通用训练集及与各业务场景分别对应的子训练集;其中,通用训练集包含通用的语音及相应文本信息,子训练集包含对应业务场景下的语音及相应的符合对应业务场景下用语规则的文本信息;
训练模块12,用于:利用通用训练集对预设识别模型进行训练,得到初始识别模型;并利用与各业务场景对应的子训练集对初始识别模型进行训练,得到与各业务场景分别对应的订制模型;
识别模块13,用于:利用各订制模型对在对应业务场景下输入的语音进行识别,得到所识别的语音对应的文本信息。
本发明实施例提供的一种语音识别装置,训练模块可以包括:
第一训练单元,用于:分别利用第一通用训练集及第二通用训练集对预设识别模型进行训练,得到第一初始识别模型及第二初始识别模型;第一通用训练集及第二通用训练集分别为所包含语音采用标准语言及指定方言的通用训练集;
第二训练单元,用于:利用与各业务场景对应的第一子训练集及第二子训练集一一对应的分别对第一初始识别模型及第二初始识别模型进行训练,得到与各业务场景分别对应的第一订制模型及第二订制模型;第一子训练集及第二子训练集分别为所包含语音采用标准语言及指定方言的子训练集;
识别模块可以包括:
识别单元,用于:确定在任意业务场景下输入的语音为待识别语音,如果待识别语音采用标准语言,则利用该任意业务场景对应的第一订制模型对待识别语音进行识别,如果待识别语音采用指定方言,则利用该任意业务场景对应的第二订制模型对待识别语音进行识别。
本发明实施例提供的一种语音识别装置,识别单元可以包括:
第一识别子单元,用于:将待识别语音输入至语言识别模型中,并确定语言识别模型输出的结果所表示的语言为待识别语音所采用的语言;其中,语言识别模型为预先利用语言训练集训练得到的,语言训练集包括分别采用标准语言及指定方言的语音、以及表示各语音采用的语言的标注。
本发明实施例提供的一种语音识别装置,识别单元可以包括:
第二识别子单元,用于:将待识别语音转换为拼音,判断转换得到的拼音中出现指定字母的频率是否大于频率阈值,如果是,则确定待识别语音采用的语言为标准语言,否则,确定待识别语音采用的语言为指定方言;其中,指定字母为在标准语言中使用的、且在指定方言中被映射为其他字母的字母。
本发明实施例提供的一种语音识别装置,通用训练集及子训练集包含的语音中均可以包括采用指定方言的语音及采用标准语言的语音。
本发明实施例提供的一种语音识别装置,还可以包括:
确认模块,用于:得到所识别的语音对应的文本信息之后,将得到的所识别的语音对应的文本信息进行输出,在外界基于输出的文本信息点击确认后执行与该输出的文本信息对应的操作,否则,指示外界重新输入语音。
本发明实施例提供的一种语音识别装置,还可以包括:
划分模块,用于:获取与各业务场景分别对应的子训练集之前,接收外界输入的场景划分指令,在该场景划分指令的指示下将指定行业中的全部场景划分为与不同业务分别对应的业务场景。
本发明实施例还提供了一种语音识别设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项语音识别方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一项语音识别方法的步骤。
需要说明的是,本发明实施例提供的一种语音识别装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种语音识别方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
获取通用训练集及与各业务场景分别对应的子训练集;其中,所述通用训练集包含通用的语音及相应文本信息,所述子训练集包含对应业务场景下的语音及相应的符合对应业务场景下用语规则的文本信息;
利用所述通用训练集对预设识别模型进行训练,得到初始识别模型;并利用与各业务场景对应的子训练集对所述初始识别模型进行训练,得到与各业务场景分别对应的订制模型;
利用各订制模型对在对应业务场景下输入的语音进行识别,得到所识别的语音对应的文本信息。
2.根据权利要求1所述的方法,其特征在于,利用所述通用训练集对预设识别模型进行训练,得到初始识别模型,包括:
分别利用第一通用训练集及第二通用训练集对预设识别模型进行训练,得到第一初始识别模型及第二初始识别模型;所述第一通用训练集及所述第二通用训练集分别为所包含语音采用标准语言及指定方言的通用训练集;
利用与各业务场景对应的子训练集对所述初始识别模型进行训练,得到与各业务场景分别对应的订制模型,包括:
利用与各业务场景对应的第一子训练集及第二子训练集一一对应的分别对所述第一初始识别模型及所述第二初始识别模型进行训练,得到与各业务场景分别对应的第一订制模型及第二订制模型;所述第一子训练集及所述第二子训练集分别为所包含语音采用标准语言及指定方言的子训练集;
利用各订制模型对在对应业务场景下输入的语音进行识别,包括:
确定在任意业务场景下输入的语音为待识别语音,如果所述待识别语音采用标准语言,则利用该任意业务场景对应的第一订制模型对所述待识别语音进行识别,如果所述待识别语音采用指定方言,则利用该任意业务场景对应的第二订制模型对所述待识别语音进行识别。
3.根据权利要求2所述的方法,其特征在于,确定所述待识别语音所采用的语言,包括:
将所述待识别语音输入至语言识别模型中,并确定所述语言识别模型输出的结果所表示的语言为所述待识别语音所采用的语言;其中,所述语言识别模型为预先利用语言训练集训练得到的,所述语言训练集包括分别采用标准语言及指定方言的语音、以及表示各语音采用的语言的标注。
4.根据权利要求2所述的方法,其特征在于,确定所述待识别语音所采用的语言,包括:
将所述待识别语音转换为拼音,判断转换得到的拼音中出现指定字母的频率是否大于频率阈值,如果是,则确定所述待识别语音采用的语言为标准语言,否则,确定所述待识别语音采用的语言为指定方言;其中,所述指定字母为在所述标准语言中使用的、且在所述指定方言中被映射为其他字母的字母。
5.根据权利要求1所述的方法,其特征在于,所述通用训练集及所述子训练集包含的语音中均包括采用指定方言的语音及采用标准语言的语音。
6.根据权利要求3、4、5中任一项所述的方法,其特征在于,得到所识别的语音对应的文本信息之后,还包括:
将得到的所识别的语音对应的文本信息进行输出,在外界基于输出的文本信息点击确认后执行与该输出的文本信息对应的操作,否则,指示外界重新输入语音。
7.根据权利要求6所述的方法,其特征在于,获取与各业务场景分别对应的子训练集之前,还包括:
接收外界输入的场景划分指令,在该场景划分指令的指示下将指定行业中的全部场景划分为与不同业务分别对应的业务场景。
8.一种语音识别装置,其特征在于,包括:
获取模块,用于:获取通用训练集及与各业务场景分别对应的子训练集;其中,所述通用训练集包含通用的语音及相应文本信息,所述子训练集包含对应业务场景下的语音及相应的符合对应业务场景下用语规则的文本信息;
训练模块,用于:利用所述通用训练集对预设识别模型进行训练,得到初始识别模型;并利用与各业务场景对应的子训练集对所述初始识别模型进行训练,得到与各业务场景分别对应的订制模型;
识别模块,用于:利用各订制模型对在对应业务场景下输入的语音进行识别,得到所识别的语音对应的文本信息。
9.一种语音识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述语音识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010300250.2A CN111508479B (zh) | 2020-04-16 | 2020-04-16 | 一种语音识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010300250.2A CN111508479B (zh) | 2020-04-16 | 2020-04-16 | 一种语音识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508479A true CN111508479A (zh) | 2020-08-07 |
CN111508479B CN111508479B (zh) | 2022-11-22 |
Family
ID=71876168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010300250.2A Active CN111508479B (zh) | 2020-04-16 | 2020-04-16 | 一种语音识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508479B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259081A (zh) * | 2020-12-21 | 2021-01-22 | 北京爱数智慧科技有限公司 | 语音的处理方法和装置 |
CN112687261A (zh) * | 2020-12-15 | 2021-04-20 | 苏州思必驰信息科技有限公司 | 语音识别训练和应用方法及装置 |
CN112786027A (zh) * | 2021-01-06 | 2021-05-11 | 浙江大学 | 一种语音输入矫正处理方法、装置、电子设备及存储介质 |
CN112802470A (zh) * | 2020-12-30 | 2021-05-14 | 厦门市美亚柏科信息股份有限公司 | 一种离线语音控制方法及终端 |
CN112837678A (zh) * | 2020-12-31 | 2021-05-25 | 思必驰科技股份有限公司 | 私有云识别训练方法和装置 |
CN113066486A (zh) * | 2021-03-25 | 2021-07-02 | 北京金山云网络技术有限公司 | 数据识别方法、装置、电子设备和计算机可读存储介质 |
CN113689848A (zh) * | 2021-09-02 | 2021-11-23 | 成都启英泰伦科技有限公司 | 一种语音识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150040012A1 (en) * | 2013-07-31 | 2015-02-05 | Google Inc. | Visual confirmation for a recognized voice-initiated action |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
CN105931643A (zh) * | 2016-06-30 | 2016-09-07 | 北京海尔广科数字技术有限公司 | 语音识别方法及装置 |
CN109448699A (zh) * | 2018-12-15 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 语音转换文本方法、装置、计算机设备及存储介质 |
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN110379415A (zh) * | 2019-07-24 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 领域自适应声学模型的训练方法 |
CN111001167A (zh) * | 2019-12-04 | 2020-04-14 | 南京信息职业技术学院 | 一种基于tms320vc5509a的语音控制智能玩具车系统 |
CN113836945A (zh) * | 2021-09-23 | 2021-12-24 | 平安科技(深圳)有限公司 | 意图识别方法、装置、电子设备和存储介质 |
-
2020
- 2020-04-16 CN CN202010300250.2A patent/CN111508479B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150040012A1 (en) * | 2013-07-31 | 2015-02-05 | Google Inc. | Visual confirmation for a recognized voice-initiated action |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
CN105931643A (zh) * | 2016-06-30 | 2016-09-07 | 北京海尔广科数字技术有限公司 | 语音识别方法及装置 |
CN109448699A (zh) * | 2018-12-15 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 语音转换文本方法、装置、计算机设备及存储介质 |
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN110379415A (zh) * | 2019-07-24 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 领域自适应声学模型的训练方法 |
CN111001167A (zh) * | 2019-12-04 | 2020-04-14 | 南京信息职业技术学院 | 一种基于tms320vc5509a的语音控制智能玩具车系统 |
CN113836945A (zh) * | 2021-09-23 | 2021-12-24 | 平安科技(深圳)有限公司 | 意图识别方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
ABHINAV JAIN,等: "A Multi-Accent Acoustic Model using Mixture of Experts for Speech Recognition", 《INTERSPEECH 2019》 * |
刘林泉: "基于小数据量的方言普通话语音识别声学建模", 《清华大学学报(自然科学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687261A (zh) * | 2020-12-15 | 2021-04-20 | 苏州思必驰信息科技有限公司 | 语音识别训练和应用方法及装置 |
CN112259081A (zh) * | 2020-12-21 | 2021-01-22 | 北京爱数智慧科技有限公司 | 语音的处理方法和装置 |
CN112259081B (zh) * | 2020-12-21 | 2021-04-16 | 北京爱数智慧科技有限公司 | 语音的处理方法和装置 |
CN112802470A (zh) * | 2020-12-30 | 2021-05-14 | 厦门市美亚柏科信息股份有限公司 | 一种离线语音控制方法及终端 |
CN112837678A (zh) * | 2020-12-31 | 2021-05-25 | 思必驰科技股份有限公司 | 私有云识别训练方法和装置 |
CN112786027A (zh) * | 2021-01-06 | 2021-05-11 | 浙江大学 | 一种语音输入矫正处理方法、装置、电子设备及存储介质 |
CN112786027B (zh) * | 2021-01-06 | 2022-02-22 | 浙江大学 | 一种语音输入矫正处理方法、装置、电子设备及存储介质 |
CN113066486A (zh) * | 2021-03-25 | 2021-07-02 | 北京金山云网络技术有限公司 | 数据识别方法、装置、电子设备和计算机可读存储介质 |
CN113689848A (zh) * | 2021-09-02 | 2021-11-23 | 成都启英泰伦科技有限公司 | 一种语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111508479B (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111508479B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN107622054B (zh) | 文本数据的纠错方法及装置 | |
CN111540353B (zh) | 一种语义理解方法、装置、设备及存储介质 | |
US20060229864A1 (en) | Method, device, and computer program product for multi-lingual speech recognition | |
CN108847241A (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN111192570A (zh) | 语言模型训练方法、系统、移动终端及存储介质 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
WO2023045186A1 (zh) | 意图识别方法、装置、电子设备和存储介质 | |
US20210319481A1 (en) | System and method for summerization of customer interaction | |
CN109344388B (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
CN111046674A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN106682188B (zh) | 田间科研数据随身读写方法 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN109036379B (zh) | 语音识别方法、设备及存储介质 | |
US11735169B2 (en) | Speech recognition and training for data inputs | |
CN113987202A (zh) | 一种基于知识图谱的交互电话呼入方法及装置 | |
CN110428668B (zh) | 一种数据提取方法、装置、计算机系统及可读存储介质 | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
CN112307748A (zh) | 用于处理文本的方法和装置 | |
CN114398876B (zh) | 一种基于有限状态转换器的文本纠错方法和装置 | |
CN111489742A (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
CN111538814A (zh) | 一种语义理解中协议支持自定义标准化的方法 | |
CN111354339A (zh) | 词汇音素表构建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |