CN110827802A - 语音识别训练和解码方法及装置 - Google Patents
语音识别训练和解码方法及装置 Download PDFInfo
- Publication number
- CN110827802A CN110827802A CN201911052184.5A CN201911052184A CN110827802A CN 110827802 A CN110827802 A CN 110827802A CN 201911052184 A CN201911052184 A CN 201911052184A CN 110827802 A CN110827802 A CN 110827802A
- Authority
- CN
- China
- Prior art keywords
- entry
- decoding network
- language model
- decoding
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 title claims abstract description 42
- 230000015654 memory Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 description 19
- 230000014509 gene expression Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000009191 jumping Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 241000219784 Sophora Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开语音识别训练和解码方法及装置,其中,一种语音识别训练方法,包括:对于初始说法和至少一个初始词条,分别训练与初始说法对应的n‑gram语言模型和与至少一个初始词条对应的至少一个grammar语言模型;基于n‑gram语言模型构成初始说法解码网络;基于至少一个grammar语言模型相应地构成至少一个初始词条解码网络。本申请的方法和装置提供的方案适用于本地,提供了较灵活的说法识别及较精准的关键词识别,且支持用户自定义并快速在本地进行更新。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及语音识别训练和解码方法及装置。
背景技术
相关技术中,语音识别技术越来越广泛地运用到生活中,给人们的生活带来了极大的便利。语言模型作为语音识别技术中的一个重要部分,能计算一串词序列的概率,从而帮助给出更符合人语言习惯的词序列。
常用的语言模型有基于语法网络的grammar语言模型,基于统计的 n-gram语言模型,以及基于神经网络的语言模型。grammar语言模型是把语言层信息组织成一个固定的语法,解码时只能识别出语法中语句,灵活度较差,但对于语法中语句识别准确率较高。n-gram语言模型假设第K个词的出现只与前面的K-n个词相关,通过统计语料中n个词同时出现的次数,即可算出整句的概率。n-gram语言模型存在回退,因而理论上可以识别出任意语句,灵活性较大。但同时,这种灵活性,加上n- gram语言模型使用概率平滑技术模拟出的低频词概率与实际概率存在一定差异,导致识别错误的概率升高。神经网络语言模型是用一个关于θ的函数F(w,context(w),θ)来表示当前词为w时,其上下文为context(x)的概率。神经网络对参数的共享,使其对低频词具有天然的平滑能力,从而具有更好的泛化性。循环神经网络能更有的理由历史信息,从而进一步提高识别正确性。但神经网络训练的计算复杂度较高,无法实现本地训练及快速更新。
市面上已有的运用于本地的识别系统,部分采用grammar语言模型。grammar语言模型构成的解码网络小,且对于语法内语句识别准确率高,能保证有限说法的识别。但用户往往不能满足于这种局限的识别。因而另一部分本地识别系统采用n-gram语言模型来增加灵活性,但同时会带来性识别准确率的下降,从而导致用户的不满。
支持用户自定义的产品目前较少。而那些少数支持自定义的,或需要通过网络上传到云端更新模型,或需要在本地消耗较多资源和较长时间更新模型。因而可以推断,它们是将用户自定义部分的文本融入原有文本中,重新训练了语言模型。
发明内容
本发明实施例提供一种语音识别训练和解码方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音识别训练方法,包括:对于初始说法和至少一个初始词条,分别训练与所述初始说法对应的n-gram 语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型;基于所述n-gram语言模型构成初始说法解码网络;基于所述至少一个 grammar语言模型构成至少一个初始词条解码网络。
第二方面,本发明实施例提供一种语音识别解码方法,包括:将接收的语句文本分为说法和至少一个词条;获取所述语句文本中的所述说法和所述至少一个词条的顺序;根据所述顺序,先进入与所述说法对应的n-gram语言模型解码网络进行解码,当走到词条路径时,跳转到相应的词条的grammar语言模型解码网络进行解码,当词条网络走到终点后,跳回与所述说法对应的n-gram语言模型解码网络进行解码。
第三方面,本发明实施例提供一种语音识别训练装置,包括:模型训练模块,配置为对于初始说法和至少一个初始词条,分别训练与所述说法对应的n-gram语言模型和与所述至少一个初始词条对应的至少一个 grammar语言模型;说法解码网络构成模块,配置为基于所述n-gram语言模型构成初始说法解码网络;词条解码网络构成模块,配置为基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。
第四方面,本发明实施例提供一种语音识别解码装置,包括:分词模块,配置为将接收的语句文本分为说法和至少一个词条;顺序获取模块,配置为获取所述语句文本中的所述说法和所述至少一个词条的顺序;解码模块,配置为根据所述顺序,先进入与所述说法对应的n-gram语言模型解码网络进行解码,当走到词条路径时,跳转到相应的词条的grammar语言模型解码网络进行解码,当词条网络走到终点后,跳回与所述说法对应的n-gram语言模型解码网络进行解码。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音识别训练方法或语音识别解码方法的步骤。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音识别训练方法或语音识别解码方法的步骤。
本申请的方法和装置提供的方案通过将一些通用的说法和词条分别训练成相应的语言模型。说法训练为n-gram语言模型,可以更好地满足说法本身的多样性,提供较灵活的说法识别。词条单独训练成相应的 grammar语言模型,更突显词条识别的重要性,可以获得更精准的关键字识别。从而使得最终获得的解码网络能够容许词条的灵活多样,也能增强词条识别的准确度,总体用户体验更好。进一步地,由于只包含一些通用的说法和词条,因此整体所需存储空间较小,可以适用于本地存储和离线使用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语音识别训练方法的流程图;
图2为本发明一实施例提供的一种语音识别解码方法的流程图;
图3-图8为本发明一实施例提供的一种语音识别系统的一个具体实施例的各阶段的解码网络示意图;
图9为本发明一实施例提供的一种语音识别训练装置的框图;
图10为本发明一实施例提供的一种语音识别解码装置的框图;
图11是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的语音识别训练方法一实施例的流程图,本实施例的语音识别训练方法可以适用于具备语音识别解码能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备语音识别解码能力的智能终端等。
如图1所示,在步骤101中,对于初始说法和至少一个词条,分别训练与所述初始说法对应的n-gram语言模型和与所述至少一个词条对应的至少一个grammar语言模型;
在步骤102中,基于所述n-gram语言模型构成初始说法解码网络;
在步骤103中,基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。
在本实施例中,对于步骤101,语音识别训练装置在训练时,对于初始说法和至少一个初始词条,分别训练相应的语言模型,其中,对于初始说法,训练与该多个初始说法对应的n-gram语言模型,对于至少一个初始词条,每一个词条单独训练一个grammar语言模型。其中,针对点歌这个功能,初始说法例如可以包括“我想听…的…”,或者“放一首…吧”等,相关的词条包括@歌手和@歌曲等,对于其他的功能如导航、讲故事等也包括相应地初始说法和相关的词条,在此不再赘述。之后,对于步骤102,语音识别训练装置根据训练的对应于初始说法的n-gram语言模型构建初始说法解码网络用于对用户的说法进行解码,例如“放一首…吧”、“我想听…的…”、“来一首…”等说法都会被构建到同一初始说法解码网络中,本申请在此没有限制,在此不再赘述。最后,对于步骤103,语音识别训练装置根据训练的对应于各初始词条的至少一个grammar语言模型相应地构建至少一个初始词条解码网络,例如词条@歌手对应一个初始词条解码网络,词条@歌曲也对应一个初始词条解码网络,本申请在此没有限制,在此不再赘述。
需要说明的是,虽然采用不同的步骤编号对上述步骤进行先后顺序的限定,但是某些步骤可以是并行执行的,例如上述步骤102和步骤103 就可以并列执行,在此不再赘述。
本实施例的方法通过将一些通用的说法和词条分别训练成相应的语言模型。说法训练为n-gram语言模型,可以更好地满足说法本身的多样性,提供较灵活的说法识别。词条单独训练成相应的grammar语言模型,更突显词条识别的重要性,可以获得更精准的关键字识别。从而使得最终获得的解码网络能够容许词条的灵活多样,也能增强词条识别的准确度,总体用户体验更好。进一步地,由于只包含一些通用的说法和词条,因此整体所需存储空间较小,可以适用于本地存储和离线使用。
在一些可选的实施例中,上述方法还包括:响应于用户添加新的说法,训练与所述新的说法对应的新的n-gram语言模型;将所述新的n- gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络。从而当用户添加新的说法时,会训练相应的n-gram语言模型,然后将新的n-gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络,从而用户添加的新的说法也能被识别。并且可以支持用户自定义说法。进一步地,由于用户自定义的说法有限,因此能在消耗资源较少的情况下快速更新解码网络,也能适用于本地。
在另一些可选的实施例中,上述方法还包括:响应于用户添加新的词条,生成与所述新的词条对应的新的grammar语言模型;将所述新的 grammar语言模型构成的解码网络与对应的初始词条解码网络合并成新的词条解码网络;将所述新的词条解码网络的路径概率归一。从而当用户添加新的词条时,会训练相应的grammar语言模型,之后将构建的新的解码网络与初始词条解码网络合并成新的说法解码网络,然后再进行概率归一。从而用户添加的新的词条也能被识别。并且可以支持用户自定义词条。进一步地,由于用户自定义的词条有限,因此能在消耗资源较少的情况下快速更新解码网络,也能适用于本地。
进一步可选的,上述将所述新的词条解码网络的路径概率归一包括:修改所述新的词条解码网络中每条完整路径的概率以使得所述新的词条解码网络的整体概率保持为1。从而可以始终保持词条的解码网络的整体概率为1。
在一些可选的实施例中,上述将所述新的n-gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络包括:将所述新的 n-gram语言模型构成的解码网络与初始说法解码网络并联成新的说法解码网络。上述将所述新的grammar语言模型构成的解码网络与初始词条解码网络合并成新的词条解码网络包括:将所述新的grammar语言模型构成的解码网络与初始词条解码网络并联成新的词条解码网络。从而通过并联的方式将新的解码网络与初始解码网络合并,使其形成新的解码网络,更好地用于说法和词条的解码。
请参考图2,其示出了本申请一实施例提供的一种语音识别解码方法的流程图,本实施例的语音识别训练方法可以适用于具备语音识别解码能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备语音识别解码能力的智能终端等。
如图2所示,在步骤201中,将接收的语句文本分为说法和至少一个词条;
在步骤202中,获取所述语句文本中的所述说法和所述至少一个词条的顺序;
在步骤203中,根据所述顺序,当走到说法路径时,进入与所述说法对应的n-gram语言模型解码网络进行解码,当走到词条路径时,进入对应的词条的grammar语言模型解码网络进行解码。
在本实施例中,对于步骤201,语音识别解码装置接收到语句文本之后,将该语句文本分成说法和至少一个词条,例如语句文本“我想去北京看看XXX广场”可以分解为说法“我想去…看看…”和词条@城市和@景点,本申请在此没有限制。之后,对于步骤202,语音识别解码装置获取该语句文本中说法和词条的顺序。最后对于步骤203,按照该顺序依次走到相应的路径,当走到说法路径时,进入与该说法对应的n-gram语言模型解码网络进行解码,当走到词条路径时,进入对应的词条的grammar语言模型解码网络进行解码。例如,“我想去北京看看XXX广场”会先使用与“我想去…看看…”的n-gram语言模型解码网络进行解码,先对“我想去”进行解码,然后转到词条@城市,然后再回到“看看”,之后再转到词条 @景点进行解码,从而完整地完成对整个语句文本的解码。
本实施例的方法通过采用预先训练好的说法解码网络和词条解码网络对语句文本进行解码,可以使得说法可以被n-gram语言模型更好地解码,而词条也会被grammar语言模型更精准地解码,用户体验更好。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
本申请的方案提出了一种语音识别系统,包括语音识别训练装置和语音识别解码装置。
本发明的识别系统适用于本地,提供了较灵活说的法识别及较精准的关键词识别,且支持用户自定义并快速在本地进行更新。用户往往更关注一些关键词的识别正确性,而允许一些其它词的识别错误。因而本发明提供一种适用于本地的识别系统,该系统的语言模型部分包含一个 ngram语言模型和多个grammar语言模型。本发明将语句文本分为说法和词条两部分,分别训练语言模型。通常,词条在句中的重要性大于说法,而说法的灵活性大于词条,因此本发明将说法部分训练n-gram语言模型,以适应说法的多样性;词条部分训练grammar语言模型以增强词条识别的准确率。
解码时,首先进入n-gram语言模型构成的解码网络,当走到词条路径时,进入对应词条的grammar解码网络。例如将说法“我想听#歌手#的 #歌曲#”训练成一个n-gram语言模型,将“周杰伦”、“简单爱”分别生成的歌手、歌曲词条grammar网络,语句“我想听周杰伦的简单爱”即能通过两部分组合而成的解码网络被正确识别。
本发明的识别系统在用户下载时即包含一个涵盖常用说法的n-gram 语言模型解码网络,和一些常用词条的grammar语言模型解码网络。同时,本发明的识别系统会给出支持的词条,并支持用户添加相关自定义的说法及词条内容。用户添加的说法会生成一个n-gram语言模型解码网络,与系统中原有的ngram语言模型网络并联成一个新的n-gram语言模型解码网络;用户添加的词条内容,会单独生成相应词条的grammar解码网络,与系统中原有词条的grammar解码网络并联成一个新网络,并将新网络路径概率归一。用户自定义的说法及词条内容有限,生成的 ngram及grammar语言模型较小,因而能在消耗较少资源的情况下快速更新解码网络,适用于本地。
下面将结合附图图3-图8,对一个具体实施例进行详细描述。
本发明实施例中系统初始包含一个如图3所示的说法3-gram解码网络及如图4图5所示的词条grammar解码网络。
当用户说“我想听周杰伦的告白气球”时,将首先进入图3网络,按0 →1→18→27→26→24进行状态转移,输出“我想听”,-ln概率为1.792,接着进入图4网络,按0→1进行状态转移,输出“周杰伦”,-ln概率为 1.609(即-ln(1/5)),然后回到图3状态24,按24→22→30进行状态转移,输出“的”,-ln概率为1.099,接着进入图5网络,按0→1→2进行状态转移,输出“告白气球”,-ln概率为1.609(即-ln(1/5)),然后回到图3 状态30,按30→3进行状态转移,结束,总体输出“我想听周杰伦的告白气球”,-ln概率1.792+1.609+1.099+1.609=6.109。
当用户说“放周杰伦的告白气球”时,将首先进入图3网络,按0→1 →2→15→33进行装填转移,输出“放”,-ln概率为 1.281+3.219+0.693=5.193。接着进入图4按0→1进行状态转移,输出“周杰伦”,-ln概率为1.609,随之回到图3状态33,按33→22→30状态转移,输出为“的”,-ln概率为1.099,然后进入图5按0→1→2进行状态转移,输出“告白气球”,-ln概率为1.609,接着回到图3状态30,按30→3 转移,结束。总体输出“放周杰伦的告白气球”,-ln概率为 5.193+1.609+1.099+1.609=9.51。此处的-ln概率(9.51)较大,说明原说法 3-gram对该说法支持得不够好。因此为识别得更好,用户可添加自定义说法“放@歌手的@歌曲”,本发明系统会将用户自定义说法训练3- gram语言模型并生成解码网络,与原说法解码网络并联,形成如图6所示的新的说法3-gram解码网络。
当用户再次说“放周杰伦的告白气球”时,首先进入图6按0→34→35 →42→44状态转移,输出“放”,-ln概率为0,随后转至图4,按0→1状态转移,输出“周杰伦”,-ln概率为1.609,再回到图6状态44,按44→ 43→45状态转移,输出“的”,-ln概率为0,转至图5,按0→1→2状态转移,输出“告白气球”,-ln概率为1.609,转回图6状态45,按45→37 状态转移,结束,总体输出“放周杰伦的告白气球”,-ln概率为 1.609+1.609=3.218。注意此时的-ln概率(3.218)远小于原始说法网络下的- ln概率(9.51),因而有更大概率正确识别用户所说的“放周杰伦的告白气球”。
当用户说“放苏运莹的野子”时,由于图4网络无法输出“苏运莹”,图 5网络无法输出“野子”,因而无法正确识别该说法。用户可添加“苏运莹”至词条@歌手,同时添加“野子”至词条@歌曲。本发明的识别系统会添加“苏运莹”至@歌手识别网络,并修改网络中每条完整路径的概率为- ln(1/N)(N是完整路径总数),如图7所示;同时系统会添加“野子”至@歌曲识别网络,并同样修改网络中每条完整路径的概率为-ln(1/N),如图8 所示。
此时,当用户再说“放苏运莹的野子”时,将首先进入图6网络,按0 →34→35→42→44状态转移,输出“放”,-ln概率为0,随后转至图7,按0→2→3→1状态转移,输出“苏运莹”,-ln概率为1.792(即-ln(1/6)) ,再回到图6状态44,按44→43→45状态转移,输出“的”,-ln概率为0 ,转至图8,按0→7→2状态转移,输出“野子”,-ln概率为1.792,转回图6状态45,按45→37状态转移,结束,总体输出“放周杰伦的告白气球”,-ln概率为1.792+1.792=3.584。因而“放苏运莹的野子”此时能较高概率的被正确识别。
以上说明中可以看出,本发明的识别系统对于说法支持较为灵活,而对词条的支持比较严格。同时,本发明在支持用户自定义时,仅需生成用户自定义部分的解码网络,与原网络并联,简单高效,能快速在本地实现。
请参考图9,其示出了本发明一实施例提供的一种语音识别训练装置的框图。
如图9所示,语音识别训练装置900,包括模型训练模块910、说法解码网络构成模块920和词条解码网络构成模块930。
其中,模型训练模块910,配置为对于初始说法和至少一个初始词条,分别训练与所述初始说法对应的n-gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型;说法解码网络构成模块920 ,配置为基于所述n-gram语言模型构成初始说法解码网络;词条解码网络构成模块930,配置为基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。
请参考图10,其示出了本发明一实施例提供的一种语音识别解码装置的框图。
如图10所示,语音识别解码装置包括分词模块1010、顺序获取模块 1020和解码模块1030。
其中,分词模块1010,配置为将接收的语句文本分为说法和至少一个词条;顺序获取模块1020,配置为获取所述语句文本中的所述说法和所述至少一个词条的顺序;解码模块1030,配置为根据所述顺序,先进入与所述说法对应的n-gram语言模型解码网络进行解码,当走到词条路径时,跳转到相应的词条的grammar语言模型解码网络进行解码,当词条网络走到终点后,跳回与所述说法对应的n-gram语言模型解码网络进行解码。
应当理解,图9和图10中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图9和图10中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如分词模块可以描述为将接收的语句文本分为说法和至少一个词条的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如分词模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音识别训练和解码方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
对于初始说法和至少一个初始词条,分别训练与所述说法对应的n- gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型;
基于所述n-gram语言模型构成初始说法解码网络;
基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将接收的语句文本分为说法和至少一个词条;
获取所述语句文本中的所述说法和所述至少一个词条的顺序;
根据所述顺序,先进入与所述说法对应的n-gram语言模型解码网络进行解码,当走到词条路径时,跳转到相应的词条的grammar语言模型解码网络进行解码,当词条网络走到终点后,跳回与所述说法对应的n- gram语言模型解码网络进行解码。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据上述装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至上述装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项方法。
图11是本发明实施例提供的电子设备的结构示意图,如图11所示,该设备包括:一个或多个处理器1110以及存储器1120,图11中以一个处理器1110为例。上述方法的设备还可以包括:输入装置1130和输出装置1140。处理器1110、存储器1120、输入装置1130和输出装置 1140可以通过总线或者其他方式连接,图11中以通过总线连接为例。存储器1120为上述的非易失性计算机可读存储介质。处理器1110通过运行存储在存储器1120中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例方法。输入装置1130可接收输入的数字或字符信息,以及产生与上述装置的用户设置以及功能控制有关的键信号输入。输出装置1140可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于语音识别训练装置中,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
对于初始说法和至少一个初始词条,分别训练与所述说法对应的n- gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型;
基于所述n-gram语言模型构成初始说法解码网络;
基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。
作为一种实施方式,上述电子设备应用于语音识别解码装置中,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
将接收的语句文本分为说法和至少一个词条;
获取所述语句文本中的所述说法和所述至少一个词条的顺序;
根据所述顺序,当走到说法路径时,进入与所述说法对应的n-gram 语言模型解码网络进行解码,当走到词条路径时,进入对应的词条的 grammar语言模型解码网络进行解码。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID 和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音识别训练方法,包括:
对于初始说法和至少一个初始词条,分别训练与所述初始说法对应的n-gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型;
基于所述n-gram语言模型构成初始说法解码网络;
基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。
2.根据权利要求1所述的方法,其中,所述方法还包括:
响应于用户添加新的说法,训练与所述新的说法对应的新的n-gram语言模型;
将所述新的n-gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络。
3.根据权利要求2所述的方法,其中,所述方法还包括:
响应于用户添加新的词条,生成与所述新的词条对应的新的grammar语言模型;
将所述新的grammar语言模型构成的解码网络与对应的初始词条解码网络合并成新的词条解码网络;
将所述新的词条解码网络的路径概率归一。
4.根据权利要求3所述的方法,其中,所述将所述新的词条解码网络的路径概率归一包括:
修改所述新的词条解码网络中每条完整路径的概率以使得所述新的词条解码网络的整体概率保持为1。
5.根据权利要求3所述的方法,其中,所述将所述新的n-gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络包括:
将所述新的n-gram语言模型构成的解码网络与初始说法解码网络并联成新的说法解码网络;
所述将所述新的grammar语言模型构成的解码网络与初始词条解码网络合并成新的词条解码网络包括:
将所述新的grammar语言模型构成的解码网络与初始词条解码网络并联成新的词条解码网络。
6.一种语音识别解码方法,包括:
将接收的语句文本分为说法和至少一个词条;
获取所述语句文本中的所述说法和所述至少一个词条的顺序;
根据所述顺序,当走到说法路径时,进入与所述说法对应的n-gram语言模型解码网络进行解码,当走到词条路径时,进入对应的词条的grammar语言模型解码网络进行解码。
7.一种语音识别训练装置,包括:
模型训练模块,配置为对于初始说法和至少一个初始词条,分别训练与所述说法对应的n-gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型;
说法解码网络构成模块,配置为基于所述n-gram语言模型构成初始说法解码网络;
词条解码网络构成模块,配置为基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。
8.一种语音识别解码装置,包括:
分词模块,配置为将接收的语句文本分为说法和至少一个词条;
顺序获取模块,配置为获取所述语句文本中的所述说法和所述至少一个词条的顺序;
解码模块,配置为根据所述顺序,先进入与所述说法对应的n-gram语言模型解码网络进行解码,当走到词条路径时,跳转到相应的词条的grammar语言模型解码网络进行解码,当词条网络走到终点后,跳回与所述说法对应的n-gram语言模型解码网络进行解码。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911052184.5A CN110827802A (zh) | 2019-10-31 | 2019-10-31 | 语音识别训练和解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911052184.5A CN110827802A (zh) | 2019-10-31 | 2019-10-31 | 语音识别训练和解码方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110827802A true CN110827802A (zh) | 2020-02-21 |
Family
ID=69551643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911052184.5A Pending CN110827802A (zh) | 2019-10-31 | 2019-10-31 | 语音识别训练和解码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110827802A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145734A (zh) * | 2020-02-28 | 2020-05-12 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111477217A (zh) * | 2020-04-08 | 2020-07-31 | 北京声智科技有限公司 | 一种命令词识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402867A (zh) * | 1999-12-02 | 2003-03-12 | 汤姆森许可贸易公司 | 含有固定和可变语法块的语言模型的语音识别装置 |
JP2017032738A (ja) * | 2015-07-31 | 2017-02-09 | 日本電信電話株式会社 | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム |
CN108288468A (zh) * | 2017-06-29 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
CN108388553A (zh) * | 2017-12-28 | 2018-08-10 | 广州索答信息科技有限公司 | 对话消除歧义的方法、电子设备及面向厨房的对话系统 |
US20180293218A1 (en) * | 2015-10-22 | 2018-10-11 | International Business Machines Corporation | Tabular data compilation |
-
2019
- 2019-10-31 CN CN201911052184.5A patent/CN110827802A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402867A (zh) * | 1999-12-02 | 2003-03-12 | 汤姆森许可贸易公司 | 含有固定和可变语法块的语言模型的语音识别装置 |
JP2017032738A (ja) * | 2015-07-31 | 2017-02-09 | 日本電信電話株式会社 | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム |
US20180293218A1 (en) * | 2015-10-22 | 2018-10-11 | International Business Machines Corporation | Tabular data compilation |
CN108288468A (zh) * | 2017-06-29 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
CN108388553A (zh) * | 2017-12-28 | 2018-08-10 | 广州索答信息科技有限公司 | 对话消除歧义的方法、电子设备及面向厨房的对话系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145734A (zh) * | 2020-02-28 | 2020-05-12 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111477217A (zh) * | 2020-04-08 | 2020-07-31 | 北京声智科技有限公司 | 一种命令词识别方法及装置 |
CN111477217B (zh) * | 2020-04-08 | 2023-10-10 | 北京声智科技有限公司 | 一种命令词识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109671421B (zh) | 离线导航的定制和实现方法及装置 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN110765270B (zh) | 用于口语交互的文本分类模型的训练方法及系统 | |
US12062357B2 (en) | Method of registering attribute in speech synthesis model, apparatus of registering attribute in speech synthesis model, electronic device, and medium | |
CN109767763B (zh) | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 | |
CN110349569B (zh) | 定制化产品语言模型的训练和识别方法及装置 | |
CN111816160A (zh) | 普通话和粤语混合语音识别模型训练方法及系统 | |
CN108108428B (zh) | 一种构建语言模型的方法、输入法及系统 | |
CN110930980A (zh) | 一种中英文混合语音的声学识别模型、方法及系统 | |
CN111601145A (zh) | 基于直播的内容展示方法、装置、设备及存储介质 | |
US11521653B2 (en) | Video sequence layout method, electronic device and storage medium | |
CN109377979B (zh) | 更新欢迎语的方法和系统 | |
CN111179915A (zh) | 基于语音的年龄识别方法及装置 | |
CN111353035B (zh) | 人机对话方法、装置、可读存储介质及电子设备 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN110597958B (zh) | 文本分类模型训练和使用方法及装置 | |
CN110827802A (zh) | 语音识别训练和解码方法及装置 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN111105803A (zh) | 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法 | |
CN109190116B (zh) | 语义解析方法、系统、电子设备及存储介质 | |
CN112837683B (zh) | 语音服务方法及装置 | |
CN110473524B (zh) | 语音识别系统的构建方法和装置 | |
CN111128120B (zh) | 文本转语音方法和装置 | |
CN110781327B (zh) | 图像搜索方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |