CN115206301A - 语音识别方法、装置、设备及存储介质 - Google Patents
语音识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115206301A CN115206301A CN202210834523.0A CN202210834523A CN115206301A CN 115206301 A CN115206301 A CN 115206301A CN 202210834523 A CN202210834523 A CN 202210834523A CN 115206301 A CN115206301 A CN 115206301A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- candidate
- hot
- target candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术,揭露了一种语音识别方法、装置、设备及存储介质,所述方法包括:将语音数据分帧输入ASR模型,得到多个候选字及其声学概率;通过对当前帧对应的候选字及其声学概率进行束搜索,得到当前帧对应的第一目标候选字;判断第一目标候选字与热词图中的热词是否匹配;若匹配,从热词图中确定下一帧的备选字,当下一帧的候选字中包括备选字,将备选字作为第二目标候选字;若不匹配,则通过束搜索确定下一帧的第二目标候选字,直至各帧对应的目标候选字都确定完毕;基于各目标候选字,得到多个语句组合及其声学得分,并利用语句组合搜索热词图,获取热词得分;基于声学得分和热词得分,确定识别结果。本申请提高了语音识别的准确度。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音识别方法、装置、设备及存储介质。
背景技术
随着社会和技术的不断发展,语音识别技术的应用越来越普遍,在现有的语音识别的应用中,对于常用的词汇识别效果较好,但是对于一些特有的人名、歌名、地名或者某个领域的专有词汇,例如人名“宋xx”、歌名“国际歌”、地名“丽泽商务区”以及语音识别专业词汇“解码器”等,存在识别准确率不高的情况。针对这一情况,现有技术常通过添加热词进行识别特有名词,但仅通过热词进行特有名词的匹配识别,识别准确率依旧不高。因此,如何解决语音识别准确率较低的问题成为了亟待解决的问题。
发明内容
本申请提供了一种语音识别方法、装置、设备及存储介质,以解决现有语音识别准确率较低的问题。
为解决上述问题,本申请提供了一种语音识别方法,包括:
将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率;
通过对当前帧对应的所述候选字及其声学概率进行束搜索,得到所述当前帧对应的第一目标候选字;
判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到;
若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;
若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;
基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;
基于所述声学得分和热词得分,确定识别结果。
进一步的,所述热词图基于预设热词表构建得到包括:
对所述预设热词表中的热词进行拆分,得到待处理字;
根据各热词对应的字数,从大到小依次利用对应的所述待处理字构建所述热词图中连接各节点的弧线,并设定了对应的弧权重,其中,所述待处理字与弧线一一对应,热词对应的多个待处理字在所述热词图中形成闭环。
进一步的,所述设定了对应的弧权重之后,还包括:
在所述热词图的各节点上设置有回退弧,所述回退弧为连接各节点与初始节点的弧线,并且所述回退弧对应的权重为各所述节点已有权重的相反数;
当在后构建的热词为在先已构建完成热词的前缀时,对所述已构建完成热词的前缀对应节点的回退弧权重进行置零处理。
进一步的,所述基于各帧对应的目标候选字,得到多个语句组合及其对应的声学得分包括:
基于各帧对应的所述目标候选字,确定多个所述语句组合;
根据所述语句组合中包含的所述目标候选字,获取所述目标候选字对应的声学概率;
将所述目标候选字对应的声学概率相乘得到所述声学得分。
进一步的,所述基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字包括:
基于所述第一目标候选字,确定所述热词图中的目标节点;
根据所述目标节点,将与所述目标节点连接的弧线对应的待处理字作为备选字;
当所述下一帧的候选字中包括所述备选字时,确定包含所述备选字的数量;
判断所述数量是否小于等于所述预设数量;
若所述数量小于等于所述预设数量,则确定数量与预设数量的差值,根据所述差值,基于下一帧中候选字对应的声学概率进行剩余候选字的确定;
若所述数量大于所述预设数量,则将声学概率最高的前预设数量的备选字作为所述第二目标候选字。
进一步的,所述基于所述声学得分和热词得分,确定识别结果包括:
通过所述声学得分和热词得分,确定各所述语句组合的总得分;
将总得分最高的所述语句组合,作为所述识别结果。
为了解决上述问题,本申请还提供一种语音识别装置,所述装置包括:
识别模块,用于将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率;
搜索模块,用于通过对当前帧对应的所述候选字及其声学概率进行束搜索,得到所述当前帧对应的第一目标候选字;
匹配判断模块,用于判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到;
对应处理模块,用于若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;
得分计算模块,用于基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;
语句确定模块,用于基于所述声学得分和热词得分,确定识别结果。
进一步的,所述匹配判断模块包括:
拆分子模块,用于对所述预设热词表中的热词进行拆分,得到待处理字;
图构建子模块,用于根据各热词对应的字数,从大到小依次利用对应的所述待处理字构建所述热词图中连接各节点的弧线,并设定了对应的弧权重,其中,所述待处理字与弧线一一对应,热词对应的多个待处理字在所述热词图中形成闭环。
为了解决上述问题,本申请还提供一种计算机设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的语音识别方法。
为了解决上述问题,本申请还提供一种非易失性的计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的语音识别方法。
根据本申请实施例提供的一种语音识别方法、装置、设备及存储介质,与现有技术相比至少具有以下有益效果:
将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率,并从首帧开始,对候选字及其对应的声学概率进行束搜索,得到首帧或当前帧对应的第一目标候选字;实现对各帧的目标候选字的确定,在各帧的目标候选字的确定过程中,在确定例如首帧的第一目标候选字后,判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到,若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;实现在束搜索过程中,同时进行热词匹配;基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;基于所述声学得分和热词得分,确定识别结果。实现提高了语音识别的准确率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图做一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的语音识别方法的流程示意图;
图2为图1中步骤S3的一种具体实施方式的流程示意图;
图3为本申请一实施例示出的热词图;
图4为图1中步骤S4的一种具体实施方式的流程示意图;
图5为图1中步骤S6的一种具体实施方式的流程示意图;
图6为本申请一实施例提供的语音识别装置的模块示意图;
图7为本申请一实施例的计算机设备的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例,也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请提供一种语音识别方法。参照图1所示,图1为本申请一实施例提供的语音识别方法的流程示意图。
在本实施例中,语音识别方法包括:
S1、将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率;
具体的,将获取到的语音数据分帧输入ASR模型进行处理,进一步的,所述语言数据可从数据库中获取,或者由前端实时获取到语音数据并上传至服务器进行处理。
所述ASR模型为端到端模型,其通过将常规的声学模型、发音词典、语言模型融合在了一起,使用与ASR目标一致的单一目标函数来优化整个网络,保证了全局最优,能直接输出字符甚至单词,通过将声学特征分帧输入ASR模型进行识别,得到各帧对应的候选字及其对应的声学概率。
S2、通过对当前帧对应的所述候选字及其声学概率进行束搜索,得到所述当前帧对应的第一目标候选字;
具体的,从语音数据的首帧开始,将首帧对应的多个候选字及其对应的声学概率进行束搜索,即将所述首帧中声学概率最高的前预设个数的候选字作为第一目标候选字。往后各帧将依次判断。
束搜索(beam search)是对贪婪搜索的一个改进算法。它有一个束宽(beam size)超参数。我们将它设为k。在时间步1时,选取当前时间步条件概率最大的k个词,分别组成k个候选输出序列的首词。在之后的每个时间步,基于上个时间步的k个候选输出序列,从k|Y|个可能的输出序列中选取条件概率最大的k个,作为该时间步的候选输出序列。
S3、判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到;
具体的,在进行束搜索的同时,为避免热词中的待处理词由于声学概率较低,在束搜索过程中未被选中,所以从首帧开始,根据第一目标候选字,判断与所述热词图中的热词是否匹配,若不匹配,则正常进行束搜索,进行语音数据中第二帧的目标候选字的确定,确定完毕后,再判断与所述热词图中的热词是否匹配,直至所述语音数据的最后一帧或倒数第二帧。
进一步的,如图2所示,所述热词图基于预设热词表构建得到包括:
对所述预设热词表中的热词进行拆分,得到待处理字;
根据各热词对应的字数,从大到小依次利用对应的所述待处理字构建所述热词图中连接各节点的弧线,并设定了对应的弧权重,其中,所述待处理字与弧线一一对应,热词对应的多个待处理字在所述热词图中形成闭环。
具体的,首先从数据库中获取到预设热词表,对所述预设热词表中的热词进行拆分,得到各热词对应的多个字,如热词“平安大厦”、“平安人”、“维达”以及“平安”将拆分为“平,安,大,厦”、“平、安、人”、“维、达”、“平、安”待处理字;在对各热词拆分完成后,进行热词图的构建,所有热词对应的字都从初始节点开始构建,如图3所示,为根据所述预设热词表构建得到的热词图,在本申请中用节点0表示初始节点,利用所述待处理字构建所述热词图中连接各节点的弧线,并依照热词对应的待处理字的排列顺序依次构建,其中每条弧线上的文字表示的含义为输入、输出以及权重,一个完整的热词从节点0出发,并到节点0结束,形成一个闭环。并且由于是根据热词对应的字数,从大到小进行依次构建,由于热词“平安人”会在后构建,热词“平安大厦”和“平安人”具有相同的前缀“平安”,所以热词“平安人”会在已构建完毕的“平安大厦”的热词上,在节点3生成一条表示“人”的弧线回到节点0,通过根据各热词对应的字数,从大到小依次利用待处理字来构建热词图,尽量避免热词图生成多余分支,有利于后续的遍历匹配。
通过完成热词图的构建,便于后续目标候选字的匹配以及热词得分的获取,提高了语音识别中热词识别的准确率,从而进一步提高语言识别的准确率。
再进一步的,所述设定了对应的弧权重之后,还包括:
在所述热词图的各节点上设置有回退弧,所述回退弧为连接各节点与初始节点的弧线,并且所述回退弧对应的权重为各所述节点已有权重的相反数;
当在后构建的热词为在先已构建完成热词的前缀时,对所述已构建完成热词的前缀对应节点的回退弧权重进行置零处理。
具体的,如图3所示,在各节点上还设置有回退弧,用于当热词的部分前缀匹配,而后续字词不配时的退出机制,如当热词为“平安大厦”、现有语句组合为“平安金融”时,利用“平安金融”来依次遍历热词图中,仅能匹配成功“平安大厦”中的“平安”后续内容不匹配,此时就需退出遍历步骤,由于以匹配到平安两字,即已在节点3,带有得分2了,由于匹配不成功,所以不可能有热词得分,所以通过节点4的退回弧退回到0节点,同时由于回退弧的权重为-2,所以回到0节点后,对应的热词得分为0,热词得分的具体算法为其匹配时经过路径对应的权重和,即经过弧线的权重和。所述回退弧对应的权重为各所述节点已有权重的相反数,如节点1和节点2都为0节点经一条弧线到达的节点,其对应的权重即为1,同理节点3为0节点经过两天弧线到达的节点,其对应的权重即为2,所以节点3对应回退弧的权重即为-2。
而对于在后构建的热词为在先已构建完成热词的前缀时,如“平安大厦”与“平安”,热词“平安”完全为热词“平安大厦”的前缀,由于在先构建的的热词“平安大厦”中的“平安”已到节点3,热词匹配成功或不成功都需回到节点0的,而此时节点3回到节点0只能通过回退弧,回退弧的权重又为-2,显然不合理,所以将节点3的回退弧的权重置为0,此时“平安”匹配成功的得分即为2。
通过在热词图中设定回退弧,提高热词图的可匹配能力,以及得分计算的准确度。
S4、若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;
具体的,所述第一目标候选字与热词图中的热词对应的字匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,如图3所述,当确定所述第一目标候选字为“平”后,与热词图中的字匹配成功,则确定所述第一目标候选字为“平”的下一帧备选字,只有“安”;同时还需查看下一帧的候选字是否包含了备选字,若包含所述备选字,不论所述备选字对应的声学概率的大小,都需将所述备选字作为下一帧的第二目标候选字,此处仅以从候选字中选取一个为例进行说明,实际情况中,对各帧会选取多个字,作为本帧的目标候选字。同理依次类推,直至各帧的目标候选字都确定完毕。
进一步的,如图4所示,所述基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字包括:
基于所述第一目标候选字,确定所述热词图中的目标节点;
根据所述目标节点,将与所述目标节点连接的弧线对应的待处理字作为备选字;
当所述下一帧的候选字中包括所述备选字时,确定包含所述备选字的数量;
判断所述数量是否小于等于所述预设数量;
若所述数量小于等于所述预设数量,则确定数量与预设数量的差值,根据所述差值,基于下一帧中候选字对应的声学概率进行剩余候选字的确定;
若所述数量大于所述预设数量,则将声学概率最高的前预设数量的备选字作为所述第二目标候选字。
具体的,基于所述第一目标候选字,确定所述热词图中的目标节点,如图3所示,例如当当前帧具体对应语音数据的第二帧,所述第一目标候选字确定为“安”,“安”在所述热词图中指向节点3,节点3即为目标节点,从目标节点3指出的弧线有两条,分别对应“大”和“人”,将所述“大”和“人”作为备选字;
获取当前帧的下一帧对应的候选字,例如有“大”“达”“当”等时,下一帧的候选字包括所述备选字“大”,且仅有一个备选字。由于在每帧都会确定预设数量的目标候选字,在本申请中,如每帧确定3个目标候选字。
此时所述备选字的数量小于所述预设数量,并且差值为2,所以需按正常的束搜索过程,进行剩余两个目标候选字的确定,具体根据下一帧对应候选字的声学概率,选取声学概率最前的两个候选字,作为所述第二目标候选字;
若所述数量大于所述预设数量,则获取备选字对应的声学概率,将声学概率最高的前预设数量的备选字作为所述第二目标候选字。
基于第一目标候选字,通过热词图确定下一帧的备选字,并基于所述备选字的数量以及是否包含在所述下一帧的候选字中,确定是否从下一帧的候选字中确定目标候选字,确保热词中的字不会因声学概率偏小而被舍弃,提高了热词识别的准确度,从而提高了语音识别的准确度。
S5、若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;
具体的,所述第一目标候选字与热词图中的热词对应的字不匹配时,则进行下一帧的目标候选字的确定,下一帧目标候选字的确定同样以束搜索来进行,即根据下一帧的候选字对应的声学概率来进行确定,选取声学概率最高的前预设数量的候选字作为第二目标候选字,在本申请的其他实施例中,还可根据每个字的条件概率来选取目标候选字。当每帧对应的目标候选字都位于热词图中热词对应的字匹配,则各帧都通过束搜索来进行目标候选字的确定。
S6、基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;
具体的,基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,所述声学得分为所述对应语句组合中各目标候选字对应的声学概率乘积;并利用所述语句组合搜索热词图,其中搜索热词图步骤可在目标候选字确定时同步执行,或在确定语句组合后,重新搜索,根据搜索过程经过的弧线,获取搜索路上的权重,从而得到对应的热词得分。
进一步的,如图5所示,所述基于各帧对应的目标候选字,得到多个语句组合及其对应的声学得分包括:
基于各帧对应的所述目标候选字,确定多个所述语句组合;
根据所述语句组合中包含的所述目标候选字,获取所述目标候选字对应的声学概率;
将所述目标候选字对应的声学概率相乘得到所述声学得分。
根据各帧对应的所述目标候选字,如一语音数据包括两帧,在第一帧中确定所述目标候选字为“打”、“大”,当声学概率为条件概率时,会存在第二帧中接在“大”后面的声学概率更高,为“人”和“能”,从而确定语句组合为“大人”和“大能”。
获取“大”、“人”和“能”对应声学概率,将“大”和“人”的声学概率相乘,得到语句组合“大人”的声学得分;将“大”和“能”的声学概率相乘,得到语句组合“大能”的声学得分。
通过对语句组合的确定,并基于语句组合中各目标候选字的声学概率,得到对应的声学得分,实现准确计算声学得分。
S7、基于所述声学得分和热词得分,确定识别结果。
进一步的,所述基于所述声学得分和热词得分,确定识别结果包括:
通过所述声学得分和热词得分,确定各所述语句组合的总得分;
将总得分最高的所述语句组合,作为所述识别结果。
具体的,具体的,通过各语句组合对应的声学得分和热词得分后,对声学得分和热词得分分别进行一系列的线性变换后相加,还可引入热词增强系数对热词得分进行加强,得到各所述语句组合的总得分,将总得分最高的所述语句组合,作为所述识别结果。
通过基于所述声学得分和热词得分,来得到最终的识别结果,提高了语音识别的准确率。
需要强调的是,为了进一步保证数据的私密性和安全性,所述第一账户信息和第一认证信息的所有数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本实施例的语音识别方法将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率,并从首帧开始,对候选字及其对应的声学概率进行束搜索,得到首帧或当前帧对应的第一目标候选字;实现对各帧的目标候选字的确定,在各帧的目标候选字的确定过程中,在确定例如首帧的第一目标候选字后,判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到,若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;实现在束搜索过程中,同时进行热词匹配;基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;基于所述声学得分和热词得分,确定识别结果。实现提高了语音识别的准确率。
本实施例还提供一种语音识别装置,如图6所示,是本申请语音识别装置的功能模块图。
本申请所述语音识别装置100可以安装于电子设备中。根据实现的功能,所述语音识别装置100可以包括识别模块101、搜索模块102、匹配判断模块103、对应处理模块104、得分计算模块105以及语句确定模块106。本申请所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
识别模块101,用于将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率;
搜索模块102,用于通过对当前帧对应的所述候选字及其声学概率进行束搜索,得到所述当前帧对应的第一目标候选字;
匹配判断模块103,用于判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到;
进一步的,所述匹配判断模块103包括:拆分子模块和图构建子模块;
拆分子模块,用于对所述预设热词表中的热词进行拆分,得到待处理字;
图构建子模块,用于根据各热词对应的字数,从大到小依次利用对应的所述待处理字构建所述热词图中连接各节点的弧线,并设定了对应的弧权重,其中,所述待处理字与弧线一一对应,热词对应的多个待处理字在所述热词图中形成闭环。
通过拆分子模块和图构建子模块的配合,完成热词图的构建,便于后续目标候选字的匹配以及热词得分的获取,提高了语音识别中热词识别的准确率,从而进一步提高语言识别的准确率。
再进一步的,所述匹配判断模块103还包括:回退弧设置子模块和置零子模块;
所述回退弧设置子模块,用于在所述热词图的各节点上设置有回退弧,所述回退弧为连接各节点与初始节点的弧线,并且所述回退弧对应的权重为各所述节点已有权重的相反数;
所述置零子模块,用于当在后构建的热词为在先已构建完成热词的前缀时,对所述已构建完成热词的前缀对应节点的回退弧权重进行置零处理。
通过回退弧设置子模块和置零子模块的配合,在热词图中设定回退弧,提高热词图的可匹配能力,以及得分计算的准确度。
对应处理模块104,用于若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;
进一步的,所述对应处理模块104包括:节点确定子模块、备选字确定子模块、数量确定子模块、判断子模块以及处理子模块;
所述节点确定子模块,用于基于所述第一目标候选字,确定所述热词图中的目标节点;
所述备选字确定子模块,用于根据所述目标节点,将与所述目标节点连接的弧线对应的待处理字作为备选字;
所述数量确定子模块,用于当所述下一帧的候选字中包括所述备选字时,确定包含所述备选字的数量;
所述判断子模块,用于判断所述数量是否小于等于所述预设数量;
所述处理子模块,用于若所述数量小于等于所述预设数量,则确定数量与预设数量的差值,根据所述差值,基于下一帧中候选字对应的声学概率进行剩余候选字的确定;若所述数量大于所述预设数量,则将声学概率最高的前预设数量的备选字作为所述第二目标候选字。
通过节点确定子模块、备选字确定子模块、数量确定子模块、判断子模块以及处理子模块的配合,基于第一目标候选字,通过热词图确定下一帧的备选字,并基于所述备选字的数量以及是否包含在所述下一帧的候选字中,确定是否从下一帧的候选字中确定目标候选字,确保热词中的字不会因声学概率偏小而被舍弃,提高了热词识别的准确度,从而提高了语音识别的准确度。
得分计算模块105,用于基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;
进一步的,所述得分计算模块105包括语句组合确定子模块、概率确定子模块以及计算子模块;
所述语句组合确定子模块,用于基于各帧对应的所述目标候选字,确定多个所述语句组合;
所述概率确定子模块,用于根据所述语句组合中包含的所述目标候选字,获取所述目标候选字对应的声学概率;
所述计算子模块,用于将所述目标候选字对应的声学概率相乘得到所述声学得分。
通过语句组合确定子模块、概率确定子模块以及计算子模块的配合,对语句组合的确定,并基于语句组合中各目标候选字的声学概率,得到对应的声学得分,实现准确计算声学得分。
语句确定模块106,用于基于所述声学得分和热词得分,确定识别结果。
进一步的,所述语句确定模块106包括:总得分确定子模块和结果确定子模块;
所述总得分确定子模块,用于通过所述声学得分和热词得分,确定各所述语句组合的总得分;
所述结果确定子模块,用于将总得分最高的所述语句组合,作为所述识别结果。
通过总得分确定子模块和结果确定子模块的配合,基于所述声学得分和热词得分,来确定最终的识别结果,提高了语音识别的准确率。
通过采用上述装置,所述语音识别装置100通过识别模块101、搜索模块102、匹配判断模块103、对应处理模块104、得分计算模块105以及语句确定模块106的配合使用,将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率,并从首帧开始,对候选字及其对应的声学概率进行束搜索,得到首帧或当前帧对应的第一目标候选字;实现对各帧的目标候选字的确定,在各帧的目标候选字的确定过程中,在确定例如首帧的第一目标候选字后,判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到,若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;实现在束搜索过程中,同时进行热词匹配;基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;基于所述声学得分和热词得分,确定识别结果。实现提高了语音识别的准确率。
本申请实施例还提供一种计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如语音识别方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述语音识别方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例语音识别方法的步骤,将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率,并从首帧开始,对候选字及其对应的声学概率进行束搜索,得到首帧或当前帧对应的第一目标候选字;实现对各帧的目标候选字的确定,在各帧的目标候选字的确定过程中,在确定例如首帧的第一目标候选字后,判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到,若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;实现在束搜索过程中,同时进行热词匹配;基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;基于所述声学得分和热词得分,确定识别结果。实现提高了语音识别的准确率。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语音识别方法的步骤,将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率,并从首帧开始,对候选字及其对应的声学概率进行束搜索,得到首帧或当前帧对应的第一目标候选字;实现对各帧的目标候选字的确定,在各帧的目标候选字的确定过程中,在确定例如首帧的第一目标候选字后,判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到,若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;实现在束搜索过程中,同时进行热词匹配;基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;基于所述声学得分和热词得分,确定识别结果。实现提高了语音识别的准确率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
本申请上述实施例的语音识别装置、计算机设备、计算机可读存储介质具有与上述实施例的语音识别方法相同的技术效果,在此不作展开。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率;
通过对当前帧对应的所述候选字及其声学概率进行束搜索,得到所述当前帧对应的第一目标候选字;
判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到;
若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;
若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;
基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;
基于所述声学得分和热词得分,确定识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述热词图基于预设热词表构建得到包括:
对所述预设热词表中的热词进行拆分,得到待处理字;
根据各热词对应的字数,从大到小依次利用对应的所述待处理字构建所述热词图中连接各节点的弧线,并设定了对应的弧权重,其中,所述待处理字与弧线一一对应,热词对应的多个待处理字在所述热词图中形成闭环。
3.根据权利要求2所述的语音识别方法,其特征在于,所述设定了对应的弧权重之后,还包括:
在所述热词图的各节点上设置有回退弧,所述回退弧为连接各节点与初始节点的弧线,并且所述回退弧对应的权重为各所述节点已有权重的相反数;
当在后构建的热词为在先已构建完成热词的前缀时,对所述已构建完成热词的前缀对应节点的回退弧权重进行置零处理。
4.根据权利要求1所述的语音识别方法,其特征在于,所述基于各帧对应的目标候选字,得到多个语句组合及其对应的声学得分包括:
基于各帧对应的所述目标候选字,确定多个所述语句组合;
根据所述语句组合中包含的所述目标候选字,获取所述目标候选字对应的声学概率;
将所述目标候选字对应的声学概率相乘得到所述声学得分。
5.根据权利要求2所述的语音识别方法,其特征在于,所述基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字包括:
基于所述第一目标候选字,确定所述热词图中的目标节点;
根据所述目标节点,将与所述目标节点连接的弧线对应的待处理字作为备选字;
当所述下一帧的候选字中包括所述备选字时,确定包含所述备选字的数量;
判断所述数量是否小于等于所述预设数量;
若所述数量小于等于所述预设数量,则确定数量与预设数量的差值,根据所述差值,基于下一帧中候选字对应的声学概率进行剩余候选字的确定;
若所述数量大于所述预设数量,则将声学概率最高的前预设数量的备选字作为所述第二目标候选字。
6.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述声学得分和热词得分,确定识别结果包括:
通过所述声学得分和热词得分,确定各所述语句组合的总得分;
将总得分最高的所述语句组合,作为所述识别结果。
7.一种语音识别装置,其特征在于,所述装置包括:
识别模块,用于将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率;
搜索模块,用于通过对当前帧对应的所述候选字及其声学概率进行束搜索,得到所述当前帧对应的第一目标候选字;
匹配判断模块,用于判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到;
对应处理模块,用于若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;
得分计算模块,用于基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;
语句确定模块,用于基于所述声学得分和热词得分,确定识别结果。
8.根据权利要求7所述的语音识别装置,其特征在于,所述匹配判断模块包括:
拆分子模块,用于对所述预设热词表中的热词进行拆分,得到待处理字;
图构建子模块,用于根据各热词对应的字数,从大到小依次利用对应的所述待处理字构建所述热词图中连接各节点的弧线,并设定了对应的弧权重,其中,所述待处理字与弧线一一对应,热词对应的多个待处理字在所述热词图中形成闭环。
9.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一所述的语音识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210834523.0A CN115206301A (zh) | 2022-07-14 | 2022-07-14 | 语音识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210834523.0A CN115206301A (zh) | 2022-07-14 | 2022-07-14 | 语音识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115206301A true CN115206301A (zh) | 2022-10-18 |
Family
ID=83581471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210834523.0A Pending CN115206301A (zh) | 2022-07-14 | 2022-07-14 | 语音识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115206301A (zh) |
-
2022
- 2022-07-14 CN CN202210834523.0A patent/CN115206301A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
CN109359175B (zh) | 电子装置、诉讼数据处理的方法及存储介质 | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
CN111428488A (zh) | 简历数据信息解析及匹配方法、装置、电子设备及介质 | |
CN108763535B (zh) | 信息获取方法及装置 | |
CN111310440B (zh) | 文本的纠错方法、装置和系统 | |
CN110808032B (zh) | 一种语音识别方法、装置、计算机设备及存储介质 | |
CN111144110A (zh) | 拼音标注方法、装置、服务器及存储介质 | |
CN111613212A (zh) | 语音识别方法、系统、电子设备和存储介质 | |
CN110825857A (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN113642316B (zh) | 中文文本纠错方法、装置、电子设备及存储介质 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN113128228A (zh) | 语音指令识别方法、装置、电子设备及存储介质 | |
CN112395391A (zh) | 概念图谱构建方法、装置、计算机设备及存储介质 | |
CN112085091A (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN114358023A (zh) | 智能问答召回方法、装置、计算机设备及存储介质 | |
CN111694936A (zh) | 用于ai智能面试的识别的方法、装置、计算机设备及存储介质 | |
CN115206301A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN115964997A (zh) | 选择题的混淆选项生成方法及装置、电子设备、存储介质 | |
CN113420143B (zh) | 文书摘要生成方法、装置、设备及存储介质 | |
CN113486680B (zh) | 文本翻译方法、装置、设备及存储介质 | |
CN113990286A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113901821A (zh) | 一种实体命名识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |