CN113724688B - 语音识别的后处理方法、装置和计算机设备 - Google Patents
语音识别的后处理方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113724688B CN113724688B CN202111297201.9A CN202111297201A CN113724688B CN 113724688 B CN113724688 B CN 113724688B CN 202111297201 A CN202111297201 A CN 202111297201A CN 113724688 B CN113724688 B CN 113724688B
- Authority
- CN
- China
- Prior art keywords
- candidate word
- score
- length
- candidate
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012805 post-processing Methods 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 82
- 238000012937 correction Methods 0.000 claims description 45
- 238000012216 screening Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种语音识别的后处理方法、装置和计算机设备,识别系统首先获取语音识别模型输出的序列矩阵,以及预设的候选词列表,其中,候选词列表包含多个候选词。识别系统根据各个候选词各自在序列矩阵的候选词路径之和,分别计算得到各个候选词对应的候选词得分。最后,控制系统根据各个候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果。本申请通过在预设的候选词列表的基础上,对序列矩阵进行筛选,从而减少了候选词路径的搜索规模,提高了搜索速度。并在筛选语音识别的最终结果时,综合了各个候选词的候选词得分以及候选词长度,从而规避了识别结果偏向于候选词长度较短的不足,有效提高了语音识别的准确率。
Description
技术领域
本申请涉及语音识别技术领域,特别涉及一种语音识别的后处理方法、装置和计算机设备。
背景技术
唤醒词、命令词识别属于语音识别领域,广泛应用于智能家居、智能终端等场景。现有唤醒词、命令词模型在应用时,实时检测用户的语音,当检测到特定词汇时,即做出反馈。语音识别一般的后处理方式为:在语音识别模型输出的解码空间(比如CTC方式为神经网络输出的音素概率矩阵,大小是序列长度*音素类数的矩阵)搜索最优路径,该最优路径即为最终的识别结果。
在解码空间搜索最优路径时,其基本原理为概率值相乘从而得到路径的得分,这种处理方式就决定了命令词长度短的候选词的路径,相比命令词长的候选词的路径,在相同条件下,可获得更高的分值(比如命令词“你好”“你好,XX”,则“你好”会获得更高的分值从而被判定为最终识别结果),从而有可能出现命令词误识别,严重影响了语音识别的准确度。
发明内容
本申请的主要目的为提供一种语音识别的后处理方法、装置和计算机设备,旨在解决现有语音识别的准确度不高的弊端。
为实现上述目的,本申请提供了一种语音识别的后处理方法,包括:
获取语音识别模型输出的序列矩阵,以及预设的候选词列表,所述候选词列表包含多个候选词;
根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分;
根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果。
本申请还提供了一种语音识别的后处理装置,包括:
获取模块,用于获取语音识别模型输出的序列矩阵,以及预设的候选词列表,所述候选词列表包含多个候选词;
计算模块,用于根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分;
筛选模块,用于根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种语音识别的后处理方法、装置和计算机设备,识别系统首先获取语音识别模型输出的序列矩阵,以及预设的候选词列表,其中,候选词列表包含多个候选词。识别系统根据各个候选词各自在序列矩阵的候选词路径之和,分别计算得到各个候选词对应的候选词得分。最后,控制系统根据各个候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果。本申请通过在预设的候选词列表的基础上,对序列矩阵进行筛选,从而减少了候选词路径的搜索规模,提高了搜索速度。并在筛选语音识别的最终结果时,综合了各个候选词的候选词得分以及候选词长度,从而规避了识别结果偏向于候选词长度较短的不足,有效提高了语音识别的准确率。
附图说明
图1是本申请一实施例中语音识别的后处理方法的步骤示意图;
图2是本申请一实施例中语音识别的后处理装置的整体结构框图;
图3是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种语音识别的后处理方法,包括:
S1:获取语音识别模型输出的序列矩阵,以及预设的候选词列表,所述候选词列表包含多个候选词;
S2:根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分;
S3:根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果。
本实施例中,用户将语音数据输入语音识别模型,语音识别模型对语音数据进行相应处理后,输出该语音数据对应的序列矩阵(以ctc(Connectionist TemporalClassification)方式为例,语音识别模型输出的序列矩阵为音素概率矩阵,大小是序列长度*音素类数的矩阵)。识别系统对语音识别模型输出的序列矩阵进行后处理,从而识别得到最终结果。具体地,识别系统调取预设的候选词列表,该候选词列表包含厂家预设或用户自定义的多个候选词(比如语音系统应用于空调机,其预设的候选词总共有4个:“打开空调”、“关闭空调”、“升高温度”、“降低温度”,则这4个候选词组成候选词列表)。识别系统首先剔除序列矩阵轴的无效列,然后在剔除无效列后的序列矩阵的基础上,分别获取各个候选词在序列矩阵上映射的所有候选词路径的得分总和,从而得到各个候选词对应的候选词得分。识别系统首先通过剔除无效列,减少了序列矩阵的规模;然后基于预设的候选词列表在序列矩阵上进行得分计算,相较于现有技术中需要遍历整个序列矩阵、从而计算序列矩阵上所有路径的得分,能够进一步减少路径搜索的规模,从而大幅度提高了搜索速度。在得到各个候选词对应的候选词得分后,识别系统将各个候选词按照各自对应的候选词得分进行降序排列,形成候选词得分列表。然后按照候选词得分列表的排序依次遍历各个候选词,根据预设规则对各个候选词的候选词得分以及候选词长度进行处理,在两个候选词的候选词长度不同时,对候选词长度较长的候选词得分(或者候选词长度较短的候选词得分)进行修正,规避候选词长度对候选词得分的影响,最后进行得分比较筛选得到语音识别的最终结果。
本实施例中,识别系统通过在预设的候选词列表的基础上,对序列矩阵进行筛选,从而减少了候选词路径的搜索规模,提高了搜索速度。并在筛选语音识别的最终结果时,综合了各个候选词的候选词得分以及候选词长度,从而规避了识别结果偏向于候选词长度较短的不足,有效提高了语音识别的准确率。
进一步的,所述根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分的步骤,包括:
S201:从所述序列矩阵中剔除无效列,并根据剔除所述无效列后的序列矩阵获取各所述候选词各自对应的所有候选词路径的得分总和,所述无效列表征所述序列矩阵中有效信息达不到预设要求的列;
S202:获取各所述候选词对应的有效长度,并将所述得分总和除以所述有效长度,得到各所述候选词对应的候选词得分。
优选的,所述获取各所述候选词对应的有效长度的步骤,单个所述候选词的有效长度的获取步骤为:
S2021:调取窗口长度,并计算所述窗口长度与所述候选词对应的得分总和之间的差值,得到所述候选词的有效长度,所述窗口长度与所述语音识别模型的输入语音数据相关联。
本实施例中,识别系统从序列矩阵中识别出所有blank对应的位置,然后从中筛选出分数值小于第一阈值的各个blank的对应位置,并将blank(分数值小于第一阈值的blank对应位置)所在的列判定为无效列。这些无效列表征序列矩阵中有效信息较少,达不到预设要求的列,将其剔除后可以有效减少识别系统在序列矩阵上搜索候选词路径的规模,从而提高搜索速度。识别系统在剔除无效列后的序列矩阵上搜索各个候选词各自对应的所有候选词路径的得分总和;以单个候选词对应的得分总和为例进行说明,识别系统首先搜索该候选词在序列矩阵中映射的所有候选词路径,然后获取各个候选词路径各自对应的路径得分,最后将各个路径得分进行加和计算,从而得到该候选词对应的得分总和。控制系统调取窗口长度(该窗口长度与语音识别模型的输入语音数据相关联,比如输入语音数据的时长为1.6s,输出为40帧数据帧,则窗口长度为40),然后计算窗口长度与候选词对应的得分总和之间的差值(即用窗口长度减去得分总和),从而得到该候选词的有效长度。按照上述处理逻辑,识别系统获取各个候选词对应的有效长度,然后将各个候选词对应的得分总和除以自身对应的有效长度,所得的商值即为候选词对应的候选词得分。
进一步的,所述从所述序列矩阵中剔除无效列的步骤,包括:
S2011:识别所述序列矩阵中blank对应的分数值是否大于第一阈值;
S2012:若所述序列矩阵中blank对应的分数值大于第一阈值,则将所述blank所在的列判定为所述无效列。
本实施例中,识别系统从序列矩阵中识别出所有的blank,然后根据blank在序列矩阵中的位置,得到blank对应的分数值。识别系统调取第一阈值,并将blank对应的分数值与第一阈值进行比对,判断blank对应的分数值是否大于第一阈值。如果blank对应的分数值大于第一阈值,则说明该blank所在的列包含的有效音素信息太少,因此将该blank所在的列判定为无效列。后续在从序列矩阵中获取各个候选词的候选词得分时,无效列直接忽视不理,或者将无效列从序列矩阵中剔除,以减少候选词路径的搜索规模,提高搜索速度。
进一步的,所述根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果的步骤,包括:
S301:将各所述候选词按照各自对应的候选词得分从大到小进行排序,形成候选词得分列表,并将各所述候选词的候选词长度对应标注在所述候选词得分列表上;
S302:依次遍历所述候选词得分列表中的各所述候选词,判断排序第一的候选词对应的第一候选词得分是否大于第二阈值;
S303:若所述排序第一的候选词对应的第一候选词得分大于第二阈值,则判断排序第二的候选词对应的第二候选词得分是否大于所述第二阈值;
S304:若排序第二的候选词对应的第二候选词得分小于所述第二阈值,则将所述排序第一的候选词作为所述语音识别的最终结果。
本实施例中,识别系统将各个候选词按照各自对应的候选词得分从大到小进行排序,形成候选词得分列表(候选词得分越高,候选词的排序越靠前),并将各个候选词的候选词长度对应标注在候选词得分列表上,以便后续直接对应调用(候选词的候选词长度也可以不标注在候选词得分列表上,在需要用到候选词长度时再进行调用即可)。识别系统依次遍历候选词得分列表中的各个候选词,首先将排序第一的候选词对应的第一候选词得分与预设的第二阈值进行比对,判断第一候选词得分是否大于第二阈值。如果排序第一的候选词对应的第一候选词得分大于第二阈值,则依次判断排序第二的候选词对应的第二候选词得分是否大于第二阈值。如果此时排序第二的候选词的第二候选词得分小于第二阈值,则将排序第一的候选词作为当前次语音识别的最终结果(即对输入语音数据进行语音识别后得到的命令词或唤醒词)。
进一步的,所述判断排序第二的候选词对应的第二候选词得分是否大于所述第二阈值的步骤之后,包括:
S305:若排序第二的候选词对应的第二候选词得分大于所述第二阈值,则判断所述排序第二的候选词的第二候选词长度是否大于所述排序第一的候选词的第一候选词长度;
S306:若所述排序第二的候选词的第二候选词长度大于所述排序第一的候选词的第一候选词长度,则调取修正系数,并根据所述修正系数、所述第一候选词长度、所述第二候选词长度对所述第一候选词得分进行修正,得到修正候选词得分;
S307:判断所述第二候选词得分是否大于所述修正候选词得分;
S308:若所述第二候选词得分大于所述修正候选词得分,则选择所述排序第二的候选词作为所述语音识别的最终结果。
优选的,所述根据所述修正系数、所述第一候选词长度、所述第二候选词长度对所述第一候选词得分进行修正,得到修正候选词得分的步骤,包括:
S3061:将所述修正系数、所述第一候选词长度、所述第二候选词长度以及所述第一候选词得分输入修正计算式中,计算得到所述修正候选词得分,其中,所述修正计算式为:,其中,S为所述修正候选词得分,S1为所述第一候选词得分,为所述第一候选词长度,为所述第二候选词长度,th1为所述修正系数。
本实施例中,识别系统如果识别到排序第二的候选词对应的第二候选词得分大于第二阈值,则进一步判断排序第二的候选词的第二候选词长度是否大于排序第一的候选词对应的第一候选词长度。如果第二候选词长度小于或等于第一候选词长度,则选定排序第一的候选词作为语音识别的最终结果(因为候选词列表是按照候选词得分进行降序排列,所以第二候选词得分必然小于第一候选词得分)。如果第二候选词长度大于第一候选词长度,则需要根据候选词长度对第一候选词得分或第二候选词得分进行修正,以规避候选词长度对候选词得分的影响。具体地,以修正第一候选词得分为例,识别系统调取预设设定的修正系数(修正系数由开发人员根据实际试验数据总结得到,具体根据语音识别的应用场景进行变化,在此不做具体限制),然后将修正系数、第一候选词长度、第二候选词长度以及第一候选词得分输入修正计算式,从而计算得到第一候选词得分修正后的修正候选词得分;其中,S为修正候选词得分,S1为第一候选词得分,为第一候选词长度,为第二候选词长度,th1为修正系数。识别系统判断第二候选词得分是否大于修正候选词得分,如果第二候选词得分大于修正候选词得分,则选择排序第二的候选词作为语音识别的最终结果。
需要注意的是,上述最终选择排序第二的候选词作为语音识别的最终结果,是建立在遍历排序第三的候选词时,排序第三的候选词的第三候选词得分小于第二阈值的前提下。如果排序第三的候选词的第三候选词得分大于第二阈值,则需要按照上述处理逻辑,再次判断排序第三的候选词的第三候选词长度是否大于第一候选词长度以及第二候选词长度,如果排序第三的候选词的第三候选词长度大于第一候选词长度以及第二候选词长度,则在此根据修正计算式对第三候选词得分进行修正,并将修正后的第三候选词得分与第二候选词得分进行比对,从而筛选候选词得分高的一个候选词作为语音识别的最终结果。识别系统遍历整个候选词列表的各个候选词时,按照上述逻辑进行识别筛选,从而筛选出规避候选词长度影响后的候选词得分最高的一个候选词作为语音识别的最终结果。
参照图2,本申请一实施例中还提供了一种语音识别的后处理装置,包括:
获取模块1,用于获取语音识别模型输出的序列矩阵,以及预设的候选词列表,所述候选词列表包含多个候选词;
计算模块2,用于根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分;
筛选模块3,用于根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果。
进一步的,所述计算模块2,包括:
剔除单元,用于从所述序列矩阵中剔除无效列,并根据剔除所述无效列后的序列矩阵获取各所述候选词各自对应的所有候选词路径的得分总和,所述无效列表征所述序列矩阵中有效信息达不到预设要求的列;
计算单元,用于获取各所述候选词对应的有效长度,并将所述得分总和除以所述有效长度,得到各所述候选词对应的候选词得分。
进一步的,所述剔除单元,包括:
识别子单元,用于识别所述序列矩阵中blank对应的分数值是否大于第一阈值;
判定子单元,用于若所述序列矩阵中blank对应的分数值大于第一阈值,则将所述blank所在的列判定为所述无效列。
进一步的,所述计算单元,包括:
计算子单元,用于调取窗口长度,并计算所述窗口长度与所述候选词对应的得分总和之间的差值,得到所述候选词的有效长度,所述窗口长度与所述语音识别模型的输入语音数据相关联。
进一步的,所述筛选模块3,包括:
排序单元,用于将各所述候选词按照各自对应的候选词得分从大到小进行排序,形成候选词得分列表,并将各所述候选词的候选词长度对应标注在所述候选词得分列表上;
第一判断单元,用于依次遍历所述候选词得分列表中的各所述候选词,判断排序第一的候选词对应的第一候选词得分是否大于第二阈值;
第二判断单元,用于若所述排序第一的候选词对应的第一候选词得分大于第二阈值,则判断排序第二的候选词对应的第二候选词得分是否大于所述第二阈值;
第一选择单元,用于若排序第二的候选词对应的第二候选词得分小于所述第二阈值,则将所述排序第一的候选词作为所述语音识别的最终结果。
进一步的,所述筛选模块3,还包括:
第三判断单元,用于若排序第二的候选词对应的第二候选词得分大于所述第二阈值,则判断所述排序第二的候选词的第二候选词长度是否大于所述排序第一的候选词的第一候选词长度;
修正单元,用于若所述排序第二的候选词的第二候选词长度大于所述排序第一的候选词的第一候选词长度,则调取修正系数,并根据所述修正系数、所述第一候选词长度、所述第二候选词长度对所述第一候选词得分进行修正,得到修正候选词得分;
第四判断单元,用于判断所述第二候选词得分是否大于所述修正候选词得分;
第二选择单元,用于若所述第二候选词得分大于所述修正候选词得分,则选择所述排序第二的候选词作为所述语音识别的最终结果。
进一步的,所述修正单元,包括:
修正子单元,用于将所述修正系数、所述第一候选词长度、所述第二候选词长度以及所述第一候选词得分输入修正计算式中,计算得到所述修正候选词得分,其中,所述修正计算式为:,其中,S为所述修正候选词得分,S1为所述第一候选词得分,为所述第一候选词长度,为所述第二候选词长度,th1为所述修正系数。
本实施例中,语音识别的后处理装置中各模块、单元和子单元用于对应执行与上述语音识别的后处理方法中的各个步骤,其具体实施过程在此不做详述。
本实施例提供的一种语音识别的后处理装置,识别系统首先获取语音识别模型输出的序列矩阵,以及预设的候选词列表,其中,候选词列表包含多个候选词。识别系统根据各个候选词各自在序列矩阵的候选词路径之和,分别计算得到各个候选词对应的候选词得分。最后,控制系统根据各个候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果。本申请通过在预设的候选词列表的基础上,对序列矩阵进行筛选,从而减少了候选词路径的搜索规模,提高了搜索速度。并在筛选语音识别的最终结果时,综合了各个候选词的候选词得分以及候选词长度,从而规避了识别结果偏向于候选词长度较短的不足,有效提高了语音识别的准确率。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储候选词列表等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别的后处理方法。
上述处理器执行上述语音识别的后处理方法的步骤:
S1:获取语音识别模型输出的序列矩阵,以及预设的候选词列表,所述候选词列表包含多个候选词;
S2:根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分;
S3:根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果。
进一步的,所述根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分的步骤,包括:
S201:从所述序列矩阵中剔除无效列,并根据剔除所述无效列后的序列矩阵获取各所述候选词各自对应的所有候选词路径的得分总和,所述无效列表征所述序列矩阵中有效信息达不到预设要求的列;
S202:获取各所述候选词对应的有效长度,并将所述得分总和除以所述有效长度,得到各所述候选词对应的候选词得分。
优选的,所述获取各所述候选词对应的有效长度的步骤,单个所述候选词的有效长度的获取步骤为:
S2021:调取窗口长度,并计算所述窗口长度与所述候选词对应的得分总和之间的差值,得到所述候选词的有效长度,所述窗口长度与所述语音识别模型的输入语音数据相关联。
进一步的,所述从所述序列矩阵中剔除无效列的步骤,包括:
S2011:识别所述序列矩阵中blank对应的分数值是否大于第一阈值;
S2012:若所述序列矩阵中blank对应的分数值大于第一阈值,则将所述blank所在的列判定为所述无效列。
进一步的,所述根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果的步骤,包括:
S301:将各所述候选词按照各自对应的候选词得分从大到小进行排序,形成候选词得分列表,并将各所述候选词的候选词长度对应标注在所述候选词得分列表上;
S302:依次遍历所述候选词得分列表中的各所述候选词,判断排序第一的候选词对应的第一候选词得分是否大于第二阈值;
S303:若所述排序第一的候选词对应的第一候选词得分大于第二阈值,则判断排序第二的候选词对应的第二候选词得分是否大于所述第二阈值;
S304:若排序第二的候选词对应的第二候选词得分小于所述第二阈值,则将所述排序第一的候选词作为所述语音识别的最终结果。
进一步的,所述判断排序第二的候选词对应的第二候选词得分是否大于所述第二阈值的步骤之后,包括:
S305:若排序第二的候选词对应的第二候选词得分大于所述第二阈值,则判断所述排序第二的候选词的第二候选词长度是否大于所述排序第一的候选词的第一候选词长度;
S306:若所述排序第二的候选词的第二候选词长度大于所述排序第一的候选词的第一候选词长度,则调取修正系数,并根据所述修正系数、所述第一候选词长度、所述第二候选词长度对所述第一候选词得分进行修正,得到修正候选词得分;
S307:判断所述第二候选词得分是否大于所述修正候选词得分;
S308:若所述第二候选词得分大于所述修正候选词得分,则选择所述排序第二的候选词作为所述语音识别的最终结果。
优选的,所述根据所述修正系数、所述第一候选词长度、所述第二候选词长度对所述第一候选词得分进行修正,得到修正候选词得分的步骤,包括:
S3061:将所述修正系数、所述第一候选词长度、所述第二候选词长度以及所述第一候选词得分输入修正计算式中,计算得到所述修正候选词得分,其中,所述修正计算式为:,其中,S为所述修正候选词得分,S1为所述第一候选词得分,为所述第一候选词长度,为所述第二候选词长度,th1为所述修正系数。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音识别的后处理方法,所述语音识别的后处理方法具体为:
S1:获取语音识别模型输出的序列矩阵,以及预设的候选词列表,所述候选词列表包含多个候选词;
S2:根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分;
S3:根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果。
进一步的,所述根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分的步骤,包括:
S201:从所述序列矩阵中剔除无效列,并根据剔除所述无效列后的序列矩阵获取各所述候选词各自对应的所有候选词路径的得分总和,所述无效列表征所述序列矩阵中有效信息达不到预设要求的列;
S202:获取各所述候选词对应的有效长度,并将所述得分总和除以所述有效长度,得到各所述候选词对应的候选词得分。
优选的,所述获取各所述候选词对应的有效长度的步骤,单个所述候选词的有效长度的获取步骤为:
S2021:调取窗口长度,并计算所述窗口长度与所述候选词对应的得分总和之间的差值,得到所述候选词的有效长度,所述窗口长度与所述语音识别模型的输入语音数据相关联。
进一步的,所述从所述序列矩阵中剔除无效列的步骤,包括:
S2011:识别所述序列矩阵中blank对应的分数值是否大于第一阈值;
S2012:若所述序列矩阵中blank对应的分数值大于第一阈值,则将所述blank所在的列判定为所述无效列。
进一步的,所述根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果的步骤,包括:
S301:将各所述候选词按照各自对应的候选词得分从大到小进行排序,形成候选词得分列表,并将各所述候选词的候选词长度对应标注在所述候选词得分列表上;
S302:依次遍历所述候选词得分列表中的各所述候选词,判断排序第一的候选词对应的第一候选词得分是否大于第二阈值;
S303:若所述排序第一的候选词对应的第一候选词得分大于第二阈值,则判断排序第二的候选词对应的第二候选词得分是否大于所述第二阈值;
S304:若排序第二的候选词对应的第二候选词得分小于所述第二阈值,则将所述排序第一的候选词作为所述语音识别的最终结果。
进一步的,所述判断排序第二的候选词对应的第二候选词得分是否大于所述第二阈值的步骤之后,包括:
S305:若排序第二的候选词对应的第二候选词得分大于所述第二阈值,则判断所述排序第二的候选词的第二候选词长度是否大于所述排序第一的候选词的第一候选词长度;
S306:若所述排序第二的候选词的第二候选词长度大于所述排序第一的候选词的第一候选词长度,则调取修正系数,并根据所述修正系数、所述第一候选词长度、所述第二候选词长度对所述第一候选词得分进行修正,得到修正候选词得分;
S307:判断所述第二候选词得分是否大于所述修正候选词得分;
S308:若所述第二候选词得分大于所述修正候选词得分,则选择所述排序第二的候选词作为所述语音识别的最终结果。
优选的,所述根据所述修正系数、所述第一候选词长度、所述第二候选词长度对所述第一候选词得分进行修正,得到修正候选词得分的步骤,包括:
S3061:将所述修正系数、所述第一候选词长度、所述第二候选词长度以及所述第一候选词得分输入修正计算式中,计算得到所述修正候选词得分,其中,所述修正计算式为:,其中,S为所述修正候选词得分,S1为所述第一候选词得分,为所述第一候选词长度,为所述第二候选词长度,th1为所述修正系数。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种语音识别的后处理方法,其特征在于,包括:
获取语音识别模型输出的序列矩阵,以及预设的候选词列表,所述候选词列表包含多个候选词;
根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分;
根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果;
所述根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果的步骤,包括:
将各所述候选词按照各自对应的候选词得分从大到小进行排序,形成候选词得分列表,并将各所述候选词的候选词长度对应标注在所述候选词得分列表上;
依次遍历所述候选词得分列表中的各所述候选词,判断排序第一的候选词对应的第一候选词得分是否大于第二阈值;
若所述排序第一的候选词对应的第一候选词得分大于第二阈值,则判断排序第二的候选词对应的第二候选词得分是否大于所述第二阈值;
若排序第二的候选词对应的第二候选词得分小于所述第二阈值,则将所述排序第一的候选词作为所述语音识别的最终结果;
若排序第二的候选词对应的第二候选词得分大于所述第二阈值,则判断所述排序第二的候选词的第二候选词长度是否大于所述排序第一的候选词的第一候选词长度;
若所述排序第二的候选词的第二候选词长度大于所述排序第一的候选词的第一候选词长度,则调取修正系数,并根据所述修正系数、所述第一候选词长度、所述第二候选词长度对所述第一候选词得分进行修正,得到修正候选词得分;
判断所述第二候选词得分是否大于所述修正候选词得分;
若所述第二候选词得分大于所述修正候选词得分,则选择所述排序第二的候选词作为所述语音识别的最终结果。
2.根据权利要求1所述的语音识别的后处理方法,其特征在于,所述根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分的步骤,包括:
从所述序列矩阵中剔除无效列,并根据剔除所述无效列后的序列矩阵获取各所述候选词各自对应的所有候选词路径的得分总和,所述无效列表征所述序列矩阵中有效信息达不到预设要求的列;
获取各所述候选词对应的有效长度,并将所述得分总和除以所述有效长度,得到各所述候选词对应的候选词得分。
3.根据权利要求2所述的语音识别的后处理方法,其特征在于,所述从所述序列矩阵中剔除无效列的步骤,包括:
识别所述序列矩阵中blank对应的分数值是否大于第一阈值;
若所述序列矩阵中blank对应的分数值大于第一阈值,则将所述blank所在的列判定为所述无效列。
4.根据权利要求2所述的语音识别的后处理方法,其特征在于,所述获取各所述候选词对应的有效长度的步骤中,单个所述候选词的有效长度的获取步骤为:
调取窗口长度,并计算所述窗口长度与所述候选词对应的得分总和之间的差值,得到所述候选词的有效长度,所述窗口长度与所述语音识别模型的输入语音数据相关联。
6.一种语音识别的后处理装置,其特征在于,包括:
获取模块,用于获取语音识别模型输出的序列矩阵,以及预设的候选词列表,所述候选词列表包含多个候选词;
计算模块,用于根据各所述候选词各自在所述序列矩阵的候选词路径之和,分别计算得到各所述候选词对应的候选词得分;
筛选模块,用于根据各所述候选词各自对应的候选词得分以及候选词长度,筛选得到语音识别的最终结果;
所述筛选模块包括:
排序单元,用于将各所述候选词按照各自对应的候选词得分从大到小进行排序,形成候选词得分列表,并将各所述候选词的候选词长度对应标注在所述候选词得分列表上;
第一判断单元,用于依次遍历所述候选词得分列表中的各所述候选词,判断排序第一的候选词对应的第一候选词得分是否大于第二阈值;
第二判断单元,用于若所述排序第一的候选词对应的第一候选词得分大于第二阈值,则判断排序第二的候选词对应的第二候选词得分是否大于所述第二阈值;
第一选择单元,用于若排序第二的候选词对应的第二候选词得分小于所述第二阈值,则将所述排序第一的候选词作为所述语音识别的最终结果;
第三判断单元,用于若排序第二的候选词对应的第二候选词得分大于所述第二阈值,则判断所述排序第二的候选词的第二候选词长度是否大于所述排序第一的候选词的第一候选词长度;
修正单元,用于若所述排序第二的候选词的第二候选词长度大于所述排序第一的候选词的第一候选词长度,则调取修正系数,并根据所述修正系数、所述第一候选词长度、所述第二候选词长度对所述第一候选词得分进行修正,得到修正候选词得分;
第四判断单元,用于判断所述第二候选词得分是否大于所述修正候选词得分;
第二选择单元,用于若所述第二候选词得分大于所述修正候选词得分,则选择所述排序第二的候选词作为所述语音识别的最终结果。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111297201.9A CN113724688B (zh) | 2021-11-04 | 2021-11-04 | 语音识别的后处理方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111297201.9A CN113724688B (zh) | 2021-11-04 | 2021-11-04 | 语音识别的后处理方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113724688A CN113724688A (zh) | 2021-11-30 |
CN113724688B true CN113724688B (zh) | 2022-03-29 |
Family
ID=78686705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111297201.9A Active CN113724688B (zh) | 2021-11-04 | 2021-11-04 | 语音识别的后处理方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724688B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115497484B (zh) * | 2022-11-21 | 2023-03-28 | 深圳市友杰智新科技有限公司 | 语音解码结果处理方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104584119A (zh) * | 2012-07-03 | 2015-04-29 | 谷歌公司 | 确定热词适合度 |
CN109964270A (zh) * | 2017-10-24 | 2019-07-02 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
US10387568B1 (en) * | 2016-09-19 | 2019-08-20 | Amazon Technologies, Inc. | Extracting keywords from a document |
CN110232923A (zh) * | 2019-05-09 | 2019-09-13 | 青岛海信电器股份有限公司 | 一种语音控制指令生成方法、装置及电子设备 |
EP3813060A1 (en) * | 2019-10-22 | 2021-04-28 | Samsung Electronics Co., Ltd. | Speech recognition method and speech recognition apparatus |
CN113506574A (zh) * | 2021-09-09 | 2021-10-15 | 深圳市友杰智新科技有限公司 | 自定义命令词的识别方法、装置和计算机设备 |
-
2021
- 2021-11-04 CN CN202111297201.9A patent/CN113724688B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104584119A (zh) * | 2012-07-03 | 2015-04-29 | 谷歌公司 | 确定热词适合度 |
US10387568B1 (en) * | 2016-09-19 | 2019-08-20 | Amazon Technologies, Inc. | Extracting keywords from a document |
CN109964270A (zh) * | 2017-10-24 | 2019-07-02 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
CN110232923A (zh) * | 2019-05-09 | 2019-09-13 | 青岛海信电器股份有限公司 | 一种语音控制指令生成方法、装置及电子设备 |
EP3813060A1 (en) * | 2019-10-22 | 2021-04-28 | Samsung Electronics Co., Ltd. | Speech recognition method and speech recognition apparatus |
CN113506574A (zh) * | 2021-09-09 | 2021-10-15 | 深圳市友杰智新科技有限公司 | 自定义命令词的识别方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113724688A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063221B (zh) | 基于混合策略的查询意图识别方法和装置 | |
CN109871446B (zh) | 意图识别中的拒识方法、电子装置及存储介质 | |
CN108711422B (zh) | 语音识别方法、装置、计算机可读存储介质和计算机设备 | |
CN111325037B (zh) | 文本意图识别方法、装置、计算机设备和存储介质 | |
US20230186912A1 (en) | Speech recognition method, apparatus and device, and storage medium | |
CN113506574A (zh) | 自定义命令词的识别方法、装置和计算机设备 | |
CN109063217B (zh) | 电力营销系统中的工单分类方法、装置及其相关设备 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN109920432B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN110689881B (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN108038544B (zh) | 基于大数据和深度学习的神经网络深度学习方法和系统 | |
US20170061958A1 (en) | Method and apparatus for improving a neural network language model, and speech recognition method and apparatus | |
JP6787770B2 (ja) | 言語記憶方法及び言語対話システム | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN115497484B (zh) | 语音解码结果处理方法、装置、设备及存储介质 | |
CN113724688B (zh) | 语音识别的后处理方法、装置和计算机设备 | |
CN114360522B (zh) | 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备 | |
CN114360521B (zh) | 语音识别模型的训练方法、语音误识别的检测方法及设备 | |
CN113763960B (zh) | 模型输出的后处理方法、装置和计算机设备 | |
CN110781673B (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN111933125B (zh) | 联合模型的语音识别方法、装置和计算机设备 | |
CN113569021B (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN114416984A (zh) | 基于人工智能的文本分类方法、装置、设备及存储介质 | |
CN114493902A (zh) | 多模态信息异常监控方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |