CN115497484B - 语音解码结果处理方法、装置、设备及存储介质 - Google Patents
语音解码结果处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115497484B CN115497484B CN202211457043.3A CN202211457043A CN115497484B CN 115497484 B CN115497484 B CN 115497484B CN 202211457043 A CN202211457043 A CN 202211457043A CN 115497484 B CN115497484 B CN 115497484B
- Authority
- CN
- China
- Prior art keywords
- score
- command word
- length
- threshold
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000006978 adaptation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请涉及语音解码技术领域,特别是涉及到一种语音解码结果处理方法、装置、设备及存储介质,其中方法包括:获取候选命令词列表;通过CTC解码算法,得到解码矩阵,计算命令词的得分;获取得分最高的命令词,得到得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在解码矩阵上的起始位置和结束位置,计算解码长度,在起始位置和结束位置之间,找出每列得分最大的位置,每列得分最大的位置构成一个序列,记作序列B;根据序列A设定动态阈值,根据动态阈值和解码长度判定是否识别候选命令词列表中的命令词。本申请涉及的方法可以解决语音解码结果处理方法应用在嵌入式设备运算资源受限,导致识别不准确的技术问题。
Description
技术领域
本申请涉及语音解码技术领域,特别是涉及到一种语音解码结果处理方法、装置、设备及存储介质。
背景技术
解码是语音识别算法的重要部分,解码算法直接影响识别准确率。命令词识别属于语音识别的一个分支,广泛应用于智能家居领域。命令词识别的解码算法,由于其应用一般在嵌入式设备,资源受限,故其解码算法不同于一般的利用声学模型+语言模型的解码策略,需要结合资源限制精心设计。
因此,现有的语音解码结果处理方法应用在嵌入式设备运算资源受限,导致识别不准确的技术问题。
发明内容
本申请的主要目的为提供一种语音解码结果处理方法、装置、设备及存储介质,旨在解决现有技术中语音解码结果处理方法应用在嵌入式设备运算资源受限,导致识别不准确的技术问题。
为了实现上述发明目的,本申请提出一种语音解码结果处理方法,所述方法包括:
获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;
通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;
获取得分最高的命令词,得到所述得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置;
根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;
根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词。
进一步地,所述获取得分最高的命令词的步骤之后,包括:
判断所述得分最高的命令词的得分是否大于第一得分阈值;
若所述得分最高的命令词的得分大于所述第一得分阈值,则判定识别所述候选命令词列表中的命令词。
进一步地,所述获取得分最高的命令词的步骤之后,包括:
判断所述得分最高的命令词的得分是否小于第二得分阈值,其中,所述第二得分阈值小于所述第一得分阈值;
若所述得分最高的命令词的得分小于所述第二得分阈值,则判定不识别所述候选命令词列表中的命令词。
进一步地,所述根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词的步骤,包括:
若所述得分最高的命令词的得分小于所述第一得分阈值,且大于所述第二得分阈值,利用CTC准则,将所述序列B进行压缩,得到序列C;
通过动态规划的算法,计算所述序列A和所述序列C的编辑距离;
根据所述序列A的长度设定第一长度阈值;
判断所述编辑距离是否大于所述第一长度阈值;
若所述编辑距离大于所述第一长度阈值,则判定不识别所述候选命令词列表中的命令词。
进一步地,所述判断所述编辑距离是否大于所述第一长度阈值的步骤之后,包括:
若所述编辑距离小于所述第一长度阈值,则根据所述序列A的长度设定第二长度阈值,其中,所述第二长度阈值大于所述第一长度阈值;
若所述解码长度大于所述第二长度阈值,且所述得分最高的命令词的得分大于第三得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第三得分阈值大于所述第二得分阈值,且小于所述第一得分阈值;
若所述解码长度小于所述第二长度阈值,且所述得分最高的命令词的得分大于第四得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第四得分阈值大于所述第二得分阈值,且小于所述第三得分阈值和所述第一得分阈值。
进一步地,所述根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词的步骤,包括:
若所述解码长度或所述编辑距离均不满足与所述第一长度阈值和所述第二长度阈值的大小关系,同时所述得分最高的命令词的得分均不满足与所述第四得分阈值、所述第二得分阈值、所述第三得分阈值和所述第一得分阈值的大小关系,则判定不识别所述候选命令词列表中的命令词。
本申请还提供了一种语音解码结果处理装置,所述装置包括:
命令词获取模块,用于获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;
命令词得分计算模块,用于通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;
最高得分命令词处理模块,用于获取记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置,得到序列A;根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;
判断模块,用于根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词。
进一步地,所述语音解码结果处理装置,所述装置包括:
第一判断子模块,用于判断所述得分最高的命令词的得分是否大于第一得分阈值;若所述得分最高的命令词的得分大于所述第一得分阈值,则判定识别所述候选命令词列表中的命令词。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本申请提供的一种语音解码结果处理方法,在候选命令词列表中,通过CTC解码算法,得到解码矩阵,计算出每个命令词的得分,选出得分最高的命令词,计算该命令词的解码长度。根据命令词的长度,可自适应的动态调整阈值,针对不同的命令词能做出适配,提升了识别准确率,同时可降低误识别率。并且涉及的解码算法运算简单,功耗低,耗时少。
附图说明
图1 为本申请一实施例的语音解码结果处理方法的流程示意图;
图2 为本申请一实施例的语音解码结果处理装置的结构示意框图;
图3 为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
参照图1,本发明实施例提供一种语音解码结果处理方法,包括步骤S1-S5,具体地:
S1、获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;
S2、通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分。
候选命令词列表为包括一个或多个待识别的命令词。通过现有的CTC解码算法,得到候选命令词列表的解码矩阵,记录解码矩阵的起始位置和结束位置,计算出每个命令词的得分。CTC解码算法,是在序列之间确定概率最大的一种对应关系,在有限的时间内得到条件概率最大的序列。CTC解码算法中已经有了一个训练好的神经网络模型,使用该神经网络模型去识别候选命令词列表的命令词。就是根据神经网络的输出矩阵,去计算最有可能的命令词。CTC输出的是二维矩阵,横坐标是时间,纵坐标是字符(包括空白字符),纵坐标表示某个时刻某个输出字符的概率。CTC解码的目的就在每一个时间步都选取概率最大的字符,得到多个路径和每个路径的得分,即为命令词的得分。再从中选择一个满足一些约束的得分最高的路线,进一步选择出得分最高的路线对应的命令词,即为得分最高的命令词。
S3、获取得分最高的命令词,得到所述得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置;
S4、根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;
S5、根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词。
获取候选命令词列表中得分最高的命令词,将得分最高的命令词对应的音素序列记作序列A,序列A能够表示得分最高的命令词的长度,并记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置。根据起始位置和结束位置,计算出解码长度,具体的计算方式为:解码长度=结束位置-起始位置+1。并在该起始位置和结束位置之间,找出每列得分最大的位置,多个每列得分最大的位置构成一个序列,记作序列B。根据序列A的长度设定动态阈值,动态阈值可以包括第一长度阈值和第二长度阈值等。并根据动态阈值和解码长度判定是否识别所述候选命令词列表中的命令词。根据命令词的长度,可自适应的动态调整阈值,针对不同的命令词能做出适配,提升了识别准确率,同时可降低误识别率。
如上所述,在候选命令词列表中,通过CTC解码算法,得到解码矩阵,计算出每个命令词的得分,选出得分最高的命令词,计算该命令词的解码长度。根据命令词的长度,可自适应的动态调整阈值,针对不同的命令词能做出适配,提升了识别准确率,同时可降低误识别率。并且涉及的解码算法运算简单,功耗低,耗时少。
在一个实施例中,上述获取得分最高的命令词的步骤之后,包括:
S301、判断所述得分最高的命令词的得分是否大于第一得分阈值;
S302、若所述得分最高的命令词的得分大于所述第一得分阈值,则判定识别所述候选命令词列表中的命令词。
第一得分阈值可以根据实际情况确定,比如80分。当得分最高的命令词的得分大于第一得分阈值,则判定识别候选命令词列表中的命令词。
在一个实施例中,上述获取得分最高的命令词的步骤之后,包括:
S303、判断所述得分最高的命令词的得分是否小于第二得分阈值,其中,所述第二得分阈值小于所述第一得分阈值;
S304、若所述得分最高的命令词的得分小于所述第二得分阈值,则判定不识别所述候选命令词列表中的命令词。
第二得分阈值可以根据实际情况确定,第二得分阈值小于所述第一得分阈值,比如20分。当得分最高的命令词的得分小于所述第二得分阈值,则判定不识别候选命令词列表中的命令词。
在一个实施例中,上述根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词的步骤S5,包括:
S501、若所述得分最高的命令词的得分小于所述第一得分阈值,且大于所述第二得分阈值,利用CTC准则,将所述序列B进行压缩,得到序列C;
S502、通过动态规划的算法,计算所述序列A和所述序列C的编辑距离;
S503、根据所述序列A的长度设定第一长度阈值;
S504、判断所述编辑距离是否大于所述第一长度阈值;
S505、若所述编辑距离大于所述第一长度阈值,则判定不识别所述候选命令词列表中的命令词。
当得分最高的命令词的得分小于第一得分阈值,且大于第二得分阈值时,需要根据额外的条件判断是否识别所述候选命令词列表中的命令词。首先利用CTC准则,将序列B进行压缩,得到序列C。CTC准则引入了空白字符,用于吸收发音单元内部的混淆性。CTC准则将相同字符合并,然后去掉空白字符,只是去除没有被空白字符分隔的重复字符,被空白字符分隔的重复字符是不会被去除的。比如序列aabb_bccd可压缩为序列abbcd,其中,“_”代表空白字符。
编辑距离,也叫莱文斯坦距离,是针对两个字符串的差异程度的量化量测,在两个字符串之间,由其中一个字符串转换为另一个字符串所需要的最少单字符编辑操作次数。对应在本申请中,两个字符串为序列A和序列C,编辑距离可通过现有的动态规划的算法得出。
第一长度阈值可设定为序列A长度的一定比例,比如序列A长度的0.5倍。若编辑距离大于第一长度阈值,则判定不识别候选命令词列表中的命令词。设定的第一长度阈值可以通过命令词的长度自适应变化,针对不同的命令词能做出适配,提升了识别准确率。
在一个实施例中,上述判断所述编辑距离是否大于所述第一长度阈值的步骤S504之后,包括:
S506、若所述编辑距离小于所述第一长度阈值,则根据所述序列A的长度设定第二长度阈值,其中,所述第二长度阈值大于所述第一长度阈值;
S507、若所述解码长度大于所述第二长度阈值,且所述得分最高的命令词的得分大于第三得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第三得分阈值大于所述第二得分阈值,且小于所述第一得分阈值;
S508、若所述解码长度小于所述第二长度阈值,且所述得分最高的命令词的得分大于第四得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第四得分阈值大于所述第二得分阈值,且小于所述第三得分阈值和所述第一得分阈值。
当编辑距离小于第一长度阈值,则根据所述序列A的长度设定第二长度阈值,可设定为序列A长度的一定比例,比如序列A长度的1.5倍,第二长度阈值大于第一长度阈值。设定的第二长度阈值可以通过命令词的长度自适应变化,针对不同的命令词能做出适配,提升了识别准确率。
当编辑距离大于第二长度阈值时,判断得分最高的命令词的得分是否大于第三得分阈值,若是,则判定识别候选命令词列表中的命令词。第三得分阈值可以根据实际情况确定,第三得分阈值大于所述第二得分阈值,且小于所述第一得分阈值,比如60分。
当编辑距离小于第二长度阈值时,判断得分最高的命令词的得分是否大于第四得分阈值,若是,则判定识别候选命令词列表中的命令词。第四得分阈值可以根据实际情况确定,第四得分阈值大于第二得分阈值,且小于第三得分阈值和第一得分阈值,比如40分。
在一个实施例中,上述根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词的步骤,包括:
S509、若所述解码长度或所述编辑距离均不满足与所述第一长度阈值和所述第二长度阈值的大小关系,同时所述得分最高的命令词的得分均不满足与所述第四得分阈值、所述第二得分阈值、所述第三得分阈值和所述第一得分阈值的大小关系,则判定不识别所述候选命令词列表中的命令词。
当解码长度、编辑距离和得分最高的命令词的得分均不满足步骤S301~S304和S501~S508的判断条件时,则判定不识别候选命令词列表中的命令词。
参照图2,是本申请一实施例中语音解码结果处理装置结构框图,装置包括:
命令词获取模块100,用于获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;
命令词得分计算模块200,用于通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;
最高得分命令词处理模块300,用于获取,记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置,得到序列A;根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;
判断模块400,用于根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词。
在一个实施例中,上述语音解码结果处理装置,还包括:
第一判断子模块,用于判断所述得分最高的命令词的得分是否大于第一得分阈值;若所述得分最高的命令词的得分大于所述第一得分阈值,则判定识别所述候选命令词列表中的命令词。
在一个实施例中,上述语音解码结果处理装置,还包括:
第二判断子模块,用于判断所述得分最高的命令词的得分是否小于第二得分阈值,其中,所述第二得分阈值小于所述第一得分阈值;若所述得分最高的命令词的得分小于所述第二得分阈值,则判定不识别所述候选命令词列表中的命令词。
在一个实施例中,上述语音解码结果处理装置,还包括:
第三判断子模块,用于若所述得分最高的命令词的得分小于所述第一得分阈值,且大于所述第二得分阈值,利用CTC准则,将所述序列B进行压缩,得到序列C;通过动态规划的算法,计算所述序列A和所述序列C的编辑距离;根据所述序列A的长度设定第一长度阈值;判断所述编辑距离是否大于所述第一长度阈值;若所述编辑距离大于所述第一长度阈值,则判定不识别所述候选命令词列表中的命令词。
在一个实施例中,上述语音解码结果处理装置,还包括:
第四判断模块,用于若所述编辑距离小于所述第一长度阈值,则根据所述序列A的长度设定第二长度阈值,其中,所述第二长度阈值大于所述第一长度阈值;若所述解码长度大于所述第二长度阈值,且所述得分最高的命令词的得分大于第三得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第三得分阈值大于所述第二得分阈值,且小于所述第一得分阈值;若所述解码长度小于所述第二长度阈值,且所述得分最高的命令词的得分大于第四得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第四得分阈值大于所述第二得分阈值,且小于所述第三得分阈值和所述第一得分阈值。
在一个实施例中,上述语音解码结果处理装置,还包括:
第五判断模块,用于若所述解码长度或所述编辑距离均不满足与所述第一长度阈值和所述第二长度阈值的大小关系,同时所述得分最高的命令词的得分均不满足与所述第四得分阈值、所述第二得分阈值、所述第三得分阈值和所述第一得分阈值的大小关系,则判定不识别所述候选命令词列表中的命令词。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音解码结果处理方法过程中的使用数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。进一步地,上述计算机设备还可以设置有输入装置和显示屏等。上述计算机程序被处理器执行时以实现翻转图像文本识别方法,包括如下步骤:获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;获取得分最高的命令词,得到所述得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置;根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音解码结果处理方法,包括如下步骤:获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;获取得分最高的命令词,得到所述得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置;根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语音解码结果处理方法,其特征在于,所述方法包括:
获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;
通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;
获取得分最高的命令词,得到所述得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置;
根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;
判断所述得分最高的命令词的得分与第一得分阈值和第二得分阈值的大小关系,其中,所述第二得分阈值小于所述第一得分阈值;
若所述得分最高的命令词的得分小于所述第一得分阈值,且大于所述第二得分阈值,利用CTC准则,将所述序列B进行压缩,得到序列C;
通过动态规划的算法,计算所述序列A和所述序列C的编辑距离;
根据所述序列A的长度设定动态阈值,得到第一长度阈值,判断所述第一长度阈值与所述编辑距离的关系;
若所述编辑距离小于所述第一长度阈值,则根据所述序列A的长度设定第二长度阈值,其中,所述第二长度阈值大于所述第一长度阈值;
根据所述第二长度阈值与所述解码长度的关系,判定是否识别所述候选命令词列表中的命令词。
2.根据权利要求1所述的语音解码结果处理方法,其特征在于,所述判断所述得分最高的命令词的得分与第一得分阈值和第二得分阈值的大小关系的步骤之后,包括:
若所述得分最高的命令词的得分大于所述第一得分阈值,则判定识别所述候选命令词列表中的命令词。
3.根据权利要求1所述的语音解码结果处理方法,其特征在于,所述判断所述得分最高的命令词的得分与第一得分阈值和第二得分阈值的大小关系的步骤之后,包括:
若所述得分最高的命令词的得分小于所述第二得分阈值,则判定不识别所述候选命令词列表中的命令词。
4.根据权利要求1所述的语音解码结果处理方法,其特征在于,所述根据所述序列A的长度设定动态阈值,得到第一长度阈值,判断所述第一长度阈值与所述编辑距离的关系的步骤之后,包括:
若所述编辑距离大于所述第一长度阈值,则判定不识别所述候选命令词列表中的命令词。
5.根据权利要求1所述的语音解码结果处理方法,其特征在于,所述根据所述第二长度阈值与所述解码长度的关系,判定是否识别所述候选命令词列表中的命令词的步骤,包括:
若所述解码长度大于所述第二长度阈值,且所述得分最高的命令词的得分大于第三得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第三得分阈值大于所述第二得分阈值,且小于所述第一得分阈值;
若所述解码长度小于所述第二长度阈值,且所述得分最高的命令词的得分大于第四得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第四得分阈值大于所述第二得分阈值,且小于所述第三得分阈值和所述第一得分阈值。
6.根据权利要求5所述的语音解码结果处理方法,其特征在于,所述根据所述第二长度阈值与所述解码长度的关系,判定是否识别所述候选命令词列表中的命令词的步骤之后,包括:
若所述解码长度或所述编辑距离均不满足与所述第一长度阈值和所述第二长度阈值的大小关系,同时所述得分最高的命令词的得分均不满足与所述第四得分阈值、所述第二得分阈值、所述第三得分阈值和所述第一得分阈值的大小关系,则判定不识别所述候选命令词列表中的命令词。
7.一种语音解码结果处理装置,其特征在于,所述装置包括:
命令词获取模块,用于获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;
命令词得分计算模块,用于通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;
最高得分命令词处理模块,用于获取得分最高的命令词,得到所述得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置;根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;
判断模块,用于判断所述得分最高的命令词的得分与第一得分阈值和第二得分阈值的大小关系,其中,所述第二得分阈值小于所述第一得分阈值;
编辑距离确定模块,用于若所述得分最高的命令词的得分小于所述第一得分阈值,且大于所述第二得分阈值,利用CTC准则,将所述序列B进行压缩,得到序列C;通过动态规划的算法,计算所述序列A和所述序列C的编辑距离;
识别判断模块,用于根据所述序列A的长度设定动态阈值,得到第一长度阈值,判断所述第一长度阈值与所述编辑距离的关系;若所述编辑距离小于所述第一长度阈值,则根据所述序列A的长度设定第二长度阈值,其中,所述第二长度阈值大于所述第一长度阈值;根据所述第二长度阈值与所述解码长度的关系,判定是否识别所述候选命令词列表中的命令词。
8.根据权利要求7所述的语音解码结果处理装置,其特征在于,包括:
第一判断子模块,用于若所述得分最高的命令词的得分大于所述第一得分阈值,则判定识别所述候选命令词列表中的命令词。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211457043.3A CN115497484B (zh) | 2022-11-21 | 2022-11-21 | 语音解码结果处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211457043.3A CN115497484B (zh) | 2022-11-21 | 2022-11-21 | 语音解码结果处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115497484A CN115497484A (zh) | 2022-12-20 |
CN115497484B true CN115497484B (zh) | 2023-03-28 |
Family
ID=85114711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211457043.3A Active CN115497484B (zh) | 2022-11-21 | 2022-11-21 | 语音解码结果处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497484B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831100B (zh) * | 2023-02-22 | 2023-05-05 | 深圳市友杰智新科技有限公司 | 语音命令词识别方法、装置、设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003069555A (ja) * | 2001-08-29 | 2003-03-07 | Mitsubishi Electric Corp | 暗号装置および暗復号処理方法 |
US20100306249A1 (en) * | 2009-05-27 | 2010-12-02 | James Hill | Social network systems and methods |
EP2309487A1 (en) * | 2009-09-11 | 2011-04-13 | Honda Research Institute Europe GmbH | Automatic speech recognition system integrating multiple sequence alignment for model bootstrapping |
CN105321518B (zh) * | 2014-08-05 | 2018-12-04 | 中国科学院声学研究所 | 一种低资源嵌入式语音识别的拒识方法 |
KR102392297B1 (ko) * | 2017-04-24 | 2022-05-02 | 엘지전자 주식회사 | 전자기기 |
CN109872715A (zh) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | 一种语音交互方法及装置 |
CN111179974B (zh) * | 2019-12-30 | 2022-08-09 | 思必驰科技股份有限公司 | 一种命令词识别方法和装置 |
CN113539266A (zh) * | 2021-07-13 | 2021-10-22 | 盛景智能科技(嘉兴)有限公司 | 命令词识别方法、装置、电子设备和存储介质 |
CN113506574A (zh) * | 2021-09-09 | 2021-10-15 | 深圳市友杰智新科技有限公司 | 自定义命令词的识别方法、装置和计算机设备 |
CN113724688B (zh) * | 2021-11-04 | 2022-03-29 | 深圳市友杰智新科技有限公司 | 语音识别的后处理方法、装置和计算机设备 |
CN114093358A (zh) * | 2021-11-17 | 2022-02-25 | 北京地平线信息技术有限公司 | 语音识别方法和装置、电子设备和存储介质 |
CN114783438B (zh) * | 2022-06-17 | 2022-09-27 | 深圳市友杰智新科技有限公司 | 自适应解码方法、装置、计算机设备和存储介质 |
-
2022
- 2022-11-21 CN CN202211457043.3A patent/CN115497484B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115497484A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413730B (zh) | 文本信息匹配度检测方法、装置、计算机设备和存储介质 | |
CN110472224B (zh) | 服务质量的检测方法、装置、计算机设备和存储介质 | |
KR20190085098A (ko) | 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체 | |
CN111444349B (zh) | 信息抽取方法、装置、计算机设备和存储介质 | |
CN108038544B (zh) | 基于大数据和深度学习的神经网络深度学习方法和系统 | |
CN111191032B (zh) | 语料扩充方法、装置、计算机设备和存储介质 | |
CN112668313A (zh) | 句子智能纠错方法、装置、计算机设备及存储介质 | |
CN112446218A (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN113506574A (zh) | 自定义命令词的识别方法、装置和计算机设备 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN113536735B (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110555096A (zh) | 用户意图识别方法、系统、终端及介质 | |
CN111223476B (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN115497484B (zh) | 语音解码结果处理方法、装置、设备及存储介质 | |
CN110910864A (zh) | 训练样本的选取方法、装置、计算机设备和存储介质 | |
CN113449489A (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN112732884A (zh) | 目标回答语句生成方法、装置、计算机设备和存储介质 | |
CN110609618B (zh) | 一种人机对话方法、装置、计算机设备及存储介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN115831100B (zh) | 语音命令词识别方法、装置、设备及存储介质 | |
CN113255343A (zh) | 标签数据的语义识别方法、装置、计算机设备及存储介质 | |
CN111933125B (zh) | 联合模型的语音识别方法、装置和计算机设备 | |
CN112395857A (zh) | 基于对话系统的语音文本处理方法、装置、设备及介质 | |
CN115101063B (zh) | 低算力语音识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |