CN114333799A

CN114333799A - 相近音误识别的检测方法、装置和计算机设备

Info

Publication number: CN114333799A
Application number: CN202210222466.0A
Authority: CN
Inventors: 李�杰; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-04-12
Anticipated expiration: 2042-03-09
Also published as: CN114333799B

Abstract

本申请提供了一种相近音误识别的检测方法、装置和计算机设备，首先基于唤醒词路径得分与第一阈值之间的大小关系，能够对正确的唤醒词具有最基础的识别功能；进一步，通过关键字在解码概率矩阵中对应的关键字音素概率列的占比与第二阈值之间的大小关系，从而实现对唤醒词中关键字的针对性识别，进一步降低误识别的概率；更进一步的，通过唤醒词路径得分与相近词路径得分之间相对大小关系的比较，不需要设定固定阈值，且不受远场语音和近场语音的影响，鲁棒性好，且在出现新的相近音时，只需在检测时增加对唤醒词路径得分与新相近音的路径得分之间的大小关系比较即可，不需要重新训练唤醒词音素识别模型，方便快捷，成本较低。

Description

相近音误识别的检测方法、装置和计算机设备

技术领域

本申请涉及语音识别技术领域，特别涉及一种相近音误识别的检测方法、装置和计算机设备。

背景技术

唤醒词、命令词识别技术在应用时，可以实时监测用户的语音，并在检测到特定词汇时作出相应的反馈（比如检测到唤醒词时唤醒设备）。而在实际应用中，经常会出现相近音、相似音误识别、误唤醒的情况，即用户语音的发音接近唤醒词时，有一定概率被误识别，从而误唤醒设备；此类误识别、误唤醒的情况会给用户带来非常不好的使用体验。现有针对相近音误唤醒的处理，通常是在训练数据中加入负样本，以此来提升训练后的语音识别模型对相近音词汇的识别能力，但这种处理方法，在出现新的相近音时，需要使用新的相近音重新训练语音识别模型，重新训练后的语音识别模型才具备识别新的相近音的能力，方法繁琐，且成本较高。

发明内容

本申请的主要目的为提供一种相近音误识别的检测方法、装置和计算机设备，旨在解决现有为解决新的相近音误唤醒需要重新训练语音识别模型，成本较高的弊端。

为实现上述目的，本申请提供了一种相近音误识别的检测方法，包括：

采集语音数据，并将所述语音数据输入唤醒词音素识别模型进行处理，生成解码概率矩阵；

分别判断唤醒词在所述解码概率矩阵中的唤醒词路径得分是否小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值，和/或所述唤醒词路径得分是否小于预设相近词在所述解码概率矩阵中的相近词路径得分；

若所述唤醒词在所述解码概率矩阵中的唤醒词路径得分小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率均小于第二阈值，和/或所述唤醒词路径得分小于预设相近词在所述解码概率矩阵中的相近词路径得分，则判定所述语音数据的语音识别结果为相近音误识别。

本申请还提供了一种相近音误识别的检测装置，包括：

生成模块，用于采集语音数据，并将所述语音数据输入唤醒词音素识别模型进行处理，生成解码概率矩阵；

检测模块，用于分别判断唤醒词在所述解码概率矩阵中的唤醒词路径得分是否小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值，和/或所述唤醒词路径得分是否小于预设相近词在所述解码概率矩阵中的相近词路径得分；

判定模块，用于若所述唤醒词在所述解码概率矩阵中的唤醒词路径得分小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率均小于第二阈值，和/或所述唤醒词路径得分小于预设相近词在所述解码概率矩阵中的相近词路径得分，则判定所述语音数据的语音识别结果为相近音误识别。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请中提供的一种相近音误识别的检测方法、装置和计算机设备，检测系统采集语音数据，并将语音数据输入唤醒词音素识别模型进行处理，生成解码概率矩阵。然后，检测系统分别判断唤醒词在解码概率矩阵中的唤醒词路径得分是否小于第一阈值，和/或唤醒词包含的关键字在解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值，和/或唤醒词路径得分是否小于预设相近词在解码概率矩阵中的相近词路径得分。如果唤醒词在解码概率矩阵中的唤醒词路径得分小于第一阈值，和/或唤醒词包含的关键字在解码概率矩阵中对应的所有关键字音素概率均小于第二阈值，和/或唤醒词路径得分小于预设相近词在解码概率矩阵中的相近词路径得分，则判定语音数据的语音识别结果为相近音误识别。本申请基于唤醒词路径得分与第一阈值之间的大小关系，能够对正确的唤醒词具有最基础的识别功能；进一步，通过关键字在解码概率矩阵中对应的关键字音素概率列的占比与第二阈值之间的大小关系，从而实现对唤醒词中关键字的针对性识别，进一步降低误识别的概率；更进一步的，通过唤醒词路径得分与相近词路径得分之间相对大小关系的比较，不需要设定固定阈值，且不受远场语音和近场语音的影响，鲁棒性好，且在出现新的相近音时，只需在检测时增加对唤醒词路径得分与新相近音的路径得分之间的大小关系比较即可，不需要重新训练唤醒词音素识别模型，方便快捷，成本较低。

附图说明

图1是本申请一实施例中相近音误识别的检测方法的步骤示意图；

图2是本申请一实施例中相近音误识别的检测装置的整体结构框图；

图3是本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种相近音误识别的检测方法，包括：

S1:采集语音数据，并将所述语音数据输入唤醒词音素识别模型进行处理，生成解码概率矩阵；

S2:分别判断唤醒词在所述解码概率矩阵中的唤醒词路径得分是否小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值，和/或所述唤醒词路径得分是否小于预设相近词在所述解码概率矩阵中的相近词路径得分；

S3:若所述唤醒词在所述解码概率矩阵中的唤醒词路径得分小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率均小于第二阈值，和/或所述唤醒词路径得分小于预设相近词在所述解码概率矩阵中的相近词路径得分，则判定所述语音数据的语音识别结果为相近音误识别。

本实施例中，语音识别设备的检测系统采集用户的语音数据（比如用户有意或无意说的话），然后将该语音数据输入唤醒词音素识别模型进行处理，生成解码概率矩阵。解码概率矩阵为多维矩阵，该解码概率矩阵的形状为：N*T，其中，N表征模型建模单元的类别个数，T表征语音数据的时间长度；本实施例中唤醒词音素识别模型的建模单元为音素，音素的类别有65个，则N为66(有一个blank维度)，解码概率矩阵的形状则为：66*T。音素的类比采用通用音素的类比，比如中文采用无声调的声韵母，65个音素；英文可采用39个通用音素。检测系统对唤醒词音素识别模型输出的解码概率矩阵进行后处理，得到在该解码概率矩阵中路径得分最高的词路径对应的词汇为唤醒词（即当前次的识别结果为唤醒词）。为了检测当前次的识别结果是否正确（即识别该唤醒词是否为相近音误识别的结果），检测系统判断该唤醒词在解码概率矩阵中的路径得分，即唤醒词路径得分是否小于第一阈值，优选的，第一阈值的具体值根据该唤醒词在过去模型测试或应用时被正确识别时的平均分值和预设比例进行设定；和/或判断唤醒词包含的关键字在解码概率矩阵中对应的所有关键字音素概率是否小于第二阈值，比如唤醒词为“小爱小爱”，与该唤醒词相近的词汇为“小艺小艺”，则选择“爱”为关键字，检测系统从解码概率矩阵中查找出所有包含“爱”字的音素概率的列，并判断各列中“爱”字的音素概率（即关键字音素概率）是否均小于第二阈值（比如小于0.6，第二阈值取0—1之间）；和/或判断唤醒词路径得分是否小于预设相近词在解码概率矩阵中的相近词路径得分。本实施例中，三个判断条件之间没有特定的顺序关系，即可以优先处理任意一个判断条件，也同步处理这三个判断条件也可以。如果唤醒词在解码概率矩阵中的唤醒词路径得分小于第一阈值，和/或唤醒词包含的关键字在解码概率矩阵中对应的所有关键字音素概率均小于第二阈值，和/或唤醒词路径得分小于预设相近词在解码概率矩阵中的相近词路径得分（即任意一个判断条件成立），则判定语音数据的语音识别结果为相近音误识别（即当前次得到的唤醒词为误识别结果，语音识别设备不做反应，比如不会被唤醒）。优选的，当三个判断条件按照预设顺序依次进行处理时，如果排序靠前的判断条件成立，则检测系统无需再进行后续的判断条件的处理，可以直接判定当前次的语音识别结果为相近音误识别，从而减少数据处理量，有效加快检测系统的反应速度。

本实施例中，检测系统基于唤醒词路径得分与第一阈值之间的大小关系，能够对正确的唤醒词具有最基础的识别功能；进一步，通过关键字在解码概率矩阵中对应的关键字音素概率列的占比与第二阈值之间的大小关系，从而实现对唤醒词中关键字的针对性识别，进一步降低误识别的概率；更进一步的，通过唤醒词路径得分与相近词路径得分之间相对大小关系的比较，不需要设定固定阈值，灵活度高，且不受远场语音和近场语音的影响，鲁棒性好，在出现新的相近音时，只需在检测时增加对唤醒词路径得分与新相近音的路径得分之间的大小关系比较即可，不需要重新训练唤醒词音素识别模型，方便快捷，成本较低。

进一步的，所述判断所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值的步骤，包括：

S201:根据预设条件从所述唤醒词中筛选出所述关键字；

S202:根据所述关键字在所述解码概率矩阵中查找出所有的所述关键字音素概率；

S203:分别判断各所述关键字音素概率是否小于所述第二阈值；

S204:若各所述关键字音素概率均小于所述第二阈值，则判定所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率均小于第二阈值。

本实施例中，唤醒词中的关键字需要用户或开发人员进行人工设置，检测系统根据用户或开发人员设置的预设条件从唤醒词中筛选出关键字（比如语音识别设备的唤醒词为“小爱同学”，与该唤醒词相近的词汇为“小艺朋友”，则分别选择“爱”、“同”、“学”做为关键字），关键字可以为一个或多个，具体根据实际应用时的唤醒词进行设置，在此不做具体限制；唤醒词包含多个关键字时，各个关键字的处理逻辑相同，本实施例以单个关键字为例进行说明。检测系统根据该关键字在解码概率矩阵中查找出对应的所有关键字音素概率列（即包含有关键字的音素概率的列），并分别判断各个关键字音素概率列中的关键字音素概率是否均小于预设的第二阈值，如果各个关键字音素概率均小于第二阈值，则判定唤醒词包含的关键字在解码概率矩阵中对应的所有关键字音素概率列均小于第二阈值。比如第二阈值设定为0.6，解码概率矩阵matrix = 65*T ，假设关键字“爱”字对应的是30列这个位置，也就是matrix[30][i] （表征“爱”字的音素概率，即关键字音素概率）, 0<=i <T，matrix[30][i]要小于0.6 ，即判定为关键字音素概率小于第二阈值。

进一步的，所述判断所述唤醒词路径得分是否小于预设相近词在所述解码概率矩阵中的相近词路径得分的步骤，包括：

S205:获取相近音词汇表，所述相近音词汇表包含多个预设相近词；

S206:在所述解码概率矩阵中分别查找各所述预设相近词对应的相近词路径，并计算得到各所述预设相近词分别对应的相近词路径得分；

S207:分别判断所述唤醒词路径得分是否小于各所述相近词路径得分；

S208:若所述唤醒词路径得分小于任一个所述相近词路径得分，则判定所述唤醒词路径得分小于预设相近词在所述解码概率矩阵中的相近词路径得分。

本实施例中，检测系统获取预先构建的相近音词汇表，该相近音词汇表包含多个预设相近词。检测系统在解码概率矩阵中分别查找各个预设相近词对应的相近词路径，并计算得到各个预设相近词分别对应的相近词路径得分（路径得分的算法与现有技术相同，在此不做赘述）。检测系统将唤醒词路径得分与各个相近词路径得分两两一组进行进行比对判断（比如相近音词汇表包含3个预设相近音，则在解码概率矩阵中计算得到的相近词路径得分有3个，假设分别为相近词路径得分a、相近词路径得分b、相近词路径得分c；在唤醒词路径得分与相近词路径得分比对判断时，唤醒词路径得分与相近词路径得分a为一组，唤醒词路径得分与相近词路径得分b为一组，唤醒词路径得分与相近词路径得分c为一组），分别判断唤醒词路径得分是否小于各个相近词路径得分。如果唤醒词路径得分小于其中任意一个相近词路径得分，则判定唤醒词路径得分小于预设相近词在解码概率矩阵中的相近词路径得分。如果唤醒词路径得分大于所有的相近词路径得分，则判定唤醒词路径得分大于预设相近词在解码概率矩阵中的相近词路径得分。本实施例中，唤醒词与相近词之间的识别判断，是通过唤醒词路径得分与相近词路径得分之间的大小关系进行判定，不需要设置固定阈值，方便灵活，能够与实际应用场景相契合，从而具有更好的识别准确度。

进一步的，所述采集语音数据，并将所述语音数据输入唤醒词音素识别模型进行处理，生成解码概率矩阵的步骤之前，包括：

S4:获取通用语音数据，并使用所述唤醒词音素识别模型对所述通用语音数据进行识别，筛选得到误识别音频；

S5:根据所述误识别音频对应的词汇构建所述相近音词汇表。

本实施例中，检测系统获取通用语音数据，比如中文的通用语音数据可选取aishell1、aishell、wenetspeech等开源数据集，然后使用训练好的唤醒词音素识别模型对这些通用语音数据进行识别，根据每次的识别结果筛选得到误识别音频（比如设定的唤醒词为“小爱”，输入的通用语音数据为“小艺”，当唤醒词音素识别模型将其识别为“小爱”时，则将“小艺”的语音数据作为误识别音频）。检测系统收集每次的误识别音频，进而根据这些误识别音频对应的词汇构建得到相近音词汇表。

进一步的，所述分别判断唤醒词在所述解码概率矩阵中的唤醒词路径得分是否小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值，和/或所述唤醒词路径得分是否小于预设相近词在所述解码概率矩阵中的相近词路径得分的步骤之后，包括：

S6:若所述唤醒词在所述解码概率矩阵中的唤醒词路径得分大于第一阈值，且所述唤醒词包含的关键字在所述解码概率矩阵中存在至少一个对应的关键字音素概率大于第二阈值，以及所述唤醒词路径得分大于预设相近词在所述解码概率矩阵中的相近词路径得分，则根据所述语音数据的语音识别结果执行对应的命令动作；

S7:监控在所述命令动作执行后的预设时长内，是否接收到用户反馈的识别错误信息；

S8:若在所述命令动作执行后的预设时长内，接收到用户反馈的识别错误信息，则获取所述语音识别结果对应的识别错误信息的反馈次数，并判断所述反馈次数是否大于次数阈值；

S9:若所述反馈次数大于次数阈值，则输出提示信息，所述提示信息用于提示用户将所述语音识别结果对应的相近音词添加到所述相近音词汇表。

本实施例中，如果唤醒词在解码概率矩阵中的唤醒词路径得分大于第一阈值，且所述唤醒词包含的关键字在所述解码概率矩阵中存在至少一个对应的关键字音素概率大于第二阈值（比如解码概率矩阵有100列，其中至少有1列的关键字音素的概率，要大于第二阈值），以及唤醒词路径得分大于预设相近词在解码概率矩阵中的相近词路径得分（即三个判断条件均不成立），则根据语音数据的语音识别结果执行对应的命令动作（比如唤醒语音识别设备）。然后，检测系统监控在该命令动作执行后的预设时长内，是否接收到用户反馈的误识别错误信息；比如执行动作为唤醒语音识别设备，预设时长为3s，如果用户在3秒内将语音识别设备调整至休眠状态，则该调整动作视为用户反馈的误识别错误性。检测系统获取该语音识别结果对应的识别错误信息的反馈次数（即误唤醒次数），并判断反馈次数是否大于预先设置的次数阈值。如果识别错误信息的反馈次数大于次数阈值，则输出提示新，该提示信息用于提示用户将语音识别结果对应的相近音词添加到相近音词汇表中（比如用户多次用相近音词“小一”误唤醒语音识别设备，则将“小一”作为相近音词添加到相近音词汇表中），以便后续检测系统可以根据新添加的相近音词对误识别情况做更精准的检测。

进一步的，所述判断唤醒词在所述解码概率矩阵中的唤醒词路径得分是否小于第一阈值的步骤之前，包括：

S10:调取所述唤醒词正确识别时的若干个历史分值；

S11:根据各所述历史分值和正确识别次数，计算得到平均分值；

S12:根据所述平均分值和预设比例，计算得到所述第一阈值。

本实施例中，检测系统调取唤醒词之前被正确识别时的若干个历史分值，然后根据各个历史分值和正确识别次数进行求均计算，得到平均分值（或者是唤醒词音素识别模型对正样本的测试平均分）。检测系统根据该平均分值的预设比例，相乘后计算得到第一阈值。比如平均分值为90，预设比例为0.8，则相乘后计算得到的第一阈值为72。

另一实施例中，第一阈值可以根据正样本（对应唤醒词）的最小测试得分和负样本的最大测试得分进行求均计算得到。比如正样本的测试得分范围为（90—100），其最小测试得分为90；负样本的测试得分范围为（0—30），其最大测试得分为30；则第一阈值等于(30+90)/2，取60。优选的，如果正样本的最小测试得分和负样本的最大测试得分为孤立点，则正样本的最小测试得分和负样本的最大测试得分需要取百分位值后再进行求均计算。同样以正样本的测试得分范围为（90—100）,负样本的测试得分范围为（0—30）为例进行说明，正样本的最小测试得分取10百分位值，假定为92；负样本的最大测试得分取90百分位值，假定为28，则第一阈值等于(92+28)/2，取60。

参照图2，本申请一实施例中还提供了一种相近音误识别的检测装置，包括：

生成模块1，用于采集语音数据，并将所述语音数据输入唤醒词音素识别模型进行处理，生成解码概率矩阵；

检测模块2，用于分别判断唤醒词在所述解码概率矩阵中的唤醒词路径得分是否小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值，和/或所述唤醒词路径得分是否小于预设相近词在所述解码概率矩阵中的相近词路径得分；

判定模块3，用于若所述唤醒词在所述解码概率矩阵中的唤醒词路径得分小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率均小于第二阈值，和/或所述唤醒词路径得分小于预设相近词在所述解码概率矩阵中的相近词路径得分，则判定所述语音数据的语音识别结果为相近音误识别。

进一步的，所述检测模块2，包括：

筛选单元，用于根据预设条件从所述唤醒词中筛选出所述关键字；

第一查找单元，用于根据所述关键字在所述解码概率矩阵中查找出所有的所述关键字音素概率列；

第一判断单元，用于分别判断各所述关键字音素概率是否小于所述第二阈值；

第一判定单元，用于若各所述关键字音素概率均小于所述第二阈值，则判定所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率均小于第二阈值。

进一步的，所述检测模块2，包括：

获取单元，用于获取相近音词汇表，所述相近音词汇表包含多个预设相近词；

第二查找单元，用于在所述解码概率矩阵中分别查找各所述预设相近词对应的相近词路径，并计算得到各所述预设相近词分别对应的相近词路径得分；

第二判断单元，用于分别判断所述唤醒词路径得分是否小于各所述相近词路径得分；

第二判定单元，用于若所述唤醒词路径得分小于任一个所述相近词路径得分，则判定所述唤醒词路径得分小于预设相近词在所述解码概率矩阵中的相近词路径得分。

进一步的，所述检测装置，还包括：

筛选模块4，用于获取通用语音数据，并使用所述唤醒词音素识别模型对所述通用语音数据进行识别，筛选得到误识别音频；

构建模块5，用于根据所述误识别音频对应的词汇构建所述相近音词汇表。

进一步的，所述检测装置，还包括：

执行模块6，用于若所述唤醒词在所述解码概率矩阵中的唤醒词路径得分大于第一阈值，且所述唤醒词包含的关键字在所述解码概率矩阵中存在至少一个对应的关键字音素概率大于第二阈值，以及所述唤醒词路径得分大于预设相近词在所述解码概率矩阵中的相近词路径得分，则根据所述语音数据的语音识别结果执行对应的命令动作；

监控模块7，用于监控在所述命令动作执行后的预设时长内，是否接收到用户反馈的识别错误信息；

判断模块8，用于若在所述命令动作执行后的预设时长内，接收到用户反馈的识别错误信息，则获取所述语音识别结果对应的识别错误信息的反馈次数，并判断所述反馈次数是否大于次数阈值；

输出模块9，用于若所述反馈次数大于次数阈值，则输出提示信息，所述提示信息用于提示用户将所述语音识别结果对应的相近音词添加到所述相近音词汇表。

进一步的，所述检测装置，包括：

调取模块10，用于调取所述唤醒词正确识别时的若干个历史分值；

第一计算模块11，用于根据各所述历史分值和正确识别次数，计算得到平均分值；

第二计算模块12，用于根据所述平均分值和预设比例，计算得到所述第一阈值。

本实施例中，相近音误识别的检测装置中各模块、单元用于对应执行与上述相近音误识别的检测方法中的各个步骤，其具体实施过程在此不做详述。

本实施例提供的一种相近音误识别的检测装置，检测系统采集语音数据，并将语音数据输入唤醒词音素识别模型进行处理，生成解码概率矩阵。然后，检测系统分别判断唤醒词在解码概率矩阵中的唤醒词路径得分是否小于第一阈值，和/或唤醒词包含的关键字在解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值，和/或唤醒词路径得分是否小于预设相近词在解码概率矩阵中的相近词路径得分。如果唤醒词在解码概率矩阵中的唤醒词路径得分小于第一阈值，和/或唤醒词包含的关键字在解码概率矩阵中对应的所有关键字音素概率均小于第二阈值，和/或唤醒词路径得分小于预设相近词在解码概率矩阵中的相近词路径得分，则判定语音数据的语音识别结果为相近音误识别。本申请基于唤醒词路径得分与第一阈值之间的大小关系，能够对正确的唤醒词具有最基础的识别功能；进一步，通过关键字在解码概率矩阵中对应的关键字音素概率列的占比与第二阈值之间的大小关系，从而实现对唤醒词中关键字的针对性识别，进一步降低误识别的概率；更进一步的，通过唤醒词路径得分与相近词路径得分之间相对大小关系的比较，不需要设定固定阈值，且不受远场语音和近场语音的影响，鲁棒性好，且在出现新的相近音时，只需在检测时增加对唤醒词路径得分与新相近音的路径得分之间的大小关系比较即可，不需要重新训练唤醒词音素识别模型，方便快捷，成本较低。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设相近词等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种相近音误识别的检测方法。

上述处理器执行上述相近音误识别的检测方法的步骤：

S201:根据预设条件从所述唤醒词中筛选出所述关键字；

S5:根据所述误识别音频对应的词汇构建所述相近音词汇表。

S9:若所述反馈次数大于次数阈值，则输出提示信息，所述提示信息用于提示用户将所述语音识别结果对应的相近音词添加到所述相近音词汇。

S10:调取所述唤醒词正确识别时的若干个历史分值；

S12:根据所述平均分值和预设比例，计算得到所述第一阈值。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种相近音误识别的检测方法，所述相近音误识别的检测方法具体为：

S201:根据预设条件从所述唤醒词中筛选出所述关键字；

S5:根据所述误识别音频对应的词汇构建所述相近音词汇表。

S10:调取所述唤醒词正确识别时的若干个历史分值；

S12:根据所述平均分值和预设比例，计算得到所述第一阈值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种相近音误识别的检测方法，其特征在于，包括：

2.根据权利要求1所述的相近音误识别的检测方法，其特征在于，所述判断所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值的步骤，包括：

根据预设条件从所述唤醒词中筛选出所述关键字；

根据所述关键字在所述解码概率矩阵中查找出所有的所述关键字音素概率；

分别判断各所述关键字音素概率是否小于所述第二阈值；

若各所述关键字音素概率均小于所述第二阈值，则判定所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率均小于第二阈值。

3.根据权利要求1所述的相近音误识别的检测方法，其特征在于，所述判断所述唤醒词路径得分是否小于预设相近词在所述解码概率矩阵中的相近词路径得分的步骤，包括：

获取相近音词汇表，所述相近音词汇表包含多个预设相近词；

在所述解码概率矩阵中分别查找各所述预设相近词对应的相近词路径，并计算得到各所述预设相近词分别对应的相近词路径得分；

分别判断所述唤醒词路径得分是否小于各所述相近词路径得分；

若所述唤醒词路径得分小于任一个所述相近词路径得分，则判定所述唤醒词路径得分小于预设相近词在所述解码概率矩阵中的相近词路径得分。

4.根据权利要求3所述的相近音误识别的检测方法，其特征在于，所述采集语音数据，并将所述语音数据输入唤醒词音素识别模型进行处理，生成解码概率矩阵的步骤之前，包括：

获取通用语音数据，并使用所述唤醒词音素识别模型对所述通用语音数据进行识别，筛选得到误识别音频；

根据所述误识别音频对应的词汇构建所述相近音词汇表。

5.根据权利要求3所述的相近音误识别的检测方法，其特征在于，所述分别判断唤醒词在所述解码概率矩阵中的唤醒词路径得分是否小于第一阈值，和/或所述唤醒词包含的关键字在所述解码概率矩阵中对应的所有关键字音素概率是否均小于第二阈值，和/或所述唤醒词路径得分是否小于预设相近词在所述解码概率矩阵中的相近词路径得分的步骤之后，包括：

若所述唤醒词在所述解码概率矩阵中的唤醒词路径得分大于第一阈值，且所述唤醒词包含的关键字在所述解码概率矩阵中存在至少一个对应的关键字音素概率大于第二阈值，以及所述唤醒词路径得分大于预设相近词在所述解码概率矩阵中的相近词路径得分，则根据所述语音数据的语音识别结果执行对应的命令动作；

监控在所述命令动作执行后的预设时长内，是否接收到用户反馈的识别错误信息；

若在所述命令动作执行后的预设时长内，接收到用户反馈的识别错误信息，则获取所述语音识别结果对应的识别错误信息的反馈次数，并判断所述反馈次数是否大于次数阈值；

若所述反馈次数大于次数阈值，则输出提示信息，所述提示信息用于提示用户将所述语音识别结果对应的相近音词添加到所述相近音词汇表。

6.根据权利要求1所述的相近音误识别的检测方法，其特征在于，所述判断唤醒词在所述解码概率矩阵中的唤醒词路径得分是否小于第一阈值的步骤之前，包括：

调取所述唤醒词正确识别时的若干个历史分值；

根据各所述历史分值和正确识别次数，计算得到平均分值；

根据所述平均分值和预设比例，计算得到所述第一阈值。

7.一种相近音误识别的检测装置，其特征在于，包括：

8.根据权利要求7所述的相近音误识别的检测装置，其特征在于，所述检测模块，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。