CN115762521A - 一种关键词识别方法及相关装置 - Google Patents

一种关键词识别方法及相关装置 Download PDF

Info

Publication number
CN115762521A
CN115762521A CN202211238834.7A CN202211238834A CN115762521A CN 115762521 A CN115762521 A CN 115762521A CN 202211238834 A CN202211238834 A CN 202211238834A CN 115762521 A CN115762521 A CN 115762521A
Authority
CN
China
Prior art keywords
decoding
keyword
frame
decoding result
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211238834.7A
Other languages
English (en)
Inventor
黄惠祥
林聚财
方瑞东
吴人杰
殷俊
史巍
岳昌洁
王宝俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202211238834.7A priority Critical patent/CN115762521A/zh
Publication of CN115762521A publication Critical patent/CN115762521A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种关键词识别方法及相关装置,涉及语音识别技术领域。在本申请中,关键词识别系统采用流式的处理方式,接收并解码由目标对象发出的语音信号,其中,当关键词识别系统第一次解码过程中识别到预设的关键词时,关键词识别系统会基于第一次解码过程中获得的语音词图,对不大于N秒且包含关键词的第一解码结果进行二次解码。采用这种方式,根据第一次解码获得的解码结果,来判定关键词语音的截止点,降低了关键词识别的时延,其次,通过只获取从当前时刻向前N秒时长的解码结果,减少了解码的时长,加快了二次解码的速度,同时,对第一解码结果进行二次解码和对第二解码结果进行置信度判决,提高了关键词识别的准确率。

Description

一种关键词识别方法及相关装置
技术领域
本申请涉及语音识别技术领域,尤其涉及一种关键词识别方法及相关装置。
背景技术
关键词识别作为语音识别技术的一项重要分支,在人机交互、智能家居中被广泛的应用,如某些智能家居场景中,用户会用唤醒词将智能设备唤醒,然后说出希望设备执行的语音指令,指示设备完成特定动作,如“打开空调”,这个过程中,涉及到的语音唤醒和命令词识别,都是关键词识别技术的重要应用。
关键词语音识别系统通常将流式处理和语音活动检测(Voice ActivityDetection,VAD)模块结合使用,通过VAD判断语音的起止点,从而获得更好的识别结果。该方法的弊端在于,VAD的端点检测效果会影响到语音识别的性能,例如,在部分嘈杂环境下,VAD几乎无法准确判断语音的起止点,将导致关键词识别效果急剧下降,另外,VAD在判断语音截止点时可能会引入额外的时延,会降低关键词识别系统的响应速度,尤其是当解码一段语句中间包含关键词的长语音时,如果等待VAD判断语音结束后再进行解码,整个系统的响应速度会大大降低。
针对上述问题,目前的有效解法有以下两种:
方法一:采用流式处理的方式对语音进行识别,同时在流式过程中根据识别结果的置信度判断是否输出对应的识别结果,而不用等待语音指令的截止。
然而,该方法中根据置信度实时判断是否输出识别结果,对于一段正确发音的语音,可能在初始发音阶段的置信度是较低的,此时该方法可能会将置信度低的识别结果舍弃,降低了关键词识别的准确率。
方法二:使用第一神经网络提取语音特征的多维声学特征,使用第二神经网络从多维声学特征中提取第一声学信息,再使用注意力机制从第一声学信息中获取第二声学信息,最后基于两个声学信息获取音素的概率分布,并根据概率分布进行解码,获取识别结果。
然而,该方法中的多个神经网络声学模型的前向推理以及后验概率的融合过程,将极大提升解码流程的计算量,降低了该算法的解码速度,进而降低了关键词识别的响应速度。
有鉴于此,需要提出一种新的关键词识别方法,来提高关键词识别的响应速度和准确率。
发明内容
本申请提供了一种关键词识别方法及相关装置,用以提高关键词识别的响应速度和准确率。
第一方面,本申请实施例提供了一种关键词识别方法,所述方法包括:
针对获取的待识别语音信号进行实时逐帧解码,直到已解码的第一语音数据的时长不小于N秒时,将第一语音数据中,第一当前时刻向前N秒时长内获得的数据部分作为第一解码结果;
若第一解码结果中包含预设关键词,则继续对待识别语音进行逐帧解码,直到已解码的第二语音数据中出现非关键词时,获取第二当前时刻向前N秒时长内,第二语音数据在解码过程中产生的语音词图,语音词图中包含:与关键词之间的相似度高于设定阈值的多个候选字序列;
按照预设比例,分别调整所述语音词图中每个候选字序列包含的各候选字各自的评估指标占比,并基于调整结果,分别获得每个候选字序列的目标评估值;
基于获得的各目标评估值,对语音词图进行解码,获得第二解码结果,并在第二解码结果中包含关键词时,将第二解码结果作为待识别语音信号的识别结果输出。
第二方面,本申请实施例还提供了一种关键词识别装置,所述装置包括:
第一解码模块,用于针对获取的待识别语音信号进行实时逐帧解码,直到已解码的第一语音数据的时长不小于N秒时,将第一语音数据中,第一当前时刻向前N秒时长内获得的数据部分作为第一解码结果;
第二解码模块,若第一解码结果中包含预设关键词,则继续对待识别语音进行逐帧解码,直到已解码的第二语音数据中出现非关键词时,获取第二当前时刻向前N秒时长内,第二语音数据在解码过程中产生的语音词图,语音词图中包含:与关键词之间的相似度高于设定阈值的多个候选字序列;
调整模块,按照预设比例,分别调整所述语音词图中每个候选字序列包含的各候选字各自的评估指标占比,并基于调整结果,分别获得每个候选字序列的目标评估值;
输出模块,基于获得的各目标评估值,对语音词图进行解码,获得第二解码结果,并在第二解码结果中包含关键词时,将第二解码结果作为待识别语音信号的识别结果输出。
可选的,将第一语音数据中,第一当前时刻向前N秒时长内获得的数据部分作为第一解码结果时,所述第一解码模块还用于:
若已解码的第一语音数据的时长小于N秒且包含所述预设关键词,则直接将第一语音数据作为第一解码结果。
可选的,所述第一解码模块还用于:
若第一解码结果中不包含所述预设关键词,则舍弃已解码的第一语音数据,重新针对后续实时采集的待识别语音信号进行逐帧解码。
可选的,按照预设比例,分别调整每个候选字序列包含的各候选字各自的评估指标占比,并基于调整结果,分别获得每个候选字序列的目标评估值时,所述调整模块用于:
针对每个候选字序列,分别执行以下操作:
针对一个候选字序列包含的各候选字,分别执行以下操作:基于预设比例,调整一个候选字关联的各评估指标的权重,并基于各评估指标及相应权重,获得一个候选字的字评估值;
基于各候选字的字评估值,获得一个候选字序列的目标评估值。
可选的,第二解码结果中包含的关键词是由语音词图中的一个候选字序列组成的,则在第二解码结果中包含关键词时,将第二解码结果作为一段识别结果输出之前,所述输出模块还用于:
基于组成关键词对应的候选字序列的目标评估值,获得第二解码结果的置信度;
若第二解码结果的置信度大于预设的置信度阈值,则将第二解码结果作为一段识别结果输出。
可选的,所述输出模块还用于:
若第二解码结果的置信度不大于预设的置信度阈值,则舍弃第二解码结果,重新针对后续实时采集的待识别语音信号进行逐帧解码。
可选的,对待识别语音信号进行逐帧解码时,所述第一解码模块和第二解码模块用于:
针对待识别语音信号中包含的各语音帧,分别执行以下操作:
提取一个语音帧的声学特征,将声学特征送入到预先训练完成的声学模型中,获取一个语音帧的音素概率分布;
基于音素概率分布,获得一个语音帧的解码结果。
第三方面,本申请实施例提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一所述方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品在被计算机调用时,使得所述计算机执行如第一方面所述的方法。
在本申请实施例中,关键词识别系统采用流式的处理方式,接收并解码由目标对象发出的语音信号,其中,当关键词识别系统第一次解码过程中识别到预设的关键词,或当已解码语音时长超过N秒且包含关键词时,关键词识别系统会基于第一次解码过程中获得的语音词图,对不大于N秒且包含关键词的第一解码结果进行二次解码。
采用这种方式,根据第一次解码获得的解码结果,来判定关键词语音的截止点,降低了关键词识别的时延,其次,通过只获取从当前时刻向前N秒时长的解码结果,减少了解码的时长,加快了二次解码的速度,同时,对第一解码结果进行二次解码和对第二解码结果进行置信度判决,提高了关键词识别的准确率。
附图说明
图1为本申请实施例中系统架构示意图;
图2为本申请实施例中系统架构下关键词识别的详细流程图;
图3为本申请实施例中提供的一种语音词图示意图;
图4为本申请实施例中提供的一种语音词图中“关机”对应的路径得分示意图;
图5为本申请实施例中提供的一种语音词图中“关闭”对应的路径得分示意图;
图6为本申请实施例中系统架构下关键词识别的详细流程图第一子图;
图7为本申请实施例中提供的一种经过权重调整后“关机”对应的路径得分示意图;
图8为本申请实施例中提供的一种经过权重调整后“关闭”对应的路径得分示意图;
图9为本申请实施例中提供的一种语音词图中的最优路径示意图;
图10为本申请实施例中系统架构下关键词识别的详细流程图第二子图;
图11为本申请实施例中提供的具体应用场景下的一种语音词图示意图;
图12为本申请实施例中一种关键词识别装置的结构示意图;
图13为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
(1)关键词:预设于关键词识别系统中的一些特定词语,一般为命令词,用于指示设备完成特定动作。
(2)声学特征:表征语音声学特性的物理量,它包括声音四要素(音长、音强、音高、音质)的所有声学表现,如表征音质的强频集中区、共振峰频率、共振峰带宽等和表征超音质成分的时长、基频、平均语声功率等。
(3)音素:是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素,如汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。
(4)词图(Lattice图):本质上是一个有向无环图,每张词图包含一个开始结点和一个结束结点,每个结点用一条有向弧连接,每个结点或每条弧上保存有一个语音帧可能的识别结果,以及识别结果对应的声学概率、语言概率等得分信息。
(5)置信度:表征识别结果的可信程度,一般可以选择声学分、图分、图混乱程度、语言模型回退概率等一种或者多种方法来计算识别结果的置信度。
下面结合附图对本申请优选的实施方式进行详细介绍。
参阅图1所示,本申请实施例中,包含有目标对象100,智能设备101,关键词识别系统103三个主要部分,其中,关键词识别系统103配置于智能设备101中,智能设备101可以是终端设备或服务端设备,终端设备可以但不局限于包括智能助理、智能音箱、空调、电视等电器,服务端设备可以但不局限于包括云端服务器、分布式服务器、区块链服务器、独立的物理服务器等;目标对象100用于生成待识别语音信号,关键词识别系统103用于对获取的待识别语音信号进行实时逐帧解码;
作为一种实施例,待识别语音信号可以是实时采集的,如当目标对象100发出语音信号时,关键词识别系统103采用流式处理方法,实时接收该语音信号作为待识别语音信号并对其进行实时逐帧解码,并根据实时逐帧解码的结果控制智能设备101完成关键词对应的特定动作。
作为一种实施例,待识别语音信号也可以是提前采集好的离线语音,将离线语音输入关键词识别系统103的过程中,关键词识别系统103将实时接收的离线语音作为待识别语音信号,并采用流式处理方法,对实时接收的待识别语音信号进行实时逐帧解码。
基于上述系统架构,参阅图2所示,本申请实施例中,关键词识别系统对实时采集的语音信号进行解码的详细流程如下:
步骤201:针对获取的待识别语音信号进行实时逐帧解码,直到已解码的第一语音数据的时长不小于N秒时,将第一语音数据中,第一当前时刻向前N秒时长内获得的数据部分作为第一解码结果。
具体的,本申请实施例中,关键词识别系统将实时接收到的语音信号作为步骤201中实时获取的待识别语音信号,并对其进行实时逐帧解码,若已解码的第一语音数据的时长小于N秒且包含预设的关键词,则直接将第一语音数据作为第一解码结果,其中,第一语音数据指待识别语音信号中当前已解码的所有语音帧对应的解码结果。
例如,当前语音帧完成解码后,判断当前已解码的第一语音数据的时长是否小于3秒,若是,则进一步判断当前已解码的第一语音数据中是否包含预设关键词(如播放音乐、关机等),若包含,则停止逐帧解码,将第一语音数据作为第一解码结果,否则,继续进行逐帧解码,直到已解码的语音数据中包含预设的关键词,或已解码的语音数据的时长不小3秒时,将最后解码的语音帧对应的时刻作为第一当前时刻,并将第一语音数据中,从第一当前时刻向前3秒时长内获得的数据部分作为第一解码结果,其中N的取值根据实际经验预设,或根据关键词的长度进行设置,关键词长度越长,则N的取值就越大,反之,N的取值越小。
基于步骤201所述,通过只获取从当前时刻向前N秒时长的第一解码结果,减少了解码的时长,加快了解码速度。
步骤202:若第一解码结果中包含预设关键词,则继续对待识别语音进行逐帧解码,直到已解码的第二语音数据中出现非关键词时,获取第二当前时刻向前N秒时长内,第二语音数据在解码过程中产生的语音词图,语音词图中包含:与关键词之间的相似度高于设定阈值的多个候选字序列。
例如,若第一解码结果中包含预设关键词(如关机),则继续对待识别语音进行逐帧解码,直到已解码的第二语音数据出现非关键词时,将出现非关键词的语音帧,作为第二语音数据的结束端点,以及将出现非关键词的语音帧对应的时刻作为第二当前时刻,并获取第二当前时刻向前3秒时长内,第二语音数据在解码过程中产生的Lattice图,Lattice图中包含与预设的关键词之间的相似度高于设定阈值的多个候选字序列,其中,第二语音数据指从第一当前时刻起,到第二当前时刻已解码的所有语音帧对应的解码结果。
可选的,参阅图3所示,本申请实施例的Lattice图中,包含“关机”和“关闭”两个候选字序列,分别保存于对应的结点中,结合一个输入结点和一个输出结点,每个候选字序列构成一条路径,各候选字序列与预设关键词之间的相似度,是通过各候选字序列的图分和声学分的综合得分来体现的,综合得分最高的路径为最优路径,且关键词识别系统认为最优路径对应的候选字序列即为关键词,当识别结果的图分和声学分的综合得分,与当前Lattice图中最优路径的综合得分相差不大于10时,关键词识别系统将该识别结果作为一个候选字序列,保存在Lattice图中。
例如,参阅图4和图5所示,候选字序列“关机”中,候选字“机”的图分为4,声学分为50,候选字序列“关闭”中,候选字“闭”的图分为5,声学分为40,相同候选字“关”的图分为6,声学分为50,则候选字序列“关机”的综合得分为110,候选字序列“关闭”的综合得分为101。
另外,在一些实施例中,若第一解码结果中不包含预设关键词,则舍弃已解码的第一语音数据,重新针对后续实时采集的待识别语音信号进行逐帧解码。
基于步骤202所述,根据第一次解码获得的解码结果,来判定关键词语音的结束端点,降低了关键词识别的时延。
步骤203:按照预设比例,分别调整语音词图中每个候选字序列包含的各候选字各自的评估指标占比,并基于调整结果,分别获得每个候选字序列的目标评估值。
具体的,本申请实施例中,每个候选字序列的目标评估值,是采用以下方式获得的:
参阅图6所示:针对每个候选字序列,分别执行以下操作:
步骤2031:针对一个候选字序列包含的各候选字,分别执行以下操作:基于预设比例,调整一个候选字关联的各评估指标的权重,并基于各评估指标及相应权重,获得一个候选字的字评估值。
例如,以各候选字序列的综合得分作为各候选字序列的目标评估值,则各候选字序列的评估指标包含图分和声学分,假设其各评估指标对应的初始权重都为1,参阅图7所示,针对候选字序列“关机”中包含的候选字“机”,基于0.5的比例调整其声学分的权重,保持图分的权重不变,则候选字“机”最终的字评估值为:0.5×50+4=29。
同理,参阅图8所示,针对候选字序列“关闭”中包含的候选字“闭”,基于0.5的比例调整其声学分的权重,保持图分的权重不变,则候选字“闭”最终的字评估值为:0.5×40+5=25。
针对图7和图8中的相同候选字“关”,基于0.5的比例调整其声学分的权重,保持图分的权重不变,则候选字“闭”最终的字评估值为:0.5×50+6=31。
步骤2032:基于各候选字的字评估值,获得一个候选字序列的目标评估值。
例如,每一个候选字序列的目标评估值,为各候选字序列中包含的各候选字对应的字评估值的总和,因此,候选字序列“关机”的目标评估值为31+29=60,候选字序列“关闭”的目标评估值为31+25=56。
步骤204:基于获得的各目标评估值,对语音词图进行解码,获得第二解码结果,并在第二解码结果中包含关键词时,将第二解码结果作为待识别语音信号的识别结果输出。
具体的,本申请实施例中,第二解码结果中包含的关键词是由语音词图中的一个候选字序列组成的,且在第二解码结果中包含关键词时,将第二解码结果作为一段识别结果输出之前,关键词识别系统还需要基于组成关键词对应的候选字序列的目标评估值,获得第二解码结果的置信度,若第二解码结果的置信度大于预设的置信度阈值,则将第二解码结果作为一段识别结果输出。
例如,参阅图9所示,候选字序列“关机”的目标评估值60是Lattice图中的最大值,则关键词识别系统将候选字“关机”判定为关键字,在将候选字序列“关机”作为识别结果输出之前,关键词识别系统还会对其做置信度判决,假设直接将候选字序列“关机”的目标评估值作为它的置信度,且预设的置信度阈值为58,由于60>58,则关键词识别系统认为此识别结果可信,再将候选字序列“关机”作为一段识别结果输出。
可选的,关键词识别系统在对第二解码结果进行置信度判决时,除了采用由图分和声学分组成的目标评估值进行判决外,还可以加入图混乱程度、语言模型回退概率等一种或多种方法作为置信度判决的依据。
例如,参阅图9所示,假设预设的置信度阈值为65,而在当前的Lattice图中并没有目标评估值大于65的候选字序列,则此时可根据图混乱程度进一步判断图中是否包含关键词,由于此时Lattice图中只有两条路径,表征图混乱程度较低(该方法为一项现有技术,在此不做具体描述),则关键词识别系统直接将Lattice图中,目标评估值最高的候选字序列“关机”,作为一段识别结果输出,并指示智能设备完成关机。
另一方面,若第二解码结果的置信度不大于预设的置信度阈值,则舍弃第二解码结果,重新针对后续实时采集的待识别语音信号进行逐帧解码。
基于步骤204所述,对第一解码结果进行二次解码和对第二解码结果进行置信度判决,提高了关键词识别的准确率。
进一步的,本申请实施例中,关键词识别系统是采用以下方式对待识别语音信号进行逐帧解码的:
待识别语音信号一般为离散时间信号,关键词识别系统接收到待识别语音信号时,需要对其进行分帧、加窗和预加重等处理。
参阅图10所示:针对待识别语音信号中包含的各语音帧,分别执行以下操作:
步骤2041:提取一个语音帧的声学特征,将声学特征送入到预先训练完成的声学模型中,获取一个语音帧的音素概率分布。
具体的,声学特征可以是一种,如梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)特征、基于滤波器组的特征(Filter bank,FBANK特征)、pitch特征以及身份向量(Identity Vector,i-vector)特征等,也可以是多种声学特征的融合,如MFCC+ivector特征,关键词识别系统将提取到的声学特征输入至预先训练完成的声学模型中,得到语音帧对应的音素概率分布,即声学分。
步骤2042:基于音素概率分布,获得一个语音帧的解码结果。
具体的,将音素概率分布和预先训练完成的解码图输入至解码器中,即可对语音帧对应的文本内容进行识别,其中,预先训练完成的解码图中,包含有与多个预设的关键词相似的多个候选字序列。
下面通过一个具体的应用场景对上述实施例做出进一步详细说明。
若第一解码结果中包含预设的关键词“打开”,关键词识别系统则继续对待识别语音进行逐帧解码,直到已解码的第二语音数据出现非关键词时,将出现非关键词的语音帧,作为第二语音数据的结束端点,并获取当前语音帧向前3秒时长内,第二语音数据在解码过程中产生的Lattice图,参阅图11所示,Lattice图中包含与关键词相似的三个候选字序列组成的三条路径,分别为“打开”、“打卡”和“带宽”,其中,基于各候选字序列包含的各候选字对应的字评估值的调整结果,各候选字序列对应的目标评估值分别为:“打开”:30+25=55;“打卡”:30+20=50;“带宽”:25+10=35。最优路径为候选字序列“打开”对应的路径,则关键词识别系统对候选字序列“打开”进行置信度判决,假设候选字序列“打开”对应的目标评估值55即为其对应的置信度,且预设的置信度阈值为65,由于56<65,故关键词识别系统判定第二解码结果中不包含关键字,并舍弃第二解码结果,重新针对后续实时采集的待识别语音信号进行逐帧解码。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
基于相同技术构思,参阅图12所示,本申请实施例还提供了一种关键词识别装置,该装置包括:
第一解码模块1201,用于针对获取的待识别语音信号进行实时逐帧解码,直到已解码的第一语音数据的时长不小于N秒时,将第一语音数据中,第一当前时刻向前N秒时长内获得的数据部分作为第一解码结果;
第二解码模块1202,若第一解码结果中包含预设关键词,则继续对待识别语音进行逐帧解码,直到已解码的第二语音数据中出现非关键词时,获取第二当前时刻向前N秒时长内,第二语音数据在解码过程中产生的语音词图,语音词图中包含:与关键词之间的相似度高于设定阈值的多个候选字序列;
调整模块1203,按照预设比例,分别调整语音词图中每个候选字序列包含的各候选字各自的评估指标占比,并基于调整结果,分别获得每个候选字序列的目标评估值;
输出模块1204,基于获得的各目标评估值,对语音词图进行解码,获得第二解码结果,并在第二解码结果中包含关键词时,将第二解码结果作为待识别语音信号的识别结果输出。
可选的,将第一语音数据中,第一当前时刻向前N秒时长内获得的数据部分作为第一解码结果时,第一解码模块1201还用于:
若已解码的第一语音数据的时长小于N秒且包含预设关键词,则直接将第一语音数据作为第一解码结果。
可选的,第一解码模块1201还用于:
若第一解码结果中不包含预设关键词,则舍弃已解码的第一语音数据,重新针对后续实时采集的待识别语音信号进行逐帧解码。
可选的,按照预设比例,分别调整每个候选字序列包含的各候选字各自的评估指标占比,并基于调整结果,分别获得每个候选字序列的目标评估值时,调整模块1203用于:
针对每个候选字序列,分别执行以下操作:
针对一个候选字序列包含的各候选字,分别执行以下操作:基于预设比例,调整一个候选字关联的各评估指标的权重,并基于各评估指标及相应权重,获得一个候选字的字评估值;
基于各候选字的字评估值,获得一个候选字序列的目标评估值。
可选的,第二解码结果中包含的关键词是由语音词图中的一个候选字序列组成的,则在第二解码结果中包含关键词时,将第二解码结果作为一段识别结果输出之前,输出模块1204还用于:
基于组成关键词对应的候选字序列的目标评估值,获得第二解码结果的置信度;
若第二解码结果的置信度大于预设的置信度阈值,则将第二解码结果作为一段识别结果输出。
可选的,输出模块1204还用于:
若第二解码结果的置信度不大于预设的置信度阈值,则舍弃第二解码结果,重新针对后续实时采集的待识别语音信号进行逐帧解码。
可选的,对待识别语音信号进行逐帧解码时,第一解码模块1201和第二解码模块1202用于:
针对待识别语音信号中包含的各语音帧,分别执行以下操作:
提取一个语音帧的声学特征,将声学特征送入到预先训练完成的声学模型中,获取一个语音帧的音素概率分布;
基于音素概率分布,获得一个语音帧的解码结果。
基于相同的技术构思,本申请实施例还提供了一种电子设备,该电子设备可实现本申请上述实施例提供的关键词识别的方法流程。
在一种实施例中,该电子设备可以是服务器,也可以是终端设备或其他电子设备。
参阅图13所示,该电子设备可包括:
至少一个处理器1301,以及与至少一个处理器1301连接的存储器1302,本申请实施例中不限定处理器1301与存储器1302之间的具体连接介质,图13中是以处理器1301和存储器1302之间通过总线1300连接为例。总线1300在图13中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1300可以分为地址总线、数据总线、控制总线等,为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器1301也可以称为控制器,对于名称不做限制。
在本申请实施例中,存储器1302存储有可被至少一个处理器1301执行的指令,至少一个处理器1301通过执行存储器1302存储的指令,可以执行前文论述的一种关键词识别方法。处理器1301可以实现图12所示的装置中各个模块的功能。
其中,处理器1301是该装置的控制中心,可以利用各种接口和线路连接整个该控制设备的各个部分,通过运行或执行存储在存储器1302内的指令以及调用存储在存储器1302内的数据,该装置的各种功能和处理数据,从而对该装置进行整体监控。
在一种可能的设计中,处理器1301可包括一个或多个处理单元,处理器1301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1301中。在一些实施例中,处理器1301和存储器1302可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1301可以是通用处理器,例如CPU、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的一种关键词识别方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1302可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1302是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1302还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器1301进行设计编程,可以将前述实施例中介绍的一种关键词识别方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行图2所示的实施例的一种关键词识别方法的步骤。如何对处理器1301进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行前文论述的一种关键词识别方法。
在一些可能的实施方式中,本申请提供一种关键词识别方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在装置上运行时,程序代码用于使该控制设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种关键词识别方法中的步骤。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种关键词识别方法,其特征在于,所述方法包括:
针对获取的待识别语音信号进行实时逐帧解码,直到已解码的第一语音数据的时长不小于N秒时,将所述第一语音数据中,第一当前时刻向前N秒时长内获得的数据部分作为第一解码结果;
若所述第一解码结果中包含预设关键词,则继续对所述待识别语音进行逐帧解码,直到已解码的第二语音数据中出现非关键词时,获取第二当前时刻向前N秒时长内,所述第二语音数据在解码过程中产生的语音词图,所述语音词图中包含:与所述关键词之间的相似度高于设定阈值的多个候选字序列;
按照预设比例,分别调整所述语音词图中每个候选字序列包含的各候选字各自的评估指标占比,并基于调整结果,分别获得每个候选字序列的目标评估值;
基于获得的各目标评估值,对所述语音词图进行解码,获得第二解码结果,并在所述第二解码结果中包含所述关键词时,将所述第二解码结果作为所述待识别语音信号的识别结果输出。
2.如权利要求1所述的方法,其特征在于,所述将所述第一语音数据中,第一当前时刻向前N秒时长内获得的数据部分作为第一解码结果时,还包括:
若已解码的第一语音数据的时长小于N秒且包含所述预设关键词,则直接将所述第一语音数据作为第一解码结果。
3.如权利要求1所述的方法,其特征在于,还包括:
若所述第一解码结果中不包含所述预设关键词,则舍弃已解码的第一语音数据,重新针对后续实时采集的待识别语音信号进行逐帧解码。
4.如权利要求1所述的方法,其特征在于,所述按照预设比例,分别调整每个候选字序列包含的各候选字各自的评估指标占比,并基于调整结果,分别获得每个候选字序列的目标评估值,包括:
针对每个候选字序列,分别执行以下操作:
针对一个候选字序列包含的各候选字,分别执行以下操作:基于预设比例,调整一个候选字关联的各评估指标的权重,并基于所述各评估指标及相应权重,获得所述一个候选字的字评估值;
基于所述各候选字的字评估值,获得所述一个候选字序列的目标评估值。
5.如权利要求1所述的方法,其特征在于,所述第二解码结果中包含的关键词是由所述语音词图中的一个候选字序列组成的,则所述在所述第二解码结果中包含所述关键词时,将所述第二解码结果作为一段识别结果输出之前,还包括:
基于组成所述关键词对应的候选字序列的目标评估值,获得所述第二解码结果的置信度;
若所述第二解码结果的置信度大于预设的置信度阈值,则将所述第二解码结果作为一段识别结果输出。
6.如权利要求5所述的方法,其特征在于,还包括:
若所述第二解码结果的置信度不大于预设的置信度阈值,则舍弃第二解码结果,重新针对后续实时采集的待识别语音信号进行逐帧解码。
7.如权利要求1所述的方法,其特征在于,所述对所述待识别语音信号进行逐帧解码,包括:
针对所述待识别语音信号中包含的各语音帧,分别执行以下操作:
提取一个语音帧的声学特征,将所述声学特征送入到预先训练完成的声学模型中,获取所述一个语音帧的音素概率分布;
基于所述音素概率分布,获得所述一个语音帧的解码结果。
8.一种关键词识别装置,其特征在于,包括:
第一解码模块,用于针对实时采集的待识别语音信号进行逐帧解码,直到已解码的第一语音数据的时长不小于N秒时,将所述第一语音数据中,第一当前时刻向前N秒时长内获得的数据部分作为第一解码结果;
第二解码模块,若所述第一解码结果中包含预设的关键词,则继续对所述待识别语音进行逐帧解码,直到已解码的第二语音数据中出现非关键词时,获取第二当前时刻向前N秒时长内,所述第二语音数据在解码过程中产生的语音词图,所述语音词图中包含:与所述关键词之间的相似度高于设定阈值的多个候选字序列;
调整模块,按照预设比例,分别调整每个候选字序列包含的各候选字各自的评估指标占比,并基于调整结果,分别获得每个候选字序列的目标评估值;
输出模块,基于获得的各目标评估值,对所述语音词图进行解码,获得第二解码结果,并在所述第二解码结果中包含所述关键词时,将所述第二解码结果作为一段识别结果输出。
9.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述方法的步骤。
11.一种计算机程序产品,其特征在于,所述计算机程序产品在被计算机调用时,使得所述计算机执行如权利要求1-7任一项所述的方法。
CN202211238834.7A 2022-10-11 2022-10-11 一种关键词识别方法及相关装置 Pending CN115762521A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211238834.7A CN115762521A (zh) 2022-10-11 2022-10-11 一种关键词识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211238834.7A CN115762521A (zh) 2022-10-11 2022-10-11 一种关键词识别方法及相关装置

Publications (1)

Publication Number Publication Date
CN115762521A true CN115762521A (zh) 2023-03-07

Family

ID=85351749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211238834.7A Pending CN115762521A (zh) 2022-10-11 2022-10-11 一种关键词识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN115762521A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096648A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 用于语音识别的实时解码方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096648A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 用于语音识别的实时解码方法和装置

Similar Documents

Publication Publication Date Title
US11854545B2 (en) Privacy mode based on speaker identifier
US9972318B1 (en) Interpreting voice commands
US11061644B2 (en) Maintaining context for voice processes
CN108564940B (zh) 语音识别方法、服务器及计算机可读存储介质
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
CN112102815B (zh) 语音识别方法、装置、计算机设备和存储介质
US9437186B1 (en) Enhanced endpoint detection for speech recognition
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
US20230223023A1 (en) Device-directed utterance detection
US20210312914A1 (en) Speech recognition using dialog history
JP2018523156A (ja) 言語モデルスピーチエンドポインティング
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
US11705117B2 (en) Adaptive batching to reduce recognition latency
CN116153294B (zh) 语音识别方法、装置、系统、设备及介质
US20220399013A1 (en) Response method, terminal, and storage medium
US20240087562A1 (en) Interactive content output
CN110853669B (zh) 音频识别方法、装置及设备
CN115762521A (zh) 一种关键词识别方法及相关装置
CN111128174A (zh) 一种语音信息的处理方法、装置、设备及介质
US11282495B2 (en) Speech processing using embedding data
CN117456999B (zh) 音频识别方法、音频识别装置、车辆、计算机设备和介质
US11900921B1 (en) Multi-device speech processing
CN118116364A (zh) 语音合成模型训练方法、语音合成方法、电子设备及存储介质
CN117012199A (zh) 语音识别方法、装置、设备、存储介质及程序产品
CN115762480A (zh) 一种语音唤醒方法、语音唤醒装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination