CN117558270A

CN117558270A - 语音识别方法、装置、关键词检测模型的训练方法和装置

Info

Publication number: CN117558270A
Application number: CN202410041499.4A
Authority: CN
Inventors: 王雄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-02-13
Anticipated expiration: 2044-01-11
Also published as: CN117558270B

Abstract

本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：获取待识别语音，并对待识别语音进行编码，得到编码特征；获取与识别业务相关的关键词，对关键词进行特征提取得到偏置特征；基于注意力机制融合编码特征和偏置特征得到目标特征，目标特征中包含与关键词相适配的信息；基于目标特征进行分类，得到建模单元的概率分布；根据建模单元的概率分布进行关键词识别，得到识别结果。采用本方法能够提高语音识别过程中关键词的检出率，从而提高语音识别的准确性。

Description

语音识别方法、装置、关键词检测模型的训练方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，以及一种关键词检测模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术

随着人工智能技术的发展，语音处理的应用场景也越来越广泛，语音关键词检出技术作为语音识别领域的一项重要任务，是指在预设关键词列表的情况下，从语音流中检测是否存在预设的关键词，该技术被广泛的应用于智能设备交互、热词检测、敏感词检测等识别任务中。在这些任务中，有相当一部分场景需求的关键词列表存在频繁修改的情况。针对此情况，相关技术中，基于人工智能的关键词检测模型受模型训练时所使用的数据集合、网络结构设计等因素的影响，关键词的检出率难以控制，在应对关键词列表需要频繁修改的识别任务时关键词的检出率低，关键词检测模型的识别准确性差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高关键词的检出率的语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

一方面，本申请提供了一种语音识别方法，包括：

获取待识别语音，并对所述待识别语音进行编码，得到编码特征；

获取至少一个业务关键词的偏置特征；所述业务关键词为所述待识别语音所属业务相关的关键词；

基于注意力机制融合所述编码特征和各所述业务关键词的偏置特征得到目标特征，所述目标特征中包含与所述业务关键词相适配的信息；

基于所述目标特征进行分类，得到建模单元的概率分布；所述建模单元是组成所述待识别语音的语音单元；

根据所述建模单元的概率分布进行与各所述业务关键词相关的关键词识别，得到识别结果。

另一方面，本申请还提供了一种语音识别装置，包括：

编码模块，用于获取待识别语音，并对所述待识别语音进行编码，得到编码特征；

提取模块，用于获取至少一个业务关键词的偏置特征；所述业务关键词为所述待识别语音所属业务相关的关键词；

融合模块，用于基于注意力机制融合所述编码特征和各所述业务关键词的偏置特征得到目标特征，所述目标特征中包含与所述业务关键词相适配的信息；

分类模块，用于基于所述目标特征进行分类，得到建模单元的概率分布；所述建模单元是组成所述待识别语音的语音单元；

识别模块，用于根据所述建模单元的概率分布进行与各所述业务关键词相关的关键词识别，得到识别结果。

另一方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的语音识别方法。

另一方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的语音识别方法。

另一方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的语音识别方法。

上述语音识别方法、装置、计算机设备、存储介质和计算机程序产品，首先获取待识别语音的编码特征，以及至少一个业务关键词的偏置特征，然后通过偏置特征对待识别语音的编码特征进行基于注意力机制的信息偏置处理，如此能够将每个业务关键词的文本信息显式且均匀地引入到待识别语音的编码特征中，从而增强语音识别所输出的业务关键词相关建模单元的概率分布，进而使得在进行与业务关键词相关的关键词识别过程中能够快速且准确地识别到待识别语音中的业务关键词，增强整个语音识别过程的鲁棒性，提高业务关键词的检出率。

另一方面，本申请提供了一种关键词检测模型的训练方法，包括：

获取携带文本标签的语音训练样本，并基于所述文本标签，构建所述语音训练样本关联的至少一个关键词标签；

通过待训练的初始模型，对所述语音训练样本进行编码，得到样本编码特征；获取各所述关键词标签的标签偏置特征；基于注意力机制融合所述样本编码特征和各所述关键词标签的标签偏置特征得到样本目标特征；对所述样本目标特征进行分类，得到建模单元的样本概率分布；所述样本目标特征中包含与所述关键词标签相适配的信息；

确定所述样本概率分布与所述文本标签之间的差异，基于所述差异确定损失函数；

基于所述损失函数进行模型训练，得到训练完成的关键词检测模型。

另一方面，本申请还提供了一种关键词检测模型的训练装置，包括：

获取模块，用于获取携带文本标签的语音训练样本，并基于所述文本标签，构建所述语音训练样本关联的至少一个关键词标签；

检出模块，用于通过待训练的初始模型，对所述语音训练样本进行编码，得到样本编码特征；获取各所述关键词标签的标签偏置特征；基于注意力机制融合所述样本编码特征和各所述关键词标签的标签偏置特征得到样本目标特征；对所述样本目标特征进行分类，得到建模单元的样本概率分布；所述样本目标特征中包含与所述关键词标签相适配的信息；

确定模块，用于确定所述样本概率分布与所述文本标签之间的差异，基于所述差异确定损失函数；

训练模块，用于基于所述损失函数进行模型训练，得到训练完成的关键词检测模型。

另一方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的关键词检测模型的训练方法。

另一方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的关键词检测模型的训练方法。

另一方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的关键词检测模型的训练方法。

上述关键词检测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，基于语音训练样本携带的文本标签构建相应的至少一个关键词标签，并通过针对每个关键词标签的特征提取得到相应的标签偏置特征，接着基于注意力机制融合语音训练样本的样本编码特征以及各标签偏置特征，能够将各标签偏置特征均匀地引入样本编码特征中，获得各关键词标签信息得到增强的样本目标特征，进而能够在对样本目标特征进行分类过程中，使得各关键词标签的样本概率分布均匀化，从而能够尽量减小样本概率分布与文本标签之间的差异，提高基于该差异所确定的损失函数进行模型训练的训练效率，从而快速得到检出率高的关键词检出模型。通过上述方式训练的模型，使得模型的输出受到关键词的文本的约束，从而让模型对关键词标签的文本有更强的倾向性，进而能够提高关键词检出的检出率。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中语音识别方法的应用环境图；

图2为一个实施例中语音识别方法的流程示意图；

图3为一个实施例中关键词的偏置特征的确定方法流程示意图；

图4为一个实施例中基于人工智能的偏置特征的确定方法流程示意图；

图5为一个实施例中关键词的嵌入向量序列的确定方法流程示意图；

图6为一个实施例中目标特征的确定方法流程示意图；

图7为另一个实施例中目标特征的确定方法流程示意图；

图8为一个实施例中基于关键词检测模型的语音识别方法的流程示意图；

图9为一个实施例中关键词检测模型的训练方法流程示意图；

图10为一个实施例中偏置特征提取器的网络结构示意图；

图11为一个实施例中基于人工智能的融合操作流程示意图；

图12为一个实施例中语音识别装置的结构框图；

图13为一个实施例中关键词检测模型的训练装置的结构框图；

图14为一个实施例中执行语音识别方法的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

自然语言处理（Nature Language processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的语音识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102响应于针对待识别语音的语音识别请求，向服务器发送该语音识别请求。服务器104，接收到该语音识别请求，并解析该语音识别请求以获取待识别语音，并对待识别语音进行编码，得到编码特征；获取待识别语音所属业务的至少一个业务关键词的偏置特征；基于注意力机制融合编码特征和各业务关键词的偏置特征得到目标特征，目标特征中包含与业务关键词相适配的信息；基于目标特征进行分类，得到建模单元的概率分布；根据建模单元的概率分布进行与业务关键词相关的关键词识别，得到识别结果。终端102接收该识别结果并显示。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一些实施例中，如图2所示，提供了一种语音识别方法，以该方法应用于计算机设备（该计算机设备具体可以是图1中的终端或服务器）为例进行说明，包括以下步骤202至步骤210。其中：

步骤202，获取待识别语音，并对待识别语音进行编码，得到编码特征。

在实际实施时，计算机设备可以通过语音采集设备实时采集所处场景中的待识别语音，或者直接获取预先存储的待识别语音。计算机设备对待识别语音进行特征提取得到相应的声学特征之后，再将声学特征输入编码器就可以得到相应的编码特征。语音的编码处理，是对语音信号进行编码，将语音信号进行编码转化成数字信号的数据处理过程。其中，语音的编码处理可以通过编码器来实现，不同的编码器可以基于不同的编码原理对待识别语音进行相应的编码处理，得到编码特征。

步骤204，获取至少一个业务关键词的偏置特征，业务关键词为待识别语音所属业务相关的关键词。

在实际实施时，业务关键词是待识别语音所属业务相关的关键词，待识别语音所属业务是指适用于具体应用场景的关键词检出相关的业务，具体应用场景可以是热词检测、敏感词检测等场景。敏感词检测场景是指对指定语音进行与敏感词检测业务相关的关键词检出操作的场景，关键词检出的本质是识别指定语音中预先设定的敏感词的词汇，这里预先设定的敏感词即为业务关键词的一个具体示例。关键词检出是指在预设关键词列表（多个关键词）的情况下，从待识别语音（通常是语音流）中检测是否存在预设的关键词。为了增加在关键词检出过程中，预设的多个关键词对语音识别结果的约束力，可以将关键词的信息引入到语音识别过程中，增强语音识别的识别结果中关键词的信息，提高关键词的检出率。具体的，计算机设备获取业务关键词的偏置特征的方式，可以是在每次针对待识别语音进行关键词识别操作之前，均进行针对各业务关键词的偏置特征的提取操作，也可以是对每个业务所对应的每个业务关键词预先进行偏置特征的提取，将得到的每个业务关键词的偏置特征进行存储，在每次进行相应业务的待识别语音的关键词识别过程中，直接从存储空间中读取该业务的每个业务关键词的偏置特征。偏置特征是计算机设备对业务关键词进行特征提取得到的高维表征，偏置特征能够用于增强声学模型输出的业务关键词的后验概率中与业务关键词相关的信息。

在实际实施时，计算机设备可以通过离线方式获得多个业务关键词的偏置特征，在进行语音识别之前，针对识别业务的预设的关键词，计算机设备通过特征提取得到相应的偏置特征，并将偏置特征保存在相应的存储空间中（如本地缓存等）。在进行语音识别时，计算机设备可以直接从相应的存储空间中读取关键次的偏置特征即可。需要说明的是，若任一业务相关的业务关键词发生更新，则计算机设备在接收到针对该业务的业务关键词的更新指令后，重新执行针对业务关键词的特征提取操作，得到M（M≥1且M为整数）个业务关键词所对应的M个偏置特征。偏置特征可以采用向量的形式表征，M个偏置特征的向量组成偏置向量矩阵参与后续的计算。

步骤206，基于注意力机制融合编码特征和各业务关键词的偏置特征得到目标特征，目标特征中包含与业务关键词相适配的信息。

在实际实施时，计算机设备使用基于注意力机制（Attention Mechanism）的融合方式，融合偏置特征以对编码特征进行信息偏置，得到目标特征。目标特征是经过偏置特征对编码特征进行偏置后的表征，其中包含有业务关键词的约束。基于注意力机制的融合操作实际上是将编码特征作为查询特征Query、将偏置特征作为键特征Key和值特征Value进行一次或多次的注意力机制处理，首次注意力机制处理时将编码特征作为查询特征，非首次的注意力机制处理时，是将前次的注意力机制处理的输出结果作为新的查询特征执行。

针对编码特征与各业务关键词的偏置特征的融合方式进行说明。融合编码特征与各偏置特征的作用为是将业务关键词的信息显示地引入到编码特征中，即融合后的特征中业务关键词的相关信息得到增强，从而提高针对业务关键词的检出率。在实际实施时，每个业务关键词的偏置特征具有相应的初始权重，各初始权重可以相同也可以不同。在一些特定场景中，如通过人工介入等方式确定待识别语音中包含的业务关键词为所属业务中初始权重较高的业务关键词，此时可以采用直接拼接的方式进行融合，即直接将编码特征与各业务关键词的偏置特征进行拼接，基于拼接后的特征进行后续的关键词检出操作，能够快速且准确的检出相应的业务关键词。需要说明的是，在实际应用中，待识别语音具有随机性，待识别语音中出现的业务关键词也具有随机性，为了应对这种随机性，避免关键词检出操作所得到业务关键词的检出率的长尾效应（即初始权重高的业务关键词的检出率远高于初始权重低的业务关键词的检出率），计算机设备还可以采用基于注意力机制的融合方式实现编码特征与各偏置特征的融合操作，基于注意力机制的融合方式能够通过至少一层注意力层，动态调整各偏置特征的权重，将各偏置特征均匀的引入到编码特征中，保证各业务关键词的信息能够在融合后的特征中得到均衡的增强，在后续的关键词检出过程中能够有效避免业务关键词的检出率的长尾效应。

步骤208，基于目标特征进行分类，得到建模单元的概率分布，建模单元是组成待识别语音的语音单元。

在实际实施时，计算机设备对目标特征执行分类操作，得到目标特征中所包括的建模单元的概率分布。建模单元的概率分布是指目标特征中建模单元的后验概率。服务器可以通过调用相关的分类器，对目标特征进行分类处理，得到与关键词相关联的建模单元的概率分布。分类器至少可以为Softmax分类器、支持向量机（Support Vector Machine，SVM）等。建模单元是指语音识别中的声学模型所输出的信息，是用于组成语音的语音单元，建模单元通常可以是字、音节或者音素等。

步骤210，根据建模单元的概率分布进行与业务关键词相关的关键词识别，得到识别结果。

在实际实施时，计算机设备根据建模单元的概率分布进行与业务关键词相关的关键词识别的过程，即语音解码过程，还需要依据业务关键词对应的解码图，将建模单元的概率分布，转换为业务关键词的概率分布，并通过业务关键词的概率分布，得到待识别语音对应的识别结果。计算机设备可以基于加权有限状态机（Weighted Finite StateTransducers，WFST）机制进行解码，如可以直接使用WFST解码器进行解码等。服务器预先基于WFST生成每个业务关键词对应的解码图，以对声学模型的输出信息（建模单元的概率分布）进行解码。识别结果可以用于指示待识别语音中是否包括预设的业务关键词。以敏感词检测业务为例，识别结果用于表征待识别语音中是否包括敏感词。计算机设备可以将建模单元的概率分布输入到相应的解码器，并通过解码器实现业务关键词的识别，得到相应的识别结果。

上述实施例中，通过提取预设业务关键词列表的偏置特征来对待识别语音的编码特征进行信息偏置，如此能够将关键词的文本信息显式的引入到语音识别过程，从而增强语音识别所输出的业务关键词相关建模单元的后验概率，进而使得在解码过程中能够更好的解码搜索到业务关键词，增强整个语音识别过程的鲁棒性，提高关键词的检出率。

针对与偏置特征关联的特征提取的实现方式进行说明，在一些实施例中，如图3所示，至少一个业务关键词的偏置特征，包括步骤302至步骤306。其中：

步骤302，针对任一业务关键词，确定所针对业务关键词的嵌入向量序列。

在实际实施时，与待识别语音所属业务相关的业务关键词的数量为多个，计算机设备确定每个业务关键词的嵌入向量序列。其中，嵌入向量序列是指对文本形式的关键词进行嵌入提取所得到的向量序列。针对任一业务关键词，计算机设备首先确定该业务关键词与建模单元相适配的多个独热编码。然后分别对每个独热编码进行嵌入提取，得到相应的嵌入向量序列，嵌入向量序列中各嵌入向量的顺序与关键词对应的多个建模单元的顺序一致。以关键词是“一二三四”为例，若建模单元为汉字，则计算机设备分别获取汉字“一”、“二”、“三”、“四”的独热编码，并对各独热编码进行嵌入提取，得到以“一”、“二”、“三”、“四”为顺序的嵌入向量序列。另外，计算机设备可以通过嵌入Embedding网络结构，对业务关键词的多个独热编码进行嵌入提取，得到相应的嵌入向量序列。

步骤304，对所针对业务关键词的嵌入向量序列进行至少一次的上下文特征提取，得到所针对业务关键词的偏置特征。

在实际实施时，计算机设备对业务关键词的嵌入向量序列进行一次或多次上下文特征提取操作，将最后一次上下文特征提取操作的输出结果作为业务关键词对应的偏置特征。每一次的上下文特征提取操作的输出为相应的隐层表征序列[h1，h2，…，hk]。首次上下文特征提取操作的输入信息为业务关键词的嵌入向量序列，非首次的上下文特征提取操作的输入信息为前次上下文特征提取操作所输出的隐层表征序列。其中，计算机设备执行的上下文特征提取操作可以是基于循环神经网络实现。如以长短期神经网络（Long ShortTerm Memory networks，LSTM）为例，将业务关键词的嵌入向量序列输入多层LSTM网络，进行上下文特征提取，并基于最后一层LSTM网络输出的结果确定当前关键词对应的偏置特征。

示例性地，以通过Embedding层执行嵌入提取，通过至少一层LSTM进行上下文特征提取为例，如图4所示，第i（i＞0，i为正整数）个业务关键词依据预设的建模单元进行划分，得到多个单元，并对单元进行独热编码得到相应的独热特征，将多个独热特征输入Embedding层（即嵌入层），得到嵌入向量序列，之后将嵌入向量序列输入N（N为正整数）层LSTM，将最后一层LSTM所输出的隐层表征序列的中最后一个隐层表征作为关键词的偏置特征。

上述实施例中，通过多种不同类型的神经网络结构确定最终的偏置特征，能够快速得获取准确的偏置特征。

在一些实施例中，如图5所示，针对任一业务关键词，确定所针对业务关键词的嵌入向量序列，包括步骤502至步骤506。其中：

步骤502，依据预设的建模单元，对各业务关键词分别进行划分得到每个业务关键词的单元序列。

在实际实施时，针对多个业务关键词中第i（i为正整数）个业务关键词，计算机设备依据预设的建模单元，将第i个业务关键词划分为k（k≥1且k为整数）个单元，每个单元可称为token，比如关键词为“一二三四”，若预设的建模单元为汉字，则k个token就是“一”，“二”，“三”，“四”，若预设的建模单元为音节，则k个token就是“yi1”，“er4”，“san1”，“si4”，以此类推。如此，计算机设备便可得到每个业务关键词与预设的建模单元相适配的单元序列。

步骤504，针对任一业务关键词，对所针对业务关键词的单元序列中的每个单元进行独热编码，得到所针对业务关键词的独热特征序列。

在实际实施时，计算机设备对业务关键词的单元序列中的每个单元以独热编码方式进行编码，得到每个业务关键词的编码结果。可以理解的是，一个业务关键词通过单元划分得到k个token，通过独热编码方式得到每个token的独热特征，k个独热特征组成该业务关键词的独热特征序列[x1，x2，…，xk]。

步骤506，对所针对业务关键词的独热特征序列进行特征嵌入，得到所针对业务关键词的嵌入向量序列。

在实际实施时，计算机设备对业务关键词的独热特征序列进行嵌入提取，以将独热特征序列中的每个独热特征转换为向量形式的嵌入向量，进而得到每个关键词的嵌入向量序列。

上述实施例中，首先依据建模单元划分业务关键词，以保证关键词的独热特征与预设建模单元的一致性，然后通过特征嵌入操作，将独热特征转换为向量形式的嵌入向量，以便于进行后续的上下文特征提取，从而提高上下文特征提取的准确性。

在一些实施例中，对所针对业务关键词的嵌入向量序列进行至少一次的上下文特征提取，得到所针对业务关键词的偏置特征，包括：基于所针对业务关键词的嵌入向量序列依次进行多次的上下文特征提取；其中，首次上下文特征提取的输入为所针对业务关键词的嵌入向量序列，非首次上下文特征提取的输入包括前次上下文特征提取所输出的隐层表示序列。根据最后一次上下文特征提取所得到的隐层表示序列，确定所针对关键词的偏置特征。

在实际实施时，业务关键词的嵌入向量序列含有丰富的上下文信息，业务关键词的嵌入向量序列中不同字符可以互相利用上下文信息，因此计算机设备可以构建一个循环神经网络，用于提取嵌入向量序列的上下文特征。其中，循环神经网络的具体形式可以是LSTM，即计算机设备可以基于LSTM网络结构对业务关键词的嵌入向量序列进行一次或多次的上下特征提取。上下文特征提取操作可以执行一次或多次，多次上下文特征提取操作顺序执行，首次上下特征提取操作的输入为当前业务关键词的嵌入向量序列，非首次上下文特征提取操作的输入为前次上下文特征提取所输出的隐层表示序列。

本实施例中，通过串联执行多次上下文特征提取操作的方式确定业务关键词的偏置特征，能够增强偏置特征中业务关键词相关信息的表征。

在一些实施例中，如图6所示，基于注意力机制融合编码特征和偏置特征得到目标特征，包括步骤602至步骤606。其中：

步骤602，将各业务关键词的偏置特征构成偏置向量矩阵。

在实际实施时，业务关键词的偏置特征可以采用向量表示，预设的所有业务关键词的偏置特征可以组成目标维度的偏置向量矩阵。

步骤604，基于编码特征和偏置向量矩阵进行至少一次的注意力机制处理，得到融合特征。

在实际实施时，计算机设备根据偏置向量矩阵对编码特征进行一次或多次的注意力机制处理，得到融合特征。注意力机制处理能够将业务关键词相关的偏置特征引入到编码特征中，得到的注意力机制处理结果即融合特征中包含了业务关键词的文本信息，从而能够增强业务关键词相关建模单元的概率分布。需要说明的是，编码特征与偏置向量矩阵能够进行注意力机制处理的前提是编码特征的维度与偏置向量矩阵的维度相同，即编码特征与偏置向量矩阵处于同一空间，通常编码特征的维度高于偏置向量矩阵的维度，计算机设备可以对编码特征进行投影处理，以将编码特征投影到与偏置向量矩阵相同的空间中，投影后的编码特征的维度与偏置特征、或融合特征的维度一致。

步骤606，结合编码特征和融合特征，获得目标特征。

在实际实施时，计算机设备对编码特征和融合特征进行归一化、拼接以及投影等操作，得到目标特征。目标特征是经过融合特征偏置后的表征，目标特征中包含有业务关键词的约束信息。目标特征的维度与融合特征的维度相同。为了减少编码特征与融合特征在分布上的差异，计算机设备可以采用预设的归一化方法，分别对编码特征以及融合特征进行归一化操作，归一化方法可以是逐通道进行归一化的LayNorm归一化方法，也可以是批量进行归一化的Batch Normalization归一化方法。通过归一化方法实现编码特征、融合特征的分布规范化，减少编码特征和融合特征的差异，接着服务器对归一化后的编码特征和归一化后的融合特征进行拼接，再对拼接后的特征进行投影，得到与融合特征维度相同的目标特征。

本实施例中，通过注意力处理机制，能够将业务关键词的偏置特征引入到待识别语音的高维表征中，从而得到经过偏置后的高维表征，偏置后的高维表征中包含了一个或多个业务关键词的文本信息，增强了业务关键词针对待识别语音的约束性。

在一些实施例中，基于编码特征和偏置向量矩阵进行至少一次的注意力机制处理，得到融合特征，包括：基于经过投影后的编码特征确定查询特征，将偏置向量矩阵作为键特征和值特征，以进行至少一次的注意力机制处理，得到融合特征；其中，经过投影后的编码特征的维度与偏置向量矩阵的维度相同。

在实际实施时，计算机设备基于注意力机制确定融合特征时，可以根据实际情况执行一次或多次注意力机制处理。在进行注意力机制处理过程中，首先根据投影后的编码特征确定查询特征，具体的，若注意力机制处理过程进行一次，则直接将投影后的编码特征作为查询特征Query，若注意力机制处理过程进行多次，针对首次注意力机制处理过程，将投影后的编码特征作为查询特征Query，同时将偏置向量矩阵即作为键特征Key，又作为值特征Value，进行多次注意力机制处理，得到相应的输出结果。针对非首次注意力机制处理过程，将前次注意力机制处理过程所输出的特征作为新的查询特征，进行注意力机制处理。并将最后一个注意力机制处理过程所输出的特征作为融合特征。每次注意力机制处理的流程包括：确定所针对的注意力机制处理关联的查询特征与各键特征之间的相似度；对各相似度进行归一化，得到每个偏置特征的权重；基于各权重，对偏置特征进行加权求和，得到所针对的注意力机制处理所输出的特征。且当前次的注意力机制处理所输出的特征用于确定下一次注意力机制处理过程中的查询特征。

上述基于注意力机制处理的融合特征获取方式，通过注意力机制将业务关键词的信息引入到待识别语音的编码特征中，如此，能够增强待识别语音中与业务关键词相关的信息，从而提高语音识别的准确性。

在一些实施例中，如图7所示，结合编码特征和融合特征，获得目标特征，包括步骤702至步骤706。其中：

步骤702，对编码特征进行投影，得到投影后的编码特征；投影后的编码特征与融合特征的维度相同。

在实际实施时，编码特征与偏置向量矩阵能够进行注意力机制处理的前提是编码特征的维度与偏置向量矩阵处于同一空间，即两者的维度相同。一般情况下，编码特征的维度高于偏置向量矩阵的维度，计算机设备通过投影的方式，将编码特征投影到与偏置向量矩阵相同的空间中，使得投影后的编码特征的维度与偏置向量的维度一致。

步骤704，分别对投影后的编码特征以及融合特征进行归一化，并对各自归一化后的结果进行拼接，得到拼接特征。

在实际实施时，为了减少编码特征与融合特征在分布上的差异，计算机设备可以采用预设的归一化方法，分别对编码特征以及融合特征进行归一化操作，以使用LayNorm进行归一化为例，服务器通过LayNorm分别对编码特征或融合特征在每个通道上进行标准化，使得每个通道的均值为0，方差为1，从而实现编码特征或融合特征的分布规范化，减少编码特征和融合特征的差异。接着服务器对归一化后的编码特征和归一化后的融合特征进行拼接，得到2×D维度的拼接后的特征，其中，编码特征与融合特征的维度均为D维，D为正整数。

步骤706，对拼接特征进行投影，得到待识别语音的目标特征。

在实际实施时，归一化后的编码特征与归一化后的融合特征的维度均为D维。之后，计算机设备再次对2×D维度的拼接后的特征进行投影，得到D维的目标特征。如此，能够保证融合操作前后，输入的偏置特征、编码特征，以及输出的目标特征之间的维度的一致性。

本实施例中，通过投影操作，将编码特征投影到与偏置特征相同的空间，以保证编码特征与偏置特征在空间上的一致性。同时，通过归一化操作，实现编码特征与偏置特征的分布规范化。另外，通过拼接操作后的再投影操作，进一步将偏置特征所指示的关键词信息引入到待识别语音对应的编码特征中，增强关键词针对编码特征的约束性。

在一些实施例中，根据建模单元的概率分布进行与各业务关键词相关的关键词识别，得到识别结果，包括：获取各业务关键词对应的解码图，解码图用于表征业务关键词与建模单元之间的对应关系；参照各解码图，对建模单元的概率分布进行与各业务关键词相关的关键词识别，得到识别结果，识别结果用于指示待识别语音中是否存在业务关键词。

在实际实施时，计算机设备得到建模单元的概率分布之后，进行与各业务关键词相关的关键词识别操作时，会先获得预设的业务关键词对应的解码图，该解码图用于记录业务关键词与建模单元之间的关联关系，解码图可以是基于WFST解码机制构建的。计算机设备可以通过离线方式构建每个进行关键词检出业务相关的多个业务关键词的解码图。由于计算机设备获取的目标特征是通过业务关键词的偏置特征偏置得到的，目标特征中包括业务关键词的约束，目标特征对应的建模单元的概率分布中与业务关键词相对应的建模单元的概率分布更突出。计算机设备参考解码图，对建模单元的概率分布进行解码，得到业务关键词的概率分布。若从建模单元中解码出与业务关键词的解码图所指示的具有关联关系的多个建模单元，则表征待识别语音中存在业务关键词，若不能，则表征待识别语音中不存在业务关键词。

上述实施例中，参照基于WFST解码机制构建的解码图对建模单元的概率分布进行关键词识别，能够提高关键词的检出率，以及语音识别结果的准确性。

在一些实施例中，该语音识别方法可以由关键词检测模型执行，关键词检测模型包括编码器、偏置特征提取器、特征融合层、分类层和解码器，其中，编码器用于对待识别语音进行编码，偏置特征提取器用于获取各业务关键词的偏置特征，特征融合层用于融合编码特征和各业务关键词的偏置特征，分类层用于基于目标特征进行分类，解码器用于根据建模单元的概率分布进行与各业务关键词相关的关键词识别，得到识别结果。

在实际实施时，关键词检出模型是从语音流中检出预定的多个业务关键词的AI模型。可以通过关键词检出率、关键词误报率等评价指标进行评价，关键词检出率是指预定的关键词被关键词检出模型正确检出的比例，关键词误报率是指非关键词被关键词检出模型错误判定为关键词的比例。关键词检出率越高表征关键词检出模型的准确率越高，关键词误报率越低表征关键词检出模型的准确率越高。

参见图8，图8中所示的关键词检出模型包括编码器、偏置特征提取器、特征融合层、分类层和解码器。编码器用于对待识别语音进行编码，在进行编码之前，还可以通过至少一层特征提取层，对待识别语音进行特征提取，得到相应的声学特征，之后在将声学特征输入编码器，对声学特征进行编码，得到编码特征；偏置特征提取器用于对各业务关键词进行特征提取，得到相应的偏置特征，偏置特征的具体形式为向量，业务关键词的数量为多个时，偏置特征提取器可以输出偏置向量矩阵。特征融合层（也可称偏置层）用于基于注意力机制融合编码特征和偏置特征，得到目标特征，目标特征可以是通过偏置特征对于业务关键词相关的信息进行增强后的特征，目标特征中包含有业务关键词的约束。分类层的作用是对目标特征进行分类，输出与预设建模单元相适配的建模单元的概率分布，建模单元通常可以是汉字、音节或者音素等。解码器用于根据建模单元的概率分布进行与各业务关键词相关的关键词识别，得到识别结果，具体的是关键词识别过程如下：预先构建每个业务关键词对应的解码图，并将解码图载入解码器，依据解码图对建模单元的概率分布进行与各业务关键词相关的关键词识别，得到识别结果，识别结果用于表征待识别语音中业务关键词的概率分布，根据该识别结果能够确定待识别语音中业务关键词的存在情况。

示例性地，以敏感测检测场景为例说明根据图8中示出的关键词检测模型所实现的语音识别方法，针对该敏感词检测场景存在初始的敏感词列表A如[“价格”，“公司A”，“品牌B”]等，敏感词列表也就是关键词列表，若敏感词列表A更新成关键词列表B[“价格”，“公司A”，“品牌B”，“投诉”]后，计算机设备可以采用离线方式生成适配的敏感词列表B对应的偏置向量矩阵，并存储在相应的存储空间中，在通过语音采集设备采集到待识别语音后，计算机设备调用训练完成的敏感词检测模型M，首先通过敏感词检测模型M的特征提取层提取待识别语音的声学特征，然后通过编码器对声学特征进行编码，得到编码特征，接着从存储空间中读取预先存储的敏感词列表B对应的偏置向量矩阵，通过敏感词检测模型M的特征融合层，对编码特征以及偏置向量矩阵进行多次注意力机制处理过程，得到包含敏感词相适配信息的目标特征，然后通过敏感词检测模型M的分类层，对目标特征进行分类，得到待识别语音与建模单元（可以为音节）适配的建模单元的概率分布，最后，调用解码器，对建模单元的概率分布进行敏感词的识别，得到该待识别语音中是否包括成敏感词列表B中任一敏感词的识别结果。

上述实施例中，基于神经网络的关键词文本偏置特征提取器与偏置层，通过提取预设关键词列表的偏置向量来对关键词检出系统中声学模型编码器输出的高维表征进行信息偏置，使得其对于关键词序列的建模单元序列后验概率提高，进而提高关键词的检出率。

在一些实施例中，计算机设备可以在每次使用关键词检出模型进行语音识别之前，可以先对待训练的初始模型进行模型训练，得到训练完成的关键词检出模型，然后使用该训练完成的关键词检出模型进行前述的语音识别过程。计算机设备还可以预先对待训练的初始模型进行模型训练，得到训练完成关键词检出模型，并存储到相应的存储空间，在需要进行前述语音识别的应用场景中，计算机设备直接从存储空间中读取该训练完成的关键词检出模型进行语音识别。

针对关键词检测模型的训练过程进行说明，关键词检测模型的训练过程如下：获取携带文本标签的语音训练样本，并基于文本标签，构建语音训练样本关联的至少一个关键词标签；通过待训练的初始模型，对语音训练样本进行编码，得到样本编码特征；获取各关键词标签的标签偏置特征；基于注意力机制融合样本编码特征和各关键词标签的标签偏置特征得到样本目标特征；对样本目标特征进行分类，得到建模单元的样本概率分布；确定样本概率分布与文本标签之间的差异，基于差异确定损失函数；基于损失函数进行模型训练，得到训练完成的关键词检测模型。具体的训练过程可以为：获取携带文本标签的语音训练样本，并基于文本标签，构建语音训练样本关联的至少一个关键词标签；通过待训练的初始模型的编码器，对语音训练样本进行编码，得到样本编码特征；通过待训练的初始模型的偏置特征提取器，获取每个关键词标签的标签偏置特征；通过待训练的初始模型的特征融合层，基于注意力机制融合样本编码特征和各标签偏置特征得到样本目标特征，样本目标特征中包含与关键词标签相适配的信息；通过待训练的初始模型的分类层，对样本目标特征进行分类，得到建模单元的样本概率分布；确定建模单元的样本概率分布与文本标签之间的差异，并基于差异，确定损失函数，基于损失函数进行模型训练，得到训练完成的关键词检测模型。

在实际实施时，针对关键词检出模型的训练可以采用分批处理的方式进行，每个批次Batch包含目标数量的语音训练样本，对于每个批次Batch的语音训练样本，每个语音训练样本包含有语音信号和对应的文本标签两部分。在进行基于每个批次Batch的模型训练之前，计算机设备可以依据目标方式确定当前批次Batch对应的若干个关键词标签。也就是说，为了提高训练完成的模型的泛化能力，采用分批处理方式进行模型训练时，可以分别确定每个批次Batch的若干个关键词标签。其中，用于确定关键词标签的目标方式至少可以包括预先设定、随机选取等方式，预先设定的方式，可以是基于人工干预进行语音训练样本的批次划分，从而可以人工标注每个批次的若干个关键词标签。预先设定的方式也可以是除随机选取方式之外的其他方式，本申请实施例对预先设定的方式的具体操作方式不作限制。随机选取方式可以是计算机设备从当前批次Batch的语音训练样本携带的文本标签中随机抽取若干个不同的词作为关键词标签。相对于预先设定的方式，随机选择方式能够适应更多的业务场景，提高训练完成的模型的泛化能力。

以用于确定关键词标签的目标方式为随机选取方式进行说明，计算机设备首先采用随机选取方式确定当前批次Batch对应的若干个关键词标签，组成由S（S≥1且S为整数）个关键词标签构成的当前批次Batch的关键词列表，针对每个批次Batch都会重新执行上述关键词列表的构成过程，以便于生成每个批次Batch独有的关键词列表，从而大大增强关键词检出模型的泛化能力，其中，S的值为随机数，最大为该批次Batch内语音训练样本的条数。随后S个关键词会经过偏置向量提取器得到由S个采用向量表示的样本偏置特征组成的向量矩阵，而当前批次Batch中的语音训练样本经过特征提取得到声学特征并送入编码器（Encoder）后得到相应的样本编码特征，样本编码特征是语音信息的高维表征，通过特征融合层融合样本编码特征与标签偏置特征组成的向量矩阵，得到样本目标特征，样本目标特征是经过向量矩阵中每个关键词标签的标签偏置特征偏置后的表征，样本目标特征中包含有关键词标签文本的约束。最后再将样本目标特征经过分类层的分类，输出建模单元的样本概率分布，该建模单元的样本概率分布是指语音训练样本的建模单元的后验概率。计算机设备利用语音训练样本的文本标签以及待训练的初始模型对该语音训练样本进行与各关键词标签相关的关键词识别得到的建模单元的后验概率进行比较，根据两者之间的差异，确定合适的损失函数，并结合损失函数确定每轮训练的损失，并根据损失更新模型的模型参数，进行关键词检测模型的训练。

针对后验概率进行说明，后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“果”。先验概率与后验概率有不可分割的联系，后验概率的计算通常要以先验概率为基础。具体的，事情还没有发生，要求这件事情发生的可能性的大小，是先验概率。事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，是后验概率。在本实施例中，在关键词检测模型的训练阶段，关键词检测模型的处理对象为携带有文本标签的语音训练样本，该语音训练样本中的关键词标签是已知的，对该语音训练样本进行关键词识别得到的概率即为后验概率。

针对损失函数进行说明，由于建模单元的具体形式有多种，如建模单元可以是汉字、音节以及音素等，而文本标签通常为文本形式，相应的关键词标签也为文本形式，计算机设备可以根据建模单元与文本标签在表现形式上的差异，确定合适的损失函数。具体的，若建模单元为汉字，则损失函数可以是字级别的CTC（Connectionist TemporalClassification，基于神经网络的时序类分类）损失函数。若建模单元为音节或音素，则损失函数还可以是二进制交叉熵（Binary Cross Entropy，BCE）损失函数。在确定了与建模单元和文本标签两者差异的损失函数后，计算机设备确定每轮训练的损失，以对待训练的初始模型进行训练，得到最终的关键词检测模型。

经过这种方式训练后的模型，即可使得模型输出的后验概率受到指定关键词列表文本的约束，能够让模型对关键词列表中的文本有更强的倾向性，进而提高关键词检出的检出率。

为详细说明本申请的语音识别方法，下面以一个实施例进行说明，在该实施例中，本申请的语音识别方法应用于自定义的关键词列表需要频繁修改的识别业务场景。针对该识别业务场景，已有的关键词检出模型受关键词模型训练所使用的数据集合、网络结构设计等影响，关键词的检出率难以控制。为了能够稳定在该应用场景中的关键词的检出率，在实际实施时，可以通过以下方式实现：通过基于神经网络的词分类模型实现，具体的，通过训练一个神经网络多分类器来实现对不同关键词的检出能力，当用户提出新的关键词列表需求时，则需要采集部分包含关键词的数据对模型进行调优，然后再重新部署提供给用户。该方式重点是需要采集包含关键词的数据，并对模型进行重新训练调优，一方面使得采集成本和模型训练调优的算力成本增加。另一方面，用户在提出修改关键词列表的需求后，无法立即响应，存在模型微调的时间周期。可以理解的是，该方式不太适用于需要频繁修改关键词列表的需求场景，会带来较高的支持成本。

在实际实施时，还可以通过轻量级端到端语音识别模型实现，具体的，使用一个轻量级的语音识别模型将语音信号序列直接转化为文字序列，然后再从文字中通过匹配算法检测是否包含预定的关键词。该方式具备快速修改关键词列表的能力，并且不需要额外的数据采集与训练成本，但是由于汉字数量较多，常用的汉字可达6000~8000个，因此需要端到端的语音识别模型具备几千分类的能力，这使得模型受参数量大小的影响很大，较大的参数量才会具有较高的准确率，但由于关键词检出模型通常又部署在一些智能设备上，该类设备大多数的算力有限，模型参数量通常会较小，因此导致准确率有限；同时，自定义的关键词列表并不会对语音识别模型的输出产生约束或影响，从而使得关键词的检出率不可控，完全取决于语音识别模型的准确率。检出率较高的依赖于其运行设备的算力，可拓展性较差。

在实际实施时，还可以通过轻量级声学模型与解码器混合方式实现，具体的，首先使用一个轻量级的声学模型将语音信号转化为建模单元后验概率序列，这里的建模单元通常可以是字、音节或者音素等。再通过将关键词列表构建为解码图的方式，将解码图载入解码器，实现建模单元后验概率序列到关键词的转换，在此种情况下，用户侧针对关键词列表进行更新后，只需要在本地重新构建解码图即可使自定义关键词的修改生效。虽然该方式既可满足快速更新关键词列表的能力，又对算力的依赖较小，也在识别业务中都得到了较好的表现，但由于其混合结构的原因，关键词列表对于声学模型输出的后验概率仍然没有任何约束，该方式的鲁棒性较差，尤其是在一些声学场景复杂、说话人发音不标准的情况下，声学模型输出的建模单元后验概率中和关键词相关的后验概率低，导致解码器也不能搜索到关键词，影响关键词的检出率。若要加强此类场景下的检出率，通常需要采集关键词数据来优化声学模型，使得适配成本增加。

可以理解的是，由于上述语音识别方式，在需要频繁更新关键词列表的需求场景进行语音识别时，关键词的检出率不够准确，基于此，本申请实施例提供一种基于机器学习模型的语音识别方法，该机器学习模型是一种基于关键词文本向量偏置的神经网络结构，可以用于从语音流中检出预定的多个关键词的模型，可称为关键词检出模型。关键词检出模型的优劣，可以通过关键词检出率以及关键词误报率进行评估。参见图8，图8中机器学习模型至少包括一个编码器、偏置向量提取器（又称偏置特征提取器）、基于注意力机制的偏置层网络（也可称为特征融合层）。在给定与识别业务相关的关键词列表的前提下，部署有该机器学习模型的计算机设备（如服务器等）将关键词列表中每个关键词的文本输入至该机器学习模型中的偏置向量提取器中提取每个关键词的偏置向量，并使用基于注意力机制的偏置层网络结合偏置向量对编码器输出的待识别语音信号的高维表征进行信息偏置，以此得到能够增强关键词信息的建模单元的后验概率序列，并通过解码器对该建模单元的后验概率序列进行解码，得到相应的关键词的后验概率序列，进而优化关键词检出模型的检出率。

针对该机器学习模型的训练过程进行说明，参见图9，对于每个Batch的语音训练样本而言，语音训练样本包含有语音信号和对应的文本标签两部分，在训练过程中首先生成当前Batch关联的关键词列表，具体实现方式为从当前Batch的文本标签中随机抽取若干个不同的词，组成T（T为正整数）个关键词构成的关键词列表，T的最大值为该Batch内语音样本的条数。随后T个关键词会经过偏置向量提取器得到由T个偏置向量（前文中采用向量形式表征的偏置特征）组成的偏置向量矩阵，而当前Batch中的语音信号经过特征提取得到声学特征并送入编码器（Encoder）后会得到语音信息的高维表征（即前文中的编码特征），该表征会在偏置层与偏置向量矩阵结合，得到经过关键词偏置向量偏置后的表征（即前文中的目标特征），该表征中会包含有关键词文本的约束。最后再将该表征经过分类层的分类处理所得到的建模单元的后验概率，与文本标签进行损失函数的计算，训练优化网络参数。经过这种方式训练后的机器学习模型，即可使得机器学习模型输出的后验概率受到指定关键词列表文本的约束，又能够让机器学习模型对关键词列表中的文本有更强的倾向性，进而提高关键词检出的检出率。

针对基于机器学习模型的语音识别过程进行说明，经过上述流程训练后的关键词检出模型，语音识别的流程则如下：当接收到关键词列表的更新指令后，该更新指令表征关键词列表被修改，关键词列表中的R（R为正整数）个关键词首先会经过偏置向量提取器获得R个偏置向量组成的偏置向量矩阵，此外关键词列表还会经过构图过程获得一个与当前识别业务对应的定制化的解码图，并将得到的偏置向量矩阵和解码图保存在部署机器学习模型的计算机设备的存储空间中。随后在进行语音识别时，对输入的语音信号只需要一次经过特征提取和编码器就可以得到高维表征，然后和偏置向量矩阵经过偏置层得到偏置后的高维表征，再经过分类层得到建模单元的后验概率，送入解码器中得到各个关键词的后验概率，并与预设的阈值进行比较，即可判断输入的语音信号中是否包含预设的关键词。

针对偏置向量提取器进行说明，参见图10，偏置向量提取器的作用是从第i（i为正整数）个关键词中提取得到偏置向量（即采用向量表示的偏置特征），将第i个关键词按照声学模型的建模单元（如汉字、音节等）分为k（k为正整数）个token，并将k个token以独热编码one-hot的形式送入嵌入层（embedding层）得到k个嵌入向量组成的序列[x1，x2，…，xk]，再将该序列送入N（N为正整数）层LSTM中，这里LSTM的初始状态通常为全零初始化，N层LSTM输出为隐层表征序列[h1，h2，…，hk]，那么hk即为第i个关键词的偏置向量，偏置向量的维度为D。

针对偏置层进行说明，偏置层的作用是将关键词偏置向量引入到编码器输出的语音信号的高维表征中，以得到经过偏置后的高维表征，偏置后的高维表征包含了关键词列表的文本信息，使得网络能够增强关键词相关建模单元序列的后验概率。参见图11示出的偏置层结构，首先编码器输出的高维表征会经过投影层映射到D维，使得其与偏置向量的维度一致，再将其与偏置向量矩阵送入N层基于注意力机制的解码层中；偏置向量矩阵作为注意力机制解码层输入的键（Key，K）和值（Value，V），投影后的编码器高维表征为查询（Query，Q）。随后投影后的编码器高维表征经过归一化层（通过LayNorm方法实现归一化）后的表征与基于注意力机制的解码层输出经过归一化层后的表征拼接（concat）到一起得到D×2维的表征向量，最后再经过投影层投影成D维，即可得到经过偏置后的高维表征。

为了验证本实施例中，语音识别方法与已有的语音识别方法的效果，在各个场景对应测试集的关键词的检出率对比如表1所示。

表1。

从表中可以得出，对于已有语音识别方式，由于其声学模型输出不会受到关键词文本的约束，因此鲁棒性有限，在复杂测试场景下相比安静场景会有明显的下降，而本实施例中的基于机器学习模型的语音识别方法，由于偏置向量的引入，有效提高了模型的鲁棒性，在复杂场景下可以保持与安静场景同一水准的关键词检出率性能，并且在各个测试集上都表现的比已有语音识别方式好。此外，在一个84小时的误报测试集上，两种方案的误报次数均为1次，因此可以判定本申请实施例中的语音识别方法对于误报率基本不会产生影响。该方法可以应用在云智能语音助手技术方案中的离线语音算法中，实现自定义语音唤醒与命令词识别的功能，达到通过文本修改来增强系统中声学模型对于关键词的后验概率，便于后端解码器更好的搜索关键词，有效提高关键词的检出率，且不引入额外的适配成本，以达到下游业务的快速交付。

上述实施例中，基于神经网络的关键词文本偏置向量提取器与偏置层，通过提取预设关键词列表的偏置向量来对关键词检测模型中声学模型编码器输出的高维表征进行基于注意力机制的信息偏置处理，如此，可将关键词列表中的文本信息显式的引入到声学模型中，加强声学模型后验输出（即建模单元的后验概率）的关键词信息，使得后续的解码器能够更好的解码搜索到关键词，增强整体系统的鲁棒性，有效提高关键词的检出率，且不引入额外的适配成本，以达到下游业务的快速交付。另外，该机器学习模型，具备热插拔能力，在模型应用过程中，无需重新加载模型即可支持自定义关键词的快速适配，响应生效速度快。并且不需要采集任何数据即可实现对模型输出后验概率的优化，避免额外成本的产生。另外，该机器学习模型，具备热插拔能力，在模型应用过程中，无需重新加载模型即可支持自定义关键词的快速适配，响应生效速度快。并且不需要采集任何数据即可实现对模型输出后验概率的优化，避免额外成本的产生。即该方法不仅可有效提高自定义关键词检出模型的性能，还能支持快速自定义关键词列表的能力，降低自定义关键词的数据采集成本和定制化成本。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音识别方法的语音识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音识别装置实施例中的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。

在一些实施例中，如图12所示，提供了一种语音识别装置1200，包括：编码模块1210、提取模块1220、融合模块1230、分类模块1240和识别模块1250，其中：

编码模块1210，用于获取待识别语音，并对待识别语音进行编码，得到编码特征。

提取模块1220，用于获取至少一个业务关键词的偏置特征；业务关键词为待识别语音所属业务相关的关键词。

融合模块1230，用于基于注意力机制融合编码特征和各业务关键词的偏置特征得到目标特征，目标特征中包含与业务关键词相适配的信息。

分类模块1240，用于基于目标特征进行分类，得到建模单元的概率分布；建模单元是组成待识别语音的语音单元。

识别模块1250，用于根据建模单元的概率分布进行与各业务关键词相关的关键词识别，得到识别结果。

在一些实施例中，提取模块，还用于针对任一业务关键词，确定所针对业务关键词的嵌入向量序列；对所针对业务关键词的嵌入向量序列进行至少一次的上下文特征提取，得到所针对业务关键词的偏置特征。

在一些实施例中，提取模块，还用于依据预设的建模单元，对各业务关键词分别进行划分得到每个业务关键词的单元序列；针对任一业务关键词，对所针对业务关键词的单元序列中的每个单元进行独热编码，得到所针对业务关键词的独热特征序列；对所针对业务关键词的独热特征序列进行特征嵌入，得到所针对业务关键词的嵌入向量序列。

在一些实施例中，提取模块，还用于基于所针对业务关键词的嵌入向量序列依次进行多次的上下文特征提取；其中，首次上下文特征提取的输入为所针对关键词的嵌入向量序列，非首次上下文特征提取的输入包括前次上下文特征提取所输出的隐层表示序列；根据最后一次上下文特征提取所得到的隐层表示序列，确定所针对业务关键词的偏置特征。

在一些实施例中，融合模块，还用于将各业务关键词的偏置特征构成偏置向量矩阵；基于编码特征和偏置向量矩阵进行至少一次的注意力机制处理，得到融合特征；结合编码特征和融合特征，获得目标特征。

在一些实施例中，融合模块，还用于基于经过投影后的编码特征确定查询特征，将偏置向量矩阵作为键特征和值特征，以进行至少一次的注意力机制处理，得到融合特征；其中，经过投影后的编码特征的维度与偏置向量矩阵的维度相同。

在一些实施例中，融合模块，还用于确定首次注意力机制处理的查询特征为经过投影后的编码特征，非首次注意力机制处理的查询特征为前次注意力机制处理所输出的特征。

在一些实施例中，融合模块，还用于确定所针对的注意力机制处理关联的查询特征与各键特征之间的相似度；对各相似度进行归一化，得到每个偏置特征的权重；基于各权重，对偏置特征进行加权求和，得到所针对的注意力机制处理所输出的特征；所针对的注意力机制处理所输出的特征用于确定下一次注意力机制处理过程中的查询特征。

在一些实施例中，融合模块，还用于对所述编码特征进行投影，得到投影后的编码特征；投影后的编码特征与融合特征的维度相同；分别对投影后的编码特征以及融合特征进行归一化，并对各自归一化后的结果进行拼接，得到拼接特征；对拼接特征进行投影，得到待识别语音的目标特征。

在一些实施例中，识别模块，还用于获取业务关键词对应的解码图，解码图用于表征业务关键词与建模单元之间的对应关系；参照解码图，对建模单元的概率分布进行与业务关键词相关的关键词识别，得到识别结果，识别结果用于指示待识别语音中是否存在业务关键词。

在一些实施例中，语音识别方法由关键词检测模型执行，关键词检测模型包括编码器、偏置特征提取器、特征融合层、分类层和解码器，其中，编码器用于对待识别语音进行编码，偏置特征提取器用于对关键词进行特征提取，特征融合层用于融合编码特征和偏置特征，分类层用于基于目标特征进行分类，解码器用于根据建模单元的概率分布进行与各业务关键词相关的关键词识别，得到识别结果。

在一些实施例中，语音识别装置还包括针对关键词检测模型进行训练的训练模块，训练模块，用于获取携带文本标签的语音训练样本，并基于文本标签，构建语音训练样本关联的至少一个关键词标签；通过待训练的初始模型，对语音训练样本进行编码，得到样本编码特征；获取各关键词标签的标签偏置特征；基于注意力机制融合样本编码特征和各关键词标签的标签偏置特征得到样本目标特征；对样本目标特征进行分类，得到建模单元的样本概率分布；样本目标特征中包含与关键词标签相适配的信息；确定样本概率分布与文本标签之间的差异，基于所述差异确定损失函数；基于损失函数进行模型训练，得到训练完成的关键词检测模型。

上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，如图13所示，提供了一种关键词检测模型的训练装置1300，包括：获取模块1310、检出模块1320、确定模块1330和训练模块1340，其中：

获取模块1310，用于获取携带文本标签的语音训练样本，并基于文本标签，构建语音训练样本关联的至少一个关键词标签。

检出模块1320，用于通过待训练的初始模型，对语音训练样本进行编码，得到样本编码特征；获取各关键词标签的标签偏置特征；基于注意力机制融合样本编码特征和各关键词标签的标签偏置特征得到样本目标特征；对样本目标特征进行分类，得到建模单元的样本概率分布；样本目标特征中包含与关键词标签相适配的信息。

确定模块1330，用于确定样本概率分布与文本标签之间的差异，基于差异确定损失函数。

训练模块1340，用于基于损失函数进行模型训练，得到训练完成的关键词检测模型。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是图1中的服务器或终端，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取至少一个业务关键词的偏置特征，包括：

针对任一所述业务关键词，确定所针对业务关键词的嵌入向量序列；

对所针对业务关键词的嵌入向量序列进行至少一次的上下文特征提取，得到所针对业务关键词的偏置特征。

3.根据权利要求2所述的方法，其特征在于，所述针对任一所述业务关键词，确定所针对业务关键词的嵌入向量序列，包括：

依据预设的建模单元，对各所述业务关键词分别进行划分得到每个业务关键词的单元序列；

针对任一所述业务关键词，对所针对业务关键词的单元序列中的每个单元进行独热编码，得到所针对业务关键词的独热特征序列；

对所针对业务关键词的独热特征序列进行特征嵌入，得到所针对业务关键词的嵌入向量序列。

4.根据权利要求2所述的方法，其特征在于，所述对所针对业务关键词的嵌入向量序列进行至少一次的上下文特征提取，得到所针对业务关键词的偏置特征，包括：

基于所针对业务关键词的嵌入向量序列依次进行多次的上下文特征提取；

其中，首次上下文特征提取的输入为所针对业务关键词的嵌入向量序列，非首次上下文特征提取的输入包括前次上下文特征提取所输出的隐层表示序列；

根据最后一次上下文特征提取所得到的隐层表示序列，确定所针对业务关键词的偏置特征。

5.根据权利要求1所述的方法，其特征在于，所述基于注意力机制融合所述编码特征和各所述业务关键词的偏置特征得到目标特征，包括：

将各所述业务关键词的偏置特征构成偏置向量矩阵；

基于所述编码特征和所述偏置向量矩阵进行至少一次的注意力机制处理，得到融合特征；

结合所述编码特征和所述融合特征，获得目标特征。

6.根据权利要求5所述的方法，其特征在于，所述基于所述编码特征和所述偏置向量矩阵进行至少一次的注意力机制处理，得到融合特征，包括：

基于经过投影后的编码特征确定查询特征，将所述偏置向量矩阵作为键特征和值特征，以进行至少一次的注意力机制处理，得到融合特征；

其中，经过投影后的编码特征的维度与所述偏置向量矩阵的维度相同。

7.根据权利要求5所述的方法，其特征在于，每次所述注意力机制处理的过程包括：

确定所针对的注意力机制处理关联的查询特征与各键特征之间的相似度；

对各所述相似度进行归一化，得到每个所述偏置特征的权重；

基于各所述权重，对所述偏置特征进行加权求和，得到所针对的注意力机制处理所输出的特征；所针对的注意力机制处理所输出的特征用于确定下一次注意力机制处理过程中的查询特征。

8.根据权利要求5所述的方法，其特征在于，所述结合所述编码特征和所述融合特征，获得目标特征，包括：

对所述编码特征进行投影，得到投影后的编码特征；所述投影后的编码特征与所述融合特征的维度相同；

分别对所述投影后的编码特征以及所述融合特征进行归一化，并对各自归一化后的结果进行拼接，得到拼接特征；

对所述拼接特征进行投影，得到所述待识别语音的目标特征。

9.根据权利要求1所述的方法，其特征在于，所述根据所述建模单元的概率分布进行与各所述业务关键词相关的关键词识别，得到识别结果，包括：

获取各所述业务关键词对应的解码图，所述解码图用于表征所述业务关键词与建模单元之间的对应关系；

参照各所述解码图，对所述建模单元的概率分布进行与各所述业务关键词相关的关键词识别，得到识别结果，所述识别结果用于指示所述待识别语音中是否存在所述业务关键词。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法由关键词检测模型执行，所述关键词检测模型包括编码器、偏置特征提取器、特征融合层、分类层和解码器，

其中，所述编码器用于对待识别语音进行编码，所述偏置特征提取器用于获取各所述业务关键词的偏置特征，所述特征融合层用于融合所述编码特征和各所述业务关键词的偏置特征，所述分类层用于基于所述目标特征进行分类，所述解码器用于根据所述建模单元的概率分布进行与各所述业务关键词相关的关键词识别，得到识别结果。

11.根据权利要求10所述的方法，其特征在于，所述关键词检测模型的训练步骤包括：

12.一种关键词检测模型的训练方法，其特征在于，所述方法包括：

13.一种语音识别装置，其特征在于，所述装置包括：

14.一种关键词检测模型的训练装置，其特征在于，所述装置包括：

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。