CN114255743A

CN114255743A - 语音识别模型的训练方法、语音识别方法及装置

Info

Publication number: CN114255743A
Application number: CN202111518670.9A
Authority: CN
Inventors: 陈孝良; 李良斌
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-29

Abstract

本申请公开了一种语音识别模型的训练方法、语音识别方法及装置。语音识别模型的训练方法，包括：获取目标训练文本，其中，所述目标训练文本包括对将来的预设时间段内预测的目标场景对应的场景关键词；根据目标训练文本对初始语音识别模型进行更新训练，得到目标语音识别模型，其中，所述初始语音识别模型为已训练完成的语音识别模型。根据本申请实施例，能够解决语音识别效率低，识别准确性差的问题。

Description

语音识别模型的训练方法、语音识别方法及装置

技术领域

本申请属于语音识别技术领域，尤其涉及一种语音识别模型的训练方法、语音识别方法及装置。

背景技术

随着科学技术的发展，语音识别技术也得到了越来越广泛的应用。通过语音识别技术可以将用户的语音转换为相应的文本或编码，为用户带来了便利。

在语音识别的过程中，通常使用语音识别模型对语音进行识别，以获得语音对应的文本信息。但目前，对于不常见的词汇等信息，语音识别模型仍存在识别效率低，识别准确性差的问题，影响用户使用体验。

发明内容

本申请实施例提供一种语音识别模型的训练方法、语音识别方法及装置，能够解决语音识别效率低，识别准确性差的问题。

第一方面，本申请实施例提供一种语音识别模型的训练方法，方法包括：

获取目标训练文本，其中，目标训练文本包括对将来的预设时间段内预测的目标场景对应的场景关键词；

根据目标训练文本对初始语音识别模型进行更新训练，得到目标语音识别模型，其中，初始语音识别模型为已训练完成的语音识别模型。

在第一方面的一些可实现方式中，获取目标训练文本，方法还包括：

根据预设关键词采集周期，确定预设时间段内目标场景对应的场景关键词；

根据场景关键词，更新训练文本，得到目标训练文本。

在第一方面的一些可实现方式中，场景关键词的数量为多个，根据场景关键词，更新训练文本，得到目标训练文本，包括：

根据预设评价规则，确定每个场景关键词的权重；

根据每个场景关键词的权重，确定训练文本中每个场景关键词的数量，得到目标训练文本。

在第一方面的一些可实现方式中，根据预设评价规则，确定每个场景关键词的权重，包括：

对应目标场景，根据预设评价规则，确定场景关键词在预设时间段内的多个热度值；

根据多个热度值和权重计算公式，确定每个场景关键词的权重，权重计算公式为：

w(x)＝[(x-X_min)/(X_max-X_min)]*C1+C2

其中，w(x)为场景关键词的权重，x为场景关键词的热度值，X_min为所有的热度值中的最小值，X_max为所有的热度值中的最大值，C1为第一常数，C2为第二常数。

在第一方面的一些可实现方式中，目标场景包括影视场景，根据预设关键词采集周期，确定预设时间段内目标场景对应的场景关键词，包括：

根据预设的关键词采集周期，对与影视场景相关的网站进行解析，确定影视场景对应的场景关键词。

在第一方面的一些可实现方式中，根据预设的关键词采集周期，对与影视场景相关的网站进行解析，确定影视场景对应的场景关键词，包括：

根据预设的关键词采集周期，对与影视场景相关的网站进行解析，得到影视场景对应的初始场景关键词，以及每个初始场景关键词对应的时间信息；

获取时间信息满足预设时间段的初始场景关键词，得到预设时间段内影视场景对应的场景关键词。

第二方面，本申请实施例提供一种语音识别模型的训练方法，方法包括：

获取待识别语音；

根据目标语音识别模型，确定待识别语音对应的文本信息，其中，目标语音识别模型是根据第一方面或者第一方面任一可实现方式中所述的语音识别模型的训练方法训练得到。

第三方面，本申请实施例提供一种语音识别模型的训练装置，包括：

获取模块，用于获取目标训练文本，其中，目标训练文本包括对将来的预设时间段内预测的目标场景对应的场景关键词；

处理模块，用于根据目标训练文本对初始语音识别模型进行更新训练，得到目标语音识别模型，其中，初始语音识别模型为已训练完成的语音识别模型。

第四方面，本申请实施例提供一种语音识别装置，包括：

获取模块，用于获取待识别语音；

处理模块，用于根据目标语音识别模型，确定待识别语音对应的文本信息，其中，目标语音识别模型是根据第一方面或者第一方面任一可实现方式中所述的语音识别模型的训练方法训练得到。

第五方面，本申请提供一种语音识别设备，该设备包括：处理器以及存储有计算机程序指令的存储器；处理器执行计算机程序指令时实现第一方面或者第一方面任一可实现方式中所述的语音识别模型的训练方法或第二方面中所述的语音识别方法。

第六方面，本申请提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面或者第一方面任一可实现方式中所述的语音识别模型的训练方法或第二方面中所述的语音识别方法。

第七方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如第一方面或者第一方面任一可实现方式中所述的语音识别模型的训练方法或第二方面中所述的语音识别方法。

本申请实施例提供了一种语音识别模型的训练方法、识别方法及装置。通过获取对将来的预设时间段内预测的目标场景对应的场景关键词，作为目标训练文本，并根据目标训练文本对已训练完成的语音识别模型进行更新训练，从而得到目标语音识别模型，因此，通过目标语音识别模型能够有效的识别将来预设时间段内出现的新词汇，有效提高率语音识别的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音识别模型的训练方法的流程示意图；

图2是本申请实施例提供的一种语音识别方法的流程示意图；

图3是本申请实施例提供的一种语音识别模型的训练装置的结构示意图；

图4是本申请实施例提供的一种语音识别装置的结构示意图；

图5是本申请实施例提供的一种语音识别设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

针对于此，本申请实施例提供了一种语音识别模型的训练方法、语音识别方法及装置。通过获取对将来的预设时间段内预测的目标场景对应的场景关键词，作为目标训练文本，并根据目标训练文本对已训练完成的语音识别模型进行更新训练，从而得到目标语音识别模型，因此，通过目标语音识别模型能够有效的识别将来预设时间段内出现的新词汇，有效提高率语音识别的准确率。

图1示出了本申请一个实施例提供的语音识别方法的流程示意图。如图1所示，该方法可以包括步骤110至步骤120。

步骤110，获取目标训练文本。

其中，所述目标训练文本包括将来的预设时间段内预测的目标场景对应的场景关键词。

目标场景例如可以是影视相关的场景、网购场景等等，在此并不具体限定。

以目标场景是影视相关的场景为例，相应的，在未来一段时间内的即将上线或者即将上映的影视作品，场景关键词例如，电影名、电视剧名、综艺节目名、角色名称、经典台词等等。

步骤120，根据目标训练文本对初始语音识别模型进行更新训练，得到目标语音识别模型。

其中，所述初始语音识别模型为已训练完成的语音识别模型。

在一些实施例中，初始语音识别模型在训练完成后，可以有效识别部分场景的语音。示例性的，初始语音识别模型例如可以是基于DNN-HMM的语音识别模型，其中，可以包括声学模型和语言模型。为了能够及时、准确的识别未来一段时间内的新词汇，因此，需要对将来的预设时间段内，目标场景对应的场景关键词进行预测，以便于根据预测的场景关键词提前对初始语音识别模型进行更新训练，得到目标语音识别模型。如此，通过使用用户可能会说出的词汇，提前对初始语音识别模型进行训练，得到目标是别模型，提高了语音识别的时效性，可以提高用户体验。

在本申请实施例中，获取目标训练文本，具体可以包括以下步骤：

根据预设关键词采集周期，确定预设时间段内目标场景对应的场景关键词；根据场景关键词，更新训练文本，得到目标训练文本。

具体地，随着时间的推移，目标场景的场景关键词可能会相应的发生改变，因此，通过预设关键词采集周期，从而便于定期更新初始语音识别模型更新。在得到场景关键词后，可以更新训练文本，从而得到用于对初始语音识别模型进行更新训练的目标训练文本。

在一些实施例中，确定预设时间段内目标场景对应的场景关键词，具体可以包括：根据预设的关键词采集周期，对与影视场景相关的网站进行解析，确定预设时间段内影视场景对应的场景关键词。

为了有效的获取预设时间段内目标场景对应的场景关键词，可以利用网络爬虫技术，从预设的网站中查找相关的场景关键词。以目标场景为影视相关的场景为例，可以在影视网站、影评网站等相关网络地址中获取影视作品信息以及未来一段时间内即将上映的影视作品。如此，可以实现提前预测用户可能会说的语音内容，从而提高新出现的词汇的识别效率，提高用户体验。

作为一个具体的示例，确定预设时间段内影视场景对应的场景关键词，具体还可以包括以下步骤：根据预设的关键词采集周期，对与影视场景相关的网站进行解析，得到影视场景对应的初始场景关键词，以及每个初始场景关键词对应的时间信息；获取时间信息满足预设时间段的初始场景关键词，得到预设时间段内影视场景对应的场景关键词。

具体的，初始场景关键词对应的时间信息，例如，影视剧A的上映时为XX月XX日；又例如，影视剧B预计XX月XX日开拍。通过结合初始场景关键词对应的时间信息，有利于提高预测得到的场景关键词的准确性。

在一些实施例中，通常场景关键词的数量为多个，为了能够区别不同的场景关键词，尤其对于出现频率频繁的关键词实现有效识别，因此，根据场景关键词，更新训练文本，得到目标训练文本，具体还可以包括以下步骤：根据预设评价规则，确定每个场景关键词的权重；根据每个场景关键词的权重，确定训练文本中每个场景关键词的数量，得到目标训练文本。

示例性的，预设的评价规则可以是预设的网站中，场景关键词的搜索指数，根据每个场景关键词的搜索指数确定该场景关键词的权重。根据场景关键词的搜索指数，可以体现场景关键词的热度值，即，可以体现在用户心中更加关注的关键词。

在更新训练文本时，不同权重的场景关键词，重复数量可以不同。例如，场景关键词的权重越高，场景关键词的重复数量就越多。如此，在根据场景关键词更新训练文本时，可以使目标训练文本更加有针对性，以便于目标语音识别模型能更快速有效的实现对不同的场景关键词的识别。

在一些实施例中，为了充分体现不同的场景关键词对应的场景热度。在确定场景关键词时，可以根据以下步骤：对应目标场景，根据预设评价规则，确定场景关键词在预设时间段内的多个热度值。

w(x)＝[(x-X_min)/(X_max-X_min)]*C1+C2

具体地，预设时间段内预测的目标场景对应的场景关键词的数量常常为多个，为了体现不同场景关键词之间的区别，可以确定每个场景关键词在预设时间段内的热度值，从而可以得到多个热度值。

在具体计算时，可以结合多个热度值，确定每个关键词的权重。在本申请实施例中，C1为第一常数，C2为第二常数，通过设置C1和C2可以实现控制场景关键词的最大重复次数和最小重复次数。示例性的，以C1＝9，C2＝1为例，在确定场景关键字的权重时，可以得到场景关键词的最大重复次数为10，最小重复次数为1。

在本申请实施例中，对应不同热度值的场景关键词，通过以不同的重复次数更新训练文本，得到目标场景关键词用来更新训练初始语音识别模型，使得在目标识别场景下，能够有效提高语音识别的准确率。

图2示出了本申请一个实施例提供的语音识别方法的流程示意图。如图2所示，该方法可以包括步骤210至步骤220。

步骤210，获取待识别语音。

在一些实施例中，待识别语音例如可以包括孤立的词语，也可以包括连续的词语组成的句子。其中，待识别语音可以是由用户发出，也可以是由电子设备播放的音频数据，在此不作具体限定。

示例性的，用户在使用社交应用聊天时，可以将语音聊天内容作为待识别语音；又例如，用户在使用软件搜索时，可以通过语音提出需要查找的内容，作为待识别语音，等等。

作为又一具体的示例，例如，在需要录制好的视频或者音频中的语音进行转换为文本的情况下，可以播放视频或者音频，从而获取音频数据，作为待识别语音。

在得到待识别语音后，接下来，可以执行步骤220。

步骤220，根据目标语音识别模型，确定所述待识别语音对应的文本信息。

其中，所述目标语音识别模型是根据本申请实施例提供的语音识别模型的训练方法训练得到。

在本申请实施例中，由于目标语音识别模型是根据预设时间段内的目标场景对应的场景关键词，对训练好的初始语音识别模型进行更新训练后得到的，因此，通过目标语音识别模型能够有效的识别预设时间段内出现的新词汇，有效提高率语音识别的准确率。

图3是本申请实施例提供的一种语音识别模型的训练装置的结构示意图，如图3所示，该语音识别模型的训练装置300可以包括：获取模块310和处理模块320。

获取模块310，用于获取目标训练文本，其中，目标训练文本包括将来的预设时间段内预测的目标场景对应的场景关键词；

处理模块320，用于根据目标训练文本对初始语音识别模型进行更新训练，得到目标语音识别模型，其中，初始语音识别模型为已训练完成的语音识别模型。

根据本申请实施例，通过获取对将来的预设时间段内预测的目标场景对应的场景关键词，作为目标训练文本，并根据目标训练文本对已训练完成的语音识别模型进行更新训练，从而得到目标语音识别模型，因此，通过目标语音识别模型能够有效的识别将来预设时间段内出现的新词汇，有效提高率语音识别的准确率。

在一些实施例中，处理模块320，还用于根据预设关键词采集周期，预测预设时间段内目标场景对应的场景关键词；

处理模块320，还用于根据预设关键词采集周期，确定预设时间段内目标场景对应的场景关键词；

处理模块320，还用于根据场景关键词，更新训练文本，得到目标训练文本。

在一些实施例中，场景关键词的数量为多个；

处理模块320，还用于根据预设评价规则，确定每个场景关键词的权重；

处理模块320，还用于根据每个场景关键词的权重，确定训练文本中每个场景关键词的数量，得到目标训练文本。

在一些实施例中，处理模块320，还用于对应目标场景，根据预设评价规则，确定场景关键词在预设时间段内的多个热度值；

处理模块320，还用于根据多个热度值和权重计算公式，确定每个场景关键词的权重，权重计算公式为：

w(x)＝[(x-X_min)/(X_max-X_min)]*C1+C2

在一些实施例中，处理模块320，还用于根据预设的关键词采集周期，对与影视场景相关的网站进行解析，确定影视场景对应的场景关键词。

在一些实施例中，处理模块320，还用于根据预设的关键词采集周期，对与影视场景相关的网站进行解析，得到影视场景对应的初始场景关键词，以及每个所述初始场景关键词对应的时间信息；

获取模块310，还用于获取所述时间信息满足所述预设时间段的初始场景关键词，得到所述预设时间段内所述影视场景对应的场景关键词。

可以理解的是，本申请实施例的语音识别模型的训练装置300，可以对应于本申请实施例的语音识别模型的训练方法的执行主体，语音识别模型的训练装置300的各个模块/单元的操作和/或功能的具体细节可以参见上述本申请实施例提供的语音识别模型的训练方法中的相应部分的描述，为了简洁，在此不再赘述。

图4是本申请实施例提供的一种语音识别装置的结构示意图，如图4所示，该语音识别装置400可以包括：获取模块410和处理模块420。

获取模块410，用于获取待识别语音。

处理模块420，用于根据目标语音识别模型，确定待识别语音对应的文本信息，其中，目标语音识别模型是根据本申请实施例提供的语音识别模型的训练方法训练得到。

根据本申请实施例，在获得待识别语音后，通过目标语音识别模型，可以快速准确的得到语音对应的内容。由于在本申请实施例中，获取了对将来预设时间段内预测的目标场景对应的场景关键词，目标语音识别模型是根据预设时间段内的目标场景对应的场景关键词，对训练好的初始语音识别模型进行更新训练后得到的，因此，通过目标语音识别模型能够有效的识别将来预设时间段内出现的新词汇，有效提高率语音识别的准确率。

可以理解的是，本申请实施例的语音识别装置400，可以对应于本申请实施例的语音识别方法的执行主体，语音识别装置400的各个模块/单元的操作和/或功能的具体细节可以参见上述本申请实施例提供的语音识别方法中的相应部分的描述，为了简洁，在此不再赘述。

图5示出了本申请一个实施例提供的语音识别设备的结构示意图。如图5所示，该设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(Central Processing Unit，CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器502可以包括用于信息或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在一个实例中，存储器502可以包括可移除或不可移除(或固定)的介质，或者存储器502是非易失性固态存储器。存储器502可在语音识别设备的内部或外部。

在一个实例中，存储器502可以是只读存储器(Read Only Memory，ROM)。在一个实例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现本申请实施例所描述的方法，并达到本申请实施例执行其方法达到的相应技术效果，为简洁描述在此不再赘述。

在一个示例中，该语音识别设备还可包括通信接口503和总线510。其中，如图5所示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将在线信息流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，EISA)总线、前端总线(Front Side Bus，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(Industry Standard Architecture，ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该语音识别设备可以执行本申请实施例中的语音识别模型的训练方法，以及语音识别方法，从而实现本申请实施例描述的语音识别模型的训练方法，以及语音识别方法的相应技术效果。

另外，结合上述实施例中的语音识别模型的训练方法，以及语音识别方法，本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音识别模型的训练方法，以及语音识别方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory，ROM)、闪存、可擦除只读存储器(Erasable ReadOnly Memory，EROM)、软盘、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、光盘、硬盘、光纤介质、射频(Radio Frequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种语音识别模型的训练方法，其特征在于，包括：

获取目标训练文本，其中，所述目标训练文本包括对将来的预设时间段内预测的目标场景对应的场景关键词；

根据目标训练文本对初始语音识别模型进行更新训练，得到目标语音识别模型，其中，所述初始语音识别模型为已训练完成的语音识别模型。

2.根据权利要求1所述的方法，其特征在于，所述获取目标训练文本包括：

根据预设关键词采集周期，确定所述预设时间段内目标场景对应的场景关键词；

根据所述场景关键词，更新训练文本，得到所述目标训练文本。

3.根据权利要求2所述的方法，其特征在于，所述场景关键词的数量为多个，所述根据所述场景关键词，更新训练文本，得到所述目标训练文本，包括：

根据预设评价规则，确定每个所述场景关键词的权重；

根据每个所述场景关键词的权重，确定所述训练文本中每个场景关键词的数量，得到所述目标训练文本。

4.根据权利要求3所述的方法，其特征在于，所述根据预设评价规则，确定每个所述场景关键词的权重，包括：

对应所述目标场景，根据预设评价规则，确定所述场景关键词在预设时间段内的多个热度值；

根据所述多个热度值和权重计算公式，确定每个所述场景关键词的权重，所述权重计算公式为：

w(x)＝[(x-X_min)/(X_max-X_min)]*C1+C2

其中，w(x)为所述场景关键词的权重，x为所述场景关键词的热度值，X_min为所有的热度值中的最小值，X_max为所有的热度值中的最大值，C1为第一常数，C2为第二常数。

5.根据权利要求2所述的方法，其特征在于，所述目标场景包括影视场景，所述根据预设关键词采集周期，确定所述预设时间段内目标场景对应的场景关键词，包括：

根据预设的关键词采集周期，对与所述影视场景相关的网站进行解析，确定所述预设时间段内所述影视场景对应的场景关键词。

6.根据权利要求5所述的方法，其特征在于，所述根据预设的关键词采集周期，对与所述影视场景相关的网站进行解析，确定所述影视场景对应的场景关键词，包括：

根据预设的关键词采集周期，对与所述影视场景相关的网站进行解析，得到所述影视场景对应的初始场景关键词，以及每个所述初始场景关键词对应的时间信息；

获取所述时间信息满足所述预设时间段的初始场景关键词，得到所述预设时间段内所述影视场景对应的场景关键词。

7.一种语音识别方法，其特征在于，包括：

获取待识别语音；

根据目标语音识别模型，确定所述待识别语音对应的文本信息，其中，所述目标语音识别模型是根据权利要求1至权利要求6中任意一项所述的语音识别模型的训练方法训练得到。

8.一种语音识别装置，其特征在于，包括：

获取模块，用于获取目标训练文本，其中，所述目标训练文本包括对将来的预设时间段内预测的目标场景对应的场景关键词；

处理模块，用于根据目标训练文本对初始语音识别模型进行更新训练，得到目标语音识别模型，其中，所述初始语音识别模型为已训练完成的语音识别模型。

9.一种语音识别装置，其特征在于，包括：

获取模块，用于获取待识别语音；

处理模块，用于根据目标语音识别模型，确定所述待识别语音对应的文本信息，其中，所述目标语音识别模型是根据权利要求1至权利要求6中任意一项所述的语音识别模型的训练方法训练得到。

10.一种语音识别设备，其特征在于，所述设备包括：处理器，以及存储有计算机程序指令的存储器；

所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-6任意一项所述的语音识别模型的训练方法或权利要求7所述的语音识别方法。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的语音识别模型的训练方法或权利要求7所述的语音识别方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-6任意一项所述的语音识别模型的训练方法或权利要求7所述的语音识别方法。