CN114299930A

CN114299930A - 端到端语音识别模型处理方法、语音识别方法及相关装置

Info

Publication number: CN114299930A
Application number: CN202111574334.6A
Authority: CN
Inventors: 吴振宗; 刘柏基; 陈宇; 徐易楠; 康世胤; 许佳
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-08

Abstract

本发明提供的端到端语音识别模型处理方法、语音识别方法及相关装置，方法包括：获取预设词表和文本语料集；其中，所述预设词表用于维护任意一种直播领域中的热词、所述热词对应的发音路径和建模单元；根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型；根据所述热词的发音路径和建模单元，更新所述目标语言模型，并确定更新后的目标语言模型中所述热词的权重；根据更新后的所述目标语言模型，生成端到端语音识别模型。由于在生成的目标语音识别模型中包含了直播领域中的热词的权重，因而使得模型能够实在语音识别过程中自动选取最佳权重对应热词，提高了热词的识别准确率。

Description

端到端语音识别模型处理方法、语音识别方法及相关装置

技术领域

本发明涉及语音识别技术领域，具体而言，涉及一种端到端语音识别模型处理方法、语音识别方法及相关装置。

背景技术

语音识别是人工智能领域的常见处理内容，比如在人机交互、语音转文字等场景中，语音识别是不可或缺的处理内容。

对于实际用在产品上的语音识别软件，对于同一个发音，在特定领域，比如游戏领域，模型能够识别特定领域的专有名词。然而，目前常用的端到端语音识别模型对于特定领域内的热词，也就是专业名词、专业术语的识别效果很差。

如何提高端到端语音识别模型针对特定领域的热词的识别准确率，是需要解决的技术问题。

发明内容

本发明的目的之一在于提供一种端到端语音识别模型处理方法、语音识别方法及相关装置，其能够提高特定领域的热词的识别准确率。

本发明的实施例可以这样实现：

第一方面，本发明提供一种端到端语音识别模型的处理方法，包括：获取预设词表和文本语料集；其中，所述预设词表用于维护任意一种直播领域中的热词、所述热词对应的发音路径和建模单元；根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型；根据所述热词的发音路径和建模单元，更新所述目标语言模型，并确定更新后的目标语言模型中所述热词的权重；根据更新后的所述目标语言模型，生成端到端语音识别模型。

第二方面，本发明提供一种语音识别方法，所述方法包括：获取待识别语音；确定所述待识别语音对应的直播领域，并将所述待识别语音输入到所述直播领域对应的端到端语音识别模型，得到所述待识别语音对应的文本；其中，所述直播领域对应的端到端语音识别模型包括语言模型；所述语言模型是基于文本训练集、预设词表中热词的权重和发音路径得到的，所述预设词表用于维护所述直播领域中的热词、所述热词对应的发音路径。

第三方面，本发明提供一种端到端语音识别模型处理装置，包括：获取模块，用于获取预设词表和文本语料集；其中，所述预设词表用于维护任意一种直播领域中的热词、所述热词对应的发音路径和建模单元；训练模块，用于根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型；更新模块，用于根据所述热词的发音路径和建模单元，更新所述目标语言模型，并确定更新后的目标语言模型中所述热词的权重；生成模块，用于根据更新后的所述目标语言模型，生成端到端语音识别模型。

第四方面，本发明提供一种语音识别装置，包括：获取模块，用于获取待识别语音；识别模块，用于确定所述待识别语音对应的直播领域，将所述待识别语音输入到所述直播领域对应的端到端语音识别模型，得到所述待识别语音对应的文本；其中，所述直播领域对应的端到端语音识别模型包括语言模型；所述语言模型是基于文本训练集、预设词表中热词的权重、发音路径和建模单元得到的，所述预设词表用于维护所述直播领域中的热词、所述热词对应的发音路径。

第五方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现前述实施方式任一项所述的方法和/或前述实施方式所述的方法。

第六方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述实施方式任一项所述的方法和/或前述实施方式所述的方法。

本发明实施例提供的一种端到端语音识别模型处理方法、语音识别方法及相关装置，方法包括：首先通过文本语料集训练得到一个与直播领域对应的目标语言模型，其次，基于该直播领域中的热词的权重和发音路径更新生成的目标语言模型，使得目标语言模型中维护有该直播领域中的热词信息，最后基于更新后的目标语言模型生成端到端语音识别模型，由于在生成的目标语音识别模型中包含了直播领域中的热词的权重，因而使得模型能够实在语音识别过程中自动选取最佳权重对应热词，提高了热词的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为WFST的一种示例；

图2为一种语音识别的应用环境；

图3为本发明实施例提供的端到端语音识别模型的处理方法的示意性流程图；

图4为一种三元NGRAM语言模型arpa文件；

图5为本发明实施例提供的步骤S303的示意性流程图；

图6为本发明实施例提供的步骤S303-2的示意性流程图；

图7为本发明实施例提供的语音识别方法示意性流程图；

图8为本发明实施例提供的端到端语音识别模型处理装置的功能模块图；

图9为本发明实施例提供的语音识别装置的功能模块图；

图10为本发明实施例提供的一种电子设备的方框示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

在介绍本发明实施例前，首先对本发明实施例中的相关术语进行介绍。

热词：特定领域内的专业名词、专业术语以及实时生成的使用频率高于预设阈值的词或词组。

建模单元：端到端语音识别模型训练的建模单元，对于中英文采用不同的建模单元，中文建模单元为汉字，比如，“你好”，对应的建模单元为“你”、“好”，英文则可以使用了BPE建模。

发音路径：同一个发音可能存在的同音词或词组、混淆词等，比如对于“rogue”，根据它的真实发音创建的发音路径可以为“ro g ue”、“r哥”，“肉哥”等。

有限加权状态转换机WFST(Weighted Finite State Transducers,WFST)：是一种用于大规模的语音识别的加权有限状态转换器，每一个状态转换均用输入和输出符号标记。因此，所构建的网络(WFST)用于生成从输入符号序列或字符串到输出字符串的映射。WFST除了输入和输出符号之外还对状态转换进行加权。权重值可以是编码概率，持续时间或沿路径积累的任何其他数量，以计算将输入字符串映射到输出字符串的总体权重。WFST用于语音识别通常是表示在语音处理中输入语音信号后输出识别结果的各种可能的路径选择及其相应的概率。

例如，请参见图1，图1为WFST的一种示例，圆圈中的数字表示状态，每条边上的输入为词，输出也是词，数值标识当前路径出现某个词的概率(即ngram概率)，例如，在第一条边上，输入单次“using”,输出单词也为“using”且概率为1，紧接着，从状态1到状态2这条边上，输出单词为“data”,输出单词为“data”且概率为0.66，以此类推，到最后一个状态结束，可以得到一个字符串以及该字符串对应的概率。

语音识别，也被称为自动语音识别(Automatic Speech Recognition，简称ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。随着科学技术的发展，语音识别技术已被应用到人们的生活当中，比如在人机交互、语音转文字等场景中，语音识别是不可或缺的处理内容。

请参见图2，图2为一种语音识别的应用环境，在该应用环境中，包括终端110、服务器120和服务器130，其中，终端110、服务器120和服务器130之间可以通过网络连接。

终端110可以向服务器120发送语音识别模型的训练指令，服务器120响应于该模型训练指令，根据不同直播场景的文本语料和语音语料对语音识别进行模型训练。然后，服务器120将训练后的语音识别模型部署至服务器130。终端110通过采集待识别语音，将该待识别语音发送给服务器130，从而服务器130通过部署的语音识别模型对待识别语音进行语音识别，得到该待识别语音对应的文本，该服务器130可以根据该检测结果进行相应的操作。或者，该服务器130还可以将该检测结果发送给终端110，示该识别结果，和/或根据该识别结果进行相应的操作。

在一些可能的实施例中，上述语音识别可以应用在直播场景，例如，服务器120和服务器130可以合并为同一个直播服务器，由直播服务器训练并部署语音识别模型，语音信号可以由主播端采集并传输给直播服务器，直播服务器执行语音识别技术，可以将主播直播时的说话内容转化为文字，并实时生成字幕，提高用户体验。

其中，终端110智能手机、平板电脑、笔记本电脑、台式计算机等，此外，服务器120和服务器130可以是独立的物理器，还可以是由多个物理服务器构成的服务器集群。例如，服务器120和服务器130可以但不限于是直播服务器、游戏服务器、流媒体服务器等等。

其中，服务器120具有模型训练功能，服务器130具有语音识别功能仅仅是一种示例，并不是对其功能的限定，它们还可以是同时集成了模型训练和活体检测两种功能的同一个服务器。

请继续参见图2，目前常用的语音识别模型是端到端语音识别模型，相较于传统的语音识别模型，端到端语音识别模型明显降低了语音识别错误率，但是，随着用户需求的增加，对于实际用在产品上的语音识别软件，对于同一个发音，在特定领域，比如游戏领域，用户期望模型能够识别特定领域的专有名词。

然而，目前常用的端到端语音识别模型都被整合成了一个神经网络模型。只有在解码的时候，才会用到了文本信息，并且解码器在搜索过程中，每一步只保留了少量的候选词，导致解码，尤其是针对一些特定领域内的热词，也就是专业名词、专业术语的识别效果很差。

因此，为了提高端到端语音识别模型针对特定领域的热词的识别准确率，本发明实施例首先提供了一种端到端语音识别模型的处理方法，主要是通过训练出一个与特定领域相匹配的语音模型，进而根据该语音模型和预设的发音词改进现有的端到端语音识别模型的解码网络，从而使得改进后的端到端语音识别模型能够对特定领域的热词进行准确识别，起到对于同一发音，模型能够优先输出与特定领域的名词的效果。

请参见图3，图3为本发明实施例提供的端到端语音识别模型的处理方法的示意性流程图，该端到端语音识别模型的处理方法可以应用于图2中的服务设备120或服务设备130中，包括：

S301，获取预设词表和文本语料集；其中，预设词表用于维护任意一种直播领域中的热词、热词对应的发音路径；

S302，根据文本语料集，训练初始的语言模型的模型参数，得到直播领域对应的目标语言模型；

S303，根据热词的发音路径和建模单元，更新目标语言模型，并确定更新后的目标语言模型中热词的权重。

S304，根据更新后的目标语言模型，生成端到端语音识别模型。

根据本发明实施例提供的端到端语音识别模型，首先通过文本语料集训练得到一个与直播领域对应的目标语言模型，其次，基于该直播领域中的热词的权重和发音路径更新生成的目标语言模型，使得目标语言模型中维护有该直播领域中的热词信息，最后基于更新后的目标语言模型生成端到端语音识别模型，可以在实际使用过程中有效的提高了对热词的识别准确率。

需要说明的是，上述端到端语音识别模型可以是预先处理好的模型，可以部署在具有语音识别功能的设备中以实现语音识别效果，还可以是在进行语音识别之前，实时生成的一个端到端语音识别模型，此处不作限定。

下面对本申请实施例中各示例性步骤S301至步骤S304进行介绍。

在步骤S301中，首先获得预设词表和文本语料集。

本申请示例中，该直播领域可以但不限于是各种类型的直播场景、游戏赛事场景等。该热词可以是该直播领域中的各种专有名词，可以采用词表的形式来维护，该词表可以但不限于维护热词、热词的发音路径、建模单元等信息，还可以维护有每个热词对应的分类标签，该分类标签可以用于表征热词的重要性以及用于指示是否为该热词确定权重信息。

例如，在游戏赛事场景中，热词可以是表征各种游戏英雄、装备、技能等名词，还可以是赛事中参赛选手的人名，在一种情况下，可以用分类标签a标识代表人名等热词、用分类标签b标识英雄名、装备名等基础热词，用d标识其他热词，其中，a和b还用于指示需要对该热词确定权重信息，d则表示该热词不需要确定权重信息。

本申请实施例中，文本语料集可以是预先收集的一些文本，为了使得训练的文本与该直播领域适配，文本语料集中可以包含通用标注文本，该直播领域内的标注文本，以及该直播领域中的其他文本，其中，标注文本指得是该文本来自主播或主持人等，该直播领域中的其他文本指得是该直播领域中任何人对应的文本；通用标注文本指得是主播或主持人等在任意场景中的文本。

在步骤S302中，需要根据文本语料集，训练初始的语言模型的模型参数，得到直播领域对应的目标语言模型。

可以理解的是，语言模型是一种建立文本逻辑的合理性模型，统计词与词之间的相关性。常用的语言模型有NGRAM模型，为了让端到端语音识别模型的解码精度更加准确，本申请中可以使用ngram模型对文本语料进行分词建模，进而转为WFST的形式，构成端到端语音识别模型的解码网络。

在一种可能的实施方式中，可以用文本语料集训练ngram模型，由于NGRAM语言模型元数越高越好，但是限于效率的考虑，一般做到三元或四元即可，因此，本申请实施例采用3gram模型为初始的语言识别模型，进而文本语料集训练3gram，因此，本发明实施例还给出一种步骤S202的可能的实施方式：

a1,从文本语料中确定出第一类文本语料集、第二类文本语料集和第三类文本语料集。

其中，第一类文本语料集和第二类文本语料集中的文本语料具有主播标签；第一类文本语料集中的文本语料为通用文本；第二类文本语料集和第三类文本语料集中的文本语料为任意一种直播领域中的文本语料。

a2,分别利用第一类文本语料集、第二类文本语料集和第三类文本语料集对初始的语言模型进行训练，得到第一语言模型、第二语言模型和第三语言模型。

a3,将第一语言模型、二类语言模型和三类语言模型按预设比例插值进行融合，得到目标语言模型。

本申请实施例中，由于第三类文本语料集的数据量较大，由于第三种数据特别多，训练得到的第三语言模型很大，再加上本身是文本数据，和口语化语料相差较多，所以在进行融合之前，可以先对第三语言模型进行了剪枝处理。

通过上述步骤a1至步骤a3即可生成一种3gram语言模型，进而可以生成3gram语言模型的arpa文件，arpa文件是语言模型的一种存在形式,arpa文件可以很容易地表示任意n-gram语言模型，不过在实际中n通常等于3、4或者5。

为了方便理解上述arpa文件，请参见图4，图4为一种三元NGRAM语言模型arpa文件。arpa文件的每一行表示一个文法项，它通常包含三部分内容：probability word(s)[backoff probability],其中，probability是每一行的一个数值,表示该词或词组发生的概率，每一行第二个数值word(s)表示具体的词或者词组，每一行第三个数值backoffprobablitiy是可选项，表示回退概率，当下层文法有以当前词或词组为前缀的文法项时回退概率存在，例如在上面的arpa文件中，二元文法项“天气怎么”是三元文法项“天气怎么样”的前缀，所以它存在回退概率(在该简单arpa中为0，通常不为0)。有了上面的arpa文件，我们就可以计算给定一句话的语言模型得分。

可选地，在执行步骤S303之前，为了模型的识别效果，本发明实施例还给出一种对文本语料集进行预处理的实施方式，即：

b1,对文本语料集进行数据预处理，其中，预处理包括过滤标点符号、过滤特殊字符、英文字符中的至少一种。

本实施例中，对文本语料集进行数据预处理，可以包括对数据进行了清洗和正则，正则包含了数字转中文数字等一些将书面语转化为口语的操作。

b2对文本语料集中的多个文本语料各自进行分词处理，并将分词处理后得到的不存在于预设的发音词典中的词剔除。

本申请实施例中，对于中文可以但不限于采用jieba分词处理方式，对于英文则保留单词原样。对于得到的分词，还可以结合预设的发音词典进行过滤，不在词典内的单词就用<unk>代替。

b3,根据所述预设词表，对所述文本语料集中进行正则处理。

本申请实施例中，可以对热词进行了替换和统一，例如，对于文本中存在不同表现形式的词，比如“huanfeng”、“焕峰”都统一正则为一种形式，可以统一为拼音形式，也可以同一为中文形式。在某些直播赛事场景中，可能会出现针对选手名字的识别，因为一般选手名字没有中文，都是英文单词或拼音，因此，若存在中文文本的选手名字，则需要进行正则处理，统一换成拼音形式。

在获目标语言模型之后，为了使得模型支持热词提权功能，使得模型能够自动选取最佳的权重，提高热词识别准确率，可以利用步骤S303更新获得目标语言模型。

在步骤S303中，根据热词的发音路径和建模单元，更新目标语言模型，并确定更新后的目标语言模型中热词的权重。

也就是说，本申请实施例在生成目标语言模型之后，为了支持热词提权功能，可以在目标语言模型中确定热词的权重，这样一来，在利用语言模型进行解码的过程中，可以基于热词的权重提高热词的识别率。

下面介绍本申请实施例中的两种确定热词权重的实施方式。

第一种实施方式，响应于用户的权重配置信息，确定预设词表中热词的权重信息。

也就是说，可以先根据热词表，把之前确定的热词的发音路径的1gram添加进目标语言模型的arpa文件中，并初始化权重为0，目标语言模型中就包含了热词的发音路径，然后再人为提高热词的权重，权重范围可以在0-9之间。

第二种实施方式，即步骤S303可以包括如下步骤，请参见图5，图5为本发明实施例提供的步骤S303的示意性流程图：

S303-1，根据预设词表，生成测试集；测试集中包括多个测试文本。

本申请实施例中，预设词表的中可能部分热词存在于该测试集中，部分不在该测试集中，针对这两种情况的热词，本发明实施例在后续给出了不同的确定权重的实施方式。

S303-2，基于目标语言模型和预设的声学模型，对多个测试文本进行多轮解码，确定每轮解码后的解码错误率和预设词表中热词的得分和得分对应的权重。

在本申请实施例中，从上述步骤S301的实施例中可以看出，预设词表中的各个热词具有不同的分类标签，其中有的分类标签表征该热词不需要确定权重，因此，在步骤S303-2中，对于分类标签指示不需要对该热词确定权重的热词，不需要确定权重。

下面针对步骤S303-1中可能出现的两种情况的热词，给出确定权重的实施方式，因此，步骤S303-2可以包括如下步骤,请参见图6,图6为本发明实施例提供的步骤S303-2的示意性流程图:

S303-2-1，在每轮解码后，确定每个热词是否对应有至少一个测试文本。

也就是说，若某一个热词不存在于任意一个测试文本中，则可以认为该热词没有对应的测试文本，不在该测试集中；反之，若该热词在至少一个测试文本中出现，则可以认为该热词对应有测试文本，存在于该测试集中。

S303-2-2，若是，则根据每个热词对应的召回率、精确率和分类标签，确定得分，在得分高于上一轮得分的情况下，将上一轮得分对应的权重按预设规则增加，得到得分对应的权重，或者，在得分低于上一轮得分的情况下，将上一轮得分对应的权重按预设规则减少，得到得分对应的权重；其中，分类标签用于表征热词的重要程度。

S303-2-3，若否，则在每个热词的识别错误次数大于预设次数的情况下，将上一个权重按预设规则减小，得到的权重作为得分，或者，在小于或等于预设次数的情况下，将上一个权重按预设规则增加，得到的权重作为得分。

也就是说，对于测试集进行解码，然后所有的热词的权重初始化为0，在每轮解码之后，可以就获得测试集的字错误率(wer)以及对应的解码结果。

对于测试集包含的热词，可以根据解码结果计算其对应的召回和精确率，并根据该热词对应的分类标签计算不同的F-beta score，然后当前得分与上一轮解码得到的上一个得分进行比较，若当前得分比上一次高时，就增加权重，反之就降低权重；对于测试集没有的热词，设置该热词的错误识别次数阈值，若该热词的错误识别次数低于两次就增加权重，高于就降低权重，并将得分设置成与权重一致即可。

在上述实施例中，涉及到增加权重和降低权重，在一种可能的实施方式中，可以设置增加或降低的预设规则，预设规则可以但不限于1个单位，比如上一个权重是6，按1个单位增加或者按1个单位降低，实现根据解码结果动态调整权重的效果，最终使得到的权重能够与目标语言模型形成自适应效果。

在确定每一轮解码后对应的解码错误率、热词对应的得分和权重之后，即可执行步骤S303-3确定出热词最佳的权重，并结束解码过程。

S303-3，若存在连续预设轮，每轮解码后的解码错误率均小于预设阈值，则从每个热词对应的得分中确定出最高得分，并将最高得分对应的权重，确定为热词的权重。

也就是说，在获得了第一次迭代后的权重，然后把权重增加到目标语言模型的arpa文件中，实现目标语言模型的更新，然后继续迭代，初始学习率为1，每轮迭代降低为之前的0.9.当连续预设轮(假设是三轮)的解码错误率都低于预设阈值时，就可以将确定权重的热词的最佳分数对应的权重生成最后的权重，并基于最后得到的权重更新目标语言模型。

可选地，为了保证目标语言模型的自适应性，在每轮解码之后，还可以基于每轮解码后确定的热词对应的权重，更新目标语言模型；更新后的目标语言模型可以重新生成一个解码网络，进而可以重新生成的解码网络执行下一轮解码。

在获得目标语言模型之后，即可根据该目标语言模型，结合预设的发音词典，构造一个解码网络，并基于该构造的解码网络生成端到端语音识别模型，因此，可以继续执行步骤S304。

在步骤S304中，根据更新后的目标语言模型，生成端到端语音识别模型。

本申请实施例中，在得到目标语言模型之后，即可结合发音词典得到最后的解码网络，并基于该生成的解码网络改进现有的端到端语音识别模型的解码器，从而可以获得改进后的端到端语音识别模型。

在本申请实施例中，改进后的端到端语音识别模型中的解码器可以但不限于是CTC模型，在CTC解码的时候融入发音词典和本发明实施例提供的语言模型，依靠CTC WFSTsearch生成N-best，可以提高对热词的识别准确率。

基于上述改进的端到端语音识别模型，本发明实施例还提供了一种语音识别方法，该语音识别方法可以应用于图2中的服务器120或者服务器130，请参见图7，图7为本发明实施例提供的语音识别方法示意性流程图：

S401，获取待识别语音。

S402，确定待识别语音对应的直播领域，并将待识别语音输入到直播领域对应的端到端语音识别模型，得到待识别语音对应的文本。

其中，直播领域对应的端到端语音识别模型包括语言模型；语言模型是基于文本训练集、预设词表中热词的权重和发音路径得到的，预设词表用于维护直播领域中的热词、热词对应的发音路径和建模单元。

根据本发明实施例提供语音识别方法，首先获得待识别语音，进而确定该识别语音对应的直播领域，并基于该直播领域对应的端到端语音识别模型进行识别，由于该端到端语音识别模型的语言模型是基于文本训练集、预设词表中热词的权重和发音路径、和建模单元得到的，因此，该端到端语音识别模型能自动选取最佳权重的热词，有效的提高了对热词的识别准确率。

需要说明的是，上述端到端语音识别模型可以是预先处理好的模型，可以部署在具有语音识别功能的设备中以实现语音识别效果，还可以是在进行步骤S401之前，通过执行图3中的各个步骤实时生成的端到端语音识别模型，此处不作限定。

为了实现上述实施例中图3中的各个步骤以实现获得端到端语音识别模型，本发明实施例提供的端到端语音识别模型的处理方法可以在硬件设备或者以软件模块的形式实现中执行，当端到端语音识别模型的处理方法以软件模块的形式实现时，本发明实施例还提供一种活体检测模型的训练装置，请参见图8，图8为本发明实施例提供的端到端语音识别模型处理装置的功能模块图，该端到端语音识别模型处理装置500可以包括：

获取模块510，用于获取预设词表和文本语料集；其中，所述预设词表用于维护任意一种直播领域中的热词、所述热词对应的发音路径和建模单元；

训练模块520，用于根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型；

更新模块530，用于根据所述热词的发音路径和建模单元，更新所述目标语言模型，并确定更新后的目标语言模型中所述热词的权重；

生成模块540，用于根据更新后的所述目标语言模型，生成端到端语音识别模型。

可以理解的是，上述获取模块510、训练模块520、更新模块530和生成模块540可以协同的执行图3中的各个步骤以实现相应地技术效果。

在可能的实施方式中，更新模块530，还具体用于执行图5、图6中的各个步骤以实现相应的技术效果。

在可能的实施方式中，训练模块520，还具体用于上述步骤S202中的步骤a1至步骤a3以实现相应的技术效果。

在可能的实施方式中，该端到端语音识别模型处理装置500还可以用于执行上述步骤b1至步骤b3以实现相应的技术效果。

为了实现上述实施例中图7中的各个步骤以实现获得语音识别效果，本发明实施例提供的语音识别方法可以在硬件设备或者以软件模块的形式实现中执行，当语音识别方法以软件模块的形式实现时，本发明实施例还提供一种语音识别装置，请参见图9，图8为本发明实施例提供的语音识别装置的功能模块图，该语音识别装置600可以包括：

获取模块610，用于获取待识别语音。

识别模块620，用于确定所述待识别语音对应的直播领域，将所述待识别语音输入到所述直播领域对应的端到端语音识别模型，得到所述待识别语音对应的文本；

其中，所述直播领域对应的端到端语音识别模型包括语言模型；所述语言模型是基于文本训练集、预设词表中热词的权重、发音路径和建模单元得到的，所述预设词表用于维护所述直播领域中的热词、所述热词对应的发音路径和建模单元。

可以理解的是，上述获取模块610、识别模块620可以协同的执行图7中的各个步骤以实现相应的技术效果。

需要说明的是，本发明实施例提供的端到端语音识别模型处理装置500中的各个功能模块和/或语音识别装置600可以以软件或固件(Firmware)的形式存储于存储器中或固化于电子设备700的操作系统(Operating System，OS)中，并可由电子设备700中的处理器执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器中。

在一种可能的实施方式中，上述电子设备400可以形如图1中的服务器120，可以用来部署端到端语音识别模型处理装置500，电子设备400还可以形如图1中的服务器130，用来部署语音识别装置600。

如图10，图10为本发明实施例提供的一种电子设备的方框示意图。该电子设备700包括通信接口701、处理器702和存储器703。该处理器702、存储器703和通信接口701相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器703可用于存储软件程序及模块，如本发明实施例所提供的端到端语音识别模型的处理方法和/或语音识别方法对应的程序指令/模块，处理器702通过执行存储在存储器703内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口701可用于与其他节点设备进行信令或数据的通信。在本发明中该电子设备70可以具有多个通信接口701。

其中，存储器703可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器702可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项的端到端语音识别模型的处理方法和/或语音识别方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种端到端语音识别模型处理方法，其特征在于，包括：

获取预设词表和文本语料集；其中，所述预设词表用于维护任意一种直播领域中的热词、所述热词对应的发音路径和建模单元；

根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型；

根据所述热词的发音路径和建模单元，更新所述目标语言模型，并确定更新后的目标语言模型中所述热词的权重；

根据更新后的所述目标语言模型，生成端到端语音识别模型。

2.根据权利要求1所述的端到端语音识别模型的处理方法，其特征在于，确定更新后的目标语言模型中所述热词的权重，包括：

根据所述预设词表，生成测试集；所述测试集中包括多个测试文本；

基于所述目标语言模型和预设的声学模型，对所述多个测试文本进行多轮解码，确定每轮解码后的解码错误率和所述预设词表中热词的得分和所述得分对应的权重；

若存在连续预设轮，每轮解码后的所述解码错误率均小于预设阈值，则从所述热词对应的得分中确定出最高得分，并将所述最高得分对应的权重，确定为所述热词的权重。

3.根据权利要求2所述的端到端语音识别模型处理方法，其特征在于，确定每轮解码后所述预设词表中每个热词的得分和所述得分对应的权重，包括：

在每轮解码后，确定每个热词是否对应有所述测试文本；

若是，则根据所述每个热词对应的召回率、精确率和分类标签，确定所述得分，在所述得分高于上一轮得分的情况下，将上一轮得分对应的权重按预设规则增加，得到所述得分对应的权重，或者，

在所述得分低于上一轮得分的情况下，将所述上一轮得分对应的权重按预设规则减少，得到所述得分对应的权重；其中，所述分类标签用于表征所述热词的重要程度；

若否，则在所述每个热词的识别错误次数大于预设次数的情况下，将上一个权重按所述预设规则减小，得到的所述权重作为所述得分，或者，在小于或等于所述预设次数的情况下，将上一个权重按所述预设规则增加，得到的所述权重作为所述得分。

4.根据权利要求2或3所述的端到端语音识别模型处理方法，其特征在于，在确定每轮解码后所述测试集的解码错误率和所述预设词表中每个热词的得分和所述得分对应的权重之后，所述方法还包括：

基于每轮解码后确定的热词对应的权重，更新所述目标语言模型；更新后的所述目标语言模型用于执行下一轮解码。

5.根据权利要求1所述的端到端语音识别模型处理方法，其特征在于，确定更新后的目标语言模型中所述热词的权重，包括：

响应于用户的权重配置信息，确定所述预设词表中热词的权重信息。

6.根据权利要求1所述的端到端语音识别模型处理方法，其特征在于，根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型，包括：

从所述文本语料中确定出第一类文本语料集、第二类文本语料集和第三类文本语料集；

其中，所述第一类文本语料集和所述第二类文本语料集中的文本语料具有主播标签；所述第一类文本语料集中的文本语料为通用文本；所述第二类文本语料集和所述第三类文本语料集中的文本语料为所述任意一种直播领域中的文本语料；

分别利用所述第一类文本语料集、第二类文本语料集和第三类文本语料集对初始的语言模型进行训练，得到第一语言模型、第二语言模型和第三语言模型；

将所述第一语言模型、所述第二语言模型和所述第三语言模型按预设比例插值进行融合，得到所述目标语言模型。

7.根据权利要求1所述的端到端语音识别模型处理方法，其特征在于，在获取预设词表和文本语料集之后，所述方法还包括：

对所述文本语料集进行数据预处理，其中，所述预处理包括过滤标点符号、过滤特殊字符、英文字符中的至少一种；

对所述文本语料集中的多个文本语料各自进行分词处理，并将分词处理后得到的不存在于所述预设的发音词典中的词剔除；

根据所述预设词表，对所述文本语料集中进行正则处理。

8.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音；

确定所述待识别语音对应的直播领域，并将所述待识别语音输入到所述直播领域对应的端到端语音识别模型，得到所述待识别语音对应的文本；

其中，所述直播领域对应的端到端语音识别模型包括语言模型；所述语言模型是基于文本训练集、预设词表中热词的权重和发音路径得到的，所述预设词表用于维护所述直播领域中的热词、所述热词对应的发音路径。

9.一种端到端语音识别模型处理装置，其特征在于，包括：

获取模块，用于获取预设词表和文本语料集；其中，所述预设词表用于维护任意一种直播领域中的热词、所述热词对应的发音路径和建模单元；

训练模块，用于根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型；

更新模块，用于根据所述热词的发音路径和建模单元，更新所述目标语言模型，并确定更新后的目标语言模型中所述热词的权重；

生成模块，用于根据更新后的所述目标语言模型，生成端到端语音识别模型。

10.一种语音识别装置，其特征在于，包括：

获取模块，用于获取待识别语音；

识别模块，用于确定所述待识别语音对应的直播领域，将所述待识别语音输入到所述直播领域对应的端到端语音识别模型，得到所述待识别语音对应的文本；

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现权利要求1-7任一项所述的方法和/或权利要求8所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法和/或权利要求8所述的方法。