CN112382295A

CN112382295A - 语音识别方法、装置、设备及可读存储介质

Info

Publication number: CN112382295A
Application number: CN202011272220.1A
Authority: CN
Inventors: 徐正军; 黄爽
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-19
Anticipated expiration: 2040-11-13
Also published as: CN112382295B

Abstract

本申请公开了一种语音识别方法、装置、设备及可读存储介质。该方法包括：获取与待识别语音相关的多媒体数据；确定多媒体数据包含的内容信息；基于内容信息对预设模型进行训练，得到个性化语音识别模型，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别，得到语音识别结果。本申请提供的技术方案，借助与待识别语音相关的多媒体数据得到个性化语音识别模型的过程，能够获取例如专业术语等信息作为先验信息，使得个性化语音识别模型具备更好的识别当前领域专业术语的能力，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行识别，能够显著提升语音识别结果的准确度。

Description

语音识别方法、装置、设备及可读存储介质

技术领域

本申请属于语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及可读存储介质。

背景技术

语音识别技术是由电子设备将语音转换为文本的过程。随着语音识别技术的日益成熟，语音识别技术已经广泛应用于各行各业。例如，在会议过程中进行语音识别，将发言人员的语音转换为相应的文本内容。

目前，传统语音识别模型在通用场景下的识别准确率已经达到令人满意的效果。但是，在某些特殊场景下，待识别语音中存在一些不常见的词汇，例如专业词汇，这类词汇在通用场景下出现的频率较小，传统的语音识别模型对该类词汇的覆盖较差，这导致语音识别的准确率不高。

发明内容

有鉴于此，本申请的目的在于提供一种语音识别方法、装置、设备及可读存储介质，以提高语音识别的准确率。

为实现上述目的，本申请提供如下技术方案：

一种语音识别方法，包括：

获取与待识别语音相关的多媒体数据；

确定所述多媒体数据包含的内容信息；

基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。

可选的，所述基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，包括：

在所述内容信息的数据量达到预设数据量阈值的情况下，将所述内容信息作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。

在所述内容信息的数据量小于预设数据量阈值的情况下，基于所述内容信息获取辅助语料，将所述辅助语料作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。

可选的，所述基于所述内容信息获取辅助预料，包括：

提取所述内容信息中的关键词，基于所述关键词获取辅助语料；

或者，确定所述内容信息的摘要标签，基于所述摘要标签获取辅助语料。

可选的，所述至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果，包括：

确定所述待识别语音所属的行业领域；

结合通用语音识别模型、所述个性化语音识别模型、以及与所述行业领域对应的行业语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。

可选的，与待识别语音相关的多媒体数据为包含演讲文档影像的视频；所述确定所述多媒体数据包含的内容信息，包括：

提取所述视频中的关键图像帧；

对所述关键图像帧进行OCR识别，以得到所述多媒体数据包含的内容信息。

可选的，所述提取所述视频中的关键图像帧，包括：

按照预设时间间隔从所述视频中获取多个图像帧；

分别提取多个图像帧的特征；

根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧；

针对每一跳变图像帧，判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同，如果相同，则将所述跳变图像帧确定为关键图像帧。

可选的，所述提取所述视频中的关键图像帧，包括：

按照预设时间间隔从所述视频中获取多个图像帧；

分别提取多个图像帧的特征；

针对每一跳变图像帧，判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同，如果相同，则将所述跳变图像帧确定为备选关键图像帧；

针对每一备选关键图像帧，确定所述备选关键图像帧与已提取出的关键图像帧的相似度，如果所述相似度低于预设的相似度阈值，则将所述备选关键图像帧确定为关键图像帧。

可选的，与待识别语音相关的多媒体数据为演讲文档；所述确定所述多媒体数据包含的内容信息，包括：

解析所述演讲文档，以得到所述演讲文档中每一页对应的第一文本内容；

将所述演讲文档中的每一页转换为图片，对转换得到的每一个图片进行OCR识别，以得到所述演讲文档中每一页对应的第二文本内容；

将所述演讲文档中每一页对应的第一文本内容和第二文本内容进行去重处理，以得到所述演讲文档中每一页对应的文本内容，将所述演讲文档中各页对应的文本内容的集合作为所述多媒体数据包含的内容信息。

一种语音识别装置，包括：

数据获取单元，用于获取与待识别语音相关的多媒体数据；

内容信息确定单元，用于确定所述多媒体数据包含的内容信息；

训练单元，用于基于所述内容信息对预设模型进行训练，得到个性化语音识别模型；

语音识别单元，用于至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。

可选的，所述训练单元包括：第一训练子单元，用于在所述内容信息的数据量达到预设数据量阈值的情况下，将所述内容信息作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。

可选的，所述训练单元包括：辅助语料获取子单元，用于在所述内容信息的数据量小于预设数据量阈值的情况下，基于所述内容信息获取辅助语料；第二训练子单元，用于将所述辅助语料作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。

可选的，所述辅助语料获取子单元包括：第一辅助语料获取模块，用于提取所述内容信息中的关键词，基于所述关键词获取辅助语料；或者，第二辅助语料获取模块，用于确定所述内容信息的摘要标签，基于所述摘要标签获取辅助语料。

可选的，所述语音识别单元具体用于：确定所述待识别语音所属的行业领域；结合通用语音识别模型、所述个性化语音识别模型、以及与所述行业领域对应的行业语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。

可选的，与待识别语音相关的多媒体数据为包含演讲文档影像的视频；所述内容信息确定单元包括：关键图像帧提取子单元，用于提取所述视频中的关键图像帧；识别子单元，用于对所述关键图像帧进行OCR识别，以得到所述多媒体数据包含的内容信息。

可选的，所述关键图像帧提取子单元包括：图像帧获取模块，用于按照预设时间间隔从所述视频中获取多个图像帧；特征提取模块，用于分别提取多个图像帧的特征；跳变图像帧确定模块，用于根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧；第一关键图像帧确定模块，用于针对每一跳变图像帧，判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同，如果相同，则将所述跳变图像帧确定为关键图像帧。

可选的，所述关键图像帧提取子单元包括：图像帧获取模块，用于按照预设时间间隔从所述视频中获取多个图像帧；特征提取模块，用于分别提取多个图像帧的特征；跳变图像帧确定模块，用于根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧；备选关键图像帧确定模块，用于针对每一跳变图像帧，判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同，如果相同，则将所述跳变图像帧确定为备选关键图像帧；第二关键图像帧确定模块，用于针对每一备选关键图像帧，确定所述备选关键图像帧与已提取出的关键图像帧的相似度，如果所述相似度低于预设的相似度阈值，则将所述备选关键图像帧确定为关键图像帧。

可选的，与待识别语音相关的多媒体数据为演讲文档；所述内容信息确定单元包括：第一文档处理子单元，用于解析所述演讲文档，以得到所述演讲文档中每一页对应的第一文本内容；第二文档处理子单元，用于将所述演讲文档中的每一页转换为图片，对转换得到的每一个图片进行OCR识别，以得到所述演讲文档中每一页对应的第二文本内容；去重子单元，用于将所述演讲文档中每一页对应的第一文本内容和第二文本内容进行去重处理，以得到所述演讲文档中每一页对应的文本内容，将所述演讲文档中各页对应的文本内容的集合作为所述多媒体数据包含的内容信息。

一种语音识别设备，包括处理器和存储器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的语音识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音识别方法的各个步骤。

由此可见，本申请的有益效果为：

本申请公开的方案，获取与待识别语音相关的多媒体数据，之后确定该多媒体数据包含的内容信息，由于多媒体数据是与待识别语音相关的，因此基于多媒体数据中的内容信息对预设模型进行训练，得到个性化语音识别模型，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别，得到语音识别结果。本申请借助与待识别语音相关的多媒体数据得到个性化语音识别模型的过程，能够获取例如专业术语等信息作为先验信息，使得个性化语音识别模型具备更好的识别当前领域专业术语的能力，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行识别，能够显著提升语音识别结果的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种语音识别方法的流程图；

图2为本申请实施例公开的一种语音识别装置的结构示意图；

图3为本申请实施例提供的一种语音识别设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请公开一种语音识别方法，该方法可以应用于语音识别设备中。语音识别设备可以是常见的具备数据处理能力的电子设备，如手机、电脑、服务器等。

一种可选的场景为：在学术报告会议或者演讲场合下，对演讲人员说的话进行语音识别，整理成文本形式的会议纪要，或者，基于语音识别结果，进一步进行翻译。在某些场景下，演讲人员的发言会包含一些专业词汇，而通用语音识别模型对专业词汇的识别准确度不高。

为此，本申请公开一种语音识别方法，以提高语音识别的准确度。

参见图1，图1为本申请实施例公开的一种语音识别方法的流程图。该语音识别方法包括：

步骤S101：获取与待识别语音相关的多媒体数据。

在会议或者其他演讲场合，演讲人员参照演讲文档进行演讲，演讲人员的发言是与演讲文档相关的，也就是说，待识别语音是与演讲文档相关的。因此，与待识别语音相关的多媒体数据可以包括：与待识别语音相关的演讲文档。其中，演讲文档包括但不限于PPT文档或者word文档。

另外，在某些情况下，可能无法获取到演讲人员使用的演讲文档。考虑到演讲人员在演讲过程中，往往会通过现场的屏幕播放演讲文档，因此，可以通过图像采集装置获取包含演讲文档的图片或者视频，将采集到的图片或者视频作为与待识别语音相关的多媒体数据。

步骤S102：确定该多媒体数据包含的内容信息。

与待识别语音相关的多媒体数据可能为演讲文档，也可能为对播放演讲文档的屏幕进行拍摄得到的图片或者视频。

可以理解的是，根据与待识别语音相关的多媒体数据的格式，采用相应的方案确定该多媒体数据包含的内容信息。例如，当与待识别语音相关的多媒体数据为图片时，对图片进行OCR识别(Optical Character Recognition，光学字符识别)，以得到该多媒体数据包含的内容信息。例如，当与待识别语音相关的多媒体数据为视频时，从视频中提取关键图像帧，对每个关键图像帧进行OCR识别，以得到该多媒体数据包含的内容信息。例如，当与待识别语音相关的多媒体数据为演讲文档时，直接获取演讲文档中的内容信息。

步骤S103：基于内容信息对预设模型进行训练，得到个性化语音识别模型。

与待识别语音相关的多媒体数据包含的内容信息，是与待识别语音相关的信息，利用该内容信息对预设模型进行训练得到的个性化语音识别模型，具备更好的识别当前领域专业术语的能力。

步骤S104：至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别，得到语音识别结果。

在得到个性化语音识别模型后，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别，与仅利用通用语音识别模型对待识别语音进行语音识别相比，能够显著提高语音识别结果的准确度。

一种示例场景如下：

待识别语音对应的文本为“如果反复高热，体温39°以上，常规退热剂无效；有神经系统表现，如精神萎靡、头痛、呕吐、易惊、肢体抖动、站立不稳等”。

在对待识别语音进行识别的过程中，当识别到“易惊”对应的语音片段时，如果通用语音识别模型采用精确识别，那么得到的候选结果包括“易经”和“易惊”，如果通用语音识别模型采用模糊识别，那么得到的候选结果可能包括“已经”、“意境”、“易经”、“易惊”，由于“易惊”相比其他备选结果出现的频率更低，因此，“易惊”的分数低于其他候选结果的分数，最终得到的该语音片段的识别结果是错误的。

本申请中，利用与待识别语音相关的数据对个性化语音识别模型进行训练，完成训练的个性化语音识别模型在识别到“易惊”对应的语音片段时，备选结果中的“易惊”具有较高的分数，对通用语音识别模型和个性化语音识别模型识别该语音片段得到的各个备选结果的分数进行综合运算，“易惊”的综合分数可能高于其他的备选结果，最终识别出该语音片段对应的是“易惊”。

本申请公开的语音识别方法，获取与待识别语音相关的多媒体数据，之后确定该多媒体数据包含的内容信息，由于多媒体数据是与待识别语音相关的，因此基于多媒体数据中的内容信息对预设模型进行训练，得到个性化语音识别模型，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别。本申请借助与待识别语音相关的多媒体数据得到个性化语音识别模型的过程，能够获取例如专业术语等信息作为先验信息，使得个性化语音识别模型具备更好的识别当前领域专业术语的能力，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行识别，能够显著提升语音识别结果的准确度。

在上文中介绍了与待识别语音相关的多媒体数据可能为多种格式，针对不同格式的多媒体数据，采用对应的方案确定多媒体数据包含的内容信息。

下面结合两个场景进行介绍。

第一个场景：与待识别语音相关的多媒体数据为包含演讲文档影像的视频。

例如，演讲人员的演讲过程中，在屏幕播放演讲文档，通过图像采集装置获取包含演讲文档的影像的视频，将该视频作为与待识别语音相关的多媒体数据。例如，将演讲人员使用的电子设备向投屏设备(如投影仪)传输的视频画面引出一路，作为与待识别语音相关的多媒体数据。

确定与待识别语音相关的多媒体数据包含的内容信息，包括：

A1，提取视频中的关键图像帧；

A2，对关键图像帧进行OCR识别，以得到与待识别语音相关的多媒体数据包含的内容信息。

实施中，按照预设时间间隔从视频中获取多个图像帧，例如，每秒从视频中抽取2个图像帧。分别提取多个图像帧的特征，根据多个图像帧的特征在多个图像帧中确定跳变图像帧。例如，对连续两个图像帧的特征差值与预设阈值进行比较，如果这两个图像帧的特征差值大于预设阈值，则确定这两个图像帧中的第二个图像帧为跳变图像帧。针对每一跳变图像帧，判断跳变图像帧与位于该跳变图像帧之后的连续多个图像帧(如连续两个图像帧)是否相同，如果相同，则将该跳变图像帧作为关键图像帧。

可以理解的是，在多个图像帧中确定出跳变图像帧之后，进一步判断该跳变图像帧与位于该跳变图像帧之后的连续多个图像帧是否相同，在判断结果为相同的情况下，将该跳变图像帧作为关键图像帧，是为了排除演讲文档中的多媒体信息(如动画或者动图)导致的频繁跳帧的问题。

可选的，在得到跳变图像帧之后，针对每一跳变图像帧，判断跳变图像帧与位于该跳变图像帧之后的连续多个图像帧是否相同，如果相同，则将该跳变图像帧作为备选关键图像帧。之后，针对每一备选关键图像帧，确定备选关键图像帧与已提取出的关键图像帧的相似度，如果备选关键图像帧与已提取出的关键图像帧的相似度达到预设的相似度阈值，则舍弃该备选关键图像帧，如果备选关键图像帧与已提取出的关键图像帧的相似度低于预设的相似度阈值，则将该备选关键图像帧作为关键图像帧。

在上述第二个方案中，在多个图像帧中确定出跳变图像帧之后，进一步判断该跳变图像帧与位于该跳变图像帧之后的连续多个图像帧是否相同，在判断结果为相同的情况下，将该跳变图像帧作为备选关键图像帧，利用已提取出的关键图像帧对备选关键图像帧进行二次筛选，是为了避免演讲者重复回翻演讲文档生成的多个重复图像帧均被作为关键图像帧。

例如，在演讲人员演讲的过程中，包含PPT文档的第3页的影像的图像帧按照前述第二个方案被确定为关键图像帧，演讲人员在对PPT文档的第5页进行展示后，回翻到PPT文档的第3页，按照前述第二个方案，此时包含PPT文档的第3页的影像的图像帧被确定为备选关键图像帧，由于在此之前包含PPT文档的第3页的影像的图像帧已经被确定为关键图像帧，因此，执行回翻操作后产生的包含PPT文档的第3页的影像的图像帧不会再次被确定为关键图像帧。

第二个场景：与待识别语音相关的多媒体数据为演讲文档。

确定多媒体数据包含的内容信息，包括：

B1，解析演讲文档，以得到演讲文档中每一页对应的第一文本内容；

B2，将演讲文档中的每一页转换为图片，对转换得到的每一个图片进行OCR识别，以得到演讲文档中每一页对应的第二文本内容；

B3，将演讲文档中每一页对应的第一文本内容和第二文本内容进行去重处理，以得到演讲文档中每一页对应的文本内容，将演讲文档中各页对应的文本内容的集合作为与待识别语音相关的多媒体数据包含的内容信息。

演讲文档为电子文档，如PPT文档或者word文档，对演讲文档进行解析，就可以获得电子文档中每一页对应的文本内容，为了便于区分，称为第一文本内容。另外，将演讲文档中的每一页转换为图片，例如，通过office API将演讲文档中的每一页转换为图片，对转换得到的每一个图片进行OCR识别，得到演讲文档中每一页对应的文本内容，将其称为第二文本内容。需要说明的是，演讲文档中可能包括图片，对演讲文档进行解析，无法获得图片中包含的文字信息，而将演讲文档中的每一页转换为图片后，通过对转换得到的图片进行OCR识别，能够获得演讲文档的图片包含的文字信息。之后，对演讲文档中每一页对应的第一文本内容和第二文本内容进行去重操作，就可以获取每一页对应的完整的文本内容，将演讲文档中各页对应的文本内容的集合作为与待识别语音相关的多媒体数据包含的内容信息。

在本申请的另一个实施例中，对上述实施例中“步骤S103：基于内容信息对预设模型进行训练，得到个性化语音识别模型”的实现过程进行介绍。

第一个方案：基于内容信息对预设模型进行训练，得到个性化语音识别模型包括：在内容信息的数据量达到预设数据量阈值的情况下，将内容信息作为训练数据，对预设模型进行训练，得到个性化语音识别模型。

可以理解的是，对预设模型进行训练需要一定量级的训练数据，在内容信息达到预设数据量阈值的情况下，将内容信息作为训练数据对预设模型进行训练，以得到个性化语音识别模型。对预设模型的训练可以采用有监督的训练方式或者无监督的训练方式。

第二个方案：在内容信息的数据量小于预设数据量阈值的情况下，基于内容信息获取辅助语料，将辅助预料作为训练数据，对预设模型进行训练，得到个性化语音识别模型。

对预设模型进行训练需要一定量级的训练数据，如果内容信息的数据量小于预设数据量阈值，那么可以基于内容信息获取辅助预料，之后将辅助语料作为训练数据对预设模型进行训练，以得到个性化语音识别模型。对预设模型的训练可以采用有监督的训练方式或者无监督的训练方式。

其中，基于内容信息获取辅助预料可以采用多种方案实现。这里对其中的两个方案进行介绍。

第一种，确定内容信息的摘要标签，基于摘要标签获取辅助语料。

其中，内容信息的摘要标签指示内容信息的主题。

实施中，可以人工确定内容信息的摘要标签，之后查找与该摘要标签匹配的辅助语料。可选的，辅助语料为历史精修文稿，历史精修文稿是指：对语音数据进行语音识别得到初级文稿，对该初级文稿进行人工矫正，消除其中识别错误后得到的文稿。

第二种，提取内容信息中的关键词，基于关键词获取辅助语料。

实施中，可以基于内容信息的语义特征提取内容信息中的关键词。

例如，根据TFIDF算法以及命名实体识别算法，识别出内容信息中的关键词，例如：将目标信息中的高频词、人名、地名、专业名词提取为关键词。当然，基于内容信息的语义特征提取内容信息中的关键词并不限定于上述的算法。

另外，演讲人员在制作演讲文档时，通常会将演讲文档中的重要信息调整至相较于其他信息具有更突出的显示效果。例如，将重要信息设置为较大的字体，将重要信息设置为更醒目的颜色，对重要信息进行加粗处理。另外，对演讲文档中部分内容的要点概括通常被设置为标题，在演讲文档中居中放置。

因此，除了基于内容信息的语义特征提取内容信息中的关键词之外，还可以结合内容信息的语义特征和显示参数提取内容信息中的关键词。

可选的，提取内容信息中的关键词，包括：基于内容信息的显示参数确定内容信息中的目标信息；基于目标信息的语义特征识别出目标信息中的关键词。

其中，内容信息的显示参数包括以下任意一项或者多项的组合：内容信息的格式、内容信息在材料中的布局、以及内容信息在材料中的位置。

内容信息的格式包括但不限于字体大小、字体类型、字体有无加粗、字体有无下划线、字体是否倾斜、字体颜色。内容信息在材料中的布局指示内容信息为材料中的标题、正文或者注解。内容信息在材料中的位置指示了内容信息在材料中的位置信息。

在上述提取内容信息中关键词的方案中，首先基于内容信息的显示参数，确定内容信息中的目标信息，可以理解的是，目标信息中的词汇为关键词的可能性较大，之后基于目标信息的语义特征识别出目标信息中的关键词。

实施中，可以根据TFIDF算法以及命名实体识别算法，识别出目标信息中的关键词，例如：将目标信息中的高频词、人名、地名、专业名词提取为关键词。

在上述提取内容信息中关键词的方案中，同时利用了内容信息的语义特征和显示参数，结合两类特征提取到的关键词更加准确，从而能够获取相关性更高的辅助语料，使得训练得到的个性化语音识别模型具备更好的识别当前领域专业术语的能力，进一步提升了语音识别结果的准确度。

实施中，可以利用爬虫技术在网络中抓取辅助预料。

在本申请的另一个实施例中，对上述实施例中“步骤S106：至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别，得到语音识别结果”的实现过程，进行介绍。

第一种方案：结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别，得到语音识别结果。

训练通用语音识别模型和个性化语音识别模型所使用的训练样本是不同的，具体的，训练个性化语音识别模式所使用的训练样本是与待识别语音相关的数据，如与待识别语音相关的多媒体数据中的内容信息，或者基于该内容信息获得的辅助语料，而训练通用语音识别模型所使用的训练样本是不区分领域的数据。

这使得通用语音识别模型和个性化语音识别模型针对同一语音片段得到的备选结果通常是不同的，例如，个性化语音识别模型得到的备选结果少于通用语音识别模型得到的备选结果，并且通用语音识别模型和个性化语音识别模型针对同一语音片段得到的同一备选结果的分数通常是不同的。例如，针对语音片段“yijing”，通用语音识别模型进行模糊识别得到的备选结果可能包括“已经”、“意境”、“易经”和“易惊”，个性化语音识别模型得到的备选结果包括“已经”和“易惊”，并且个性化语音识别模型得到的备选结果“已经”和“易惊”的分数与通用语音识别模型得到的备选结果“已经”和“易惊”的分数不同。

结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别，得到语音识别结果，可以采用如下方案：

利用通用语音识别模型和个性化语音识别模型对待识别语音中的各语音片段进行识别，得到各语音片段对应的备选结果和备选结果的分数；针对每一语音片段，基于通用语音识别模型和个性化语音识别模型的权重、以及通用语音识别模型和个性化语音识别模型得到的该语音片段对应的备选结果的分数，计算该语音片段对应的各备选结果的加权分数，将加权分数最高的备选结果作为该语音片段的语音识别结果；基于各语音片段的语音识别结果得到待识别语音的语音识别结果。

例如：将待识别语音划分为三个语音片段，利用通用语音识别模型和个性化语音识别模型对三个语音片段进行识别，得到三个语音片段对应的备选结果和各备选结果的分数，之后分别确定每一个语音片段的语音识别结果，基于这三个语音片段的语音识别结果得到待识别语音的语音识别结果。

这里对确定一个语音片段的语音识别结果的方案进行说明：

利用通用语音识别模型对该语音片段进行识别得到的备选结果包括备选结果11、备选结果12和备选结果13，这三个备选结果的分数依次为分数21、分数22和分数23。利用个性化语音识别模型对该语音片段进行识别得到的备选结果包括备选结果11和备选结果13，这两个备选结果的分数依次为分数24和分数25。通用语音识别模型的权重配置为0.8，个性化语音识别模型的权重配置为0.2。那么，备选结果11的加权分数为：分数21*0.8+分数24*0.2；备选结果12的加权分数为：分数22*0.8；备选结果13的加权分数为：分数23*0.8+分数25*0.2。将这三个备选结果中加权分数最高的备选结果确定为该语音片段的语音识别结果。

第二种方案：确定待识别语音所属的行业领域；结合通用语音识别模型、个性化语音识别模型、以及该行业领域对应的行业语音识别模型对待识别语音进行语音识别，得到语音识别结果。

需要说明的是，训练行业语音识别模型所使用的训练样本是该行业内的语料。通用语音识别模型、行业语音识别模型和个性化语音识别模型针对同一语音片段得到的备选结果通常是不同的，例如，行业语音识别模型和个性化语音识别模型得到的备选结果少于通用语音识别模型得到的备选结果，并且通用语音识别模型、行业语音识别模型和个性化语音识别模型针对同一语音片段得到的同一备选结果的分数通常是不同的。

利用通用语音识别模型、行业语音识别模型和个性化语音识别模型对待识别语音中的各语音片段进行识别，得到各语音片段对应的备选结果和备选结果的分数；针对每一语音片段，基于通用语音识别模型、行业语音识别模型和个性化语音识别模型的权重、以及通用语音识别模型、行业语音识别模型和个性化语音识别模型得到的该语音片段对应的备选结果的分数，计算该语音片段对应的各备选结果的加权分数，将加权分数最高的备选结果作为该语音片段的语音识别结果；基于各语音片段的语音识别结果得到待识别语音的语音识别结果。

例如：将待识别语音划分为四个语音片段，利用通用语音识别模型、行业语音识别模型和个性化语音识别模型对四个语音片段进行识别，得到四个语音片段对应的备选结果和各备选结果的分数，之后分别确定每一个语音片段的语音识别结果，基于这四个语音片段的语音识别结果得到待识别语音的语音识别结果。

这里对确定一个语音片段的语音识别结果的方案进行说明：

利用通用语音识别模型对该语音片段进行识别得到的备选结果包括备选结果31、备选结果32和备选结果33，这三个备选结果的分数依次为分数41、分数42和分数43。利用行业语音识别模型对该语音片段进行识别得到的备选结果包括备选结果31和备选结果33，这两个备选结果的分数依次为分数44和分数45。利用个性化语音识别模型对该语音片段进行识别得到的备选结果包括备选结果31和备选结果33，这两个备选结果的分数依次为分数46和分数47。通用语音识别模型的权重配置为0.6，行业语音识别模型的权重配置为0.2，个性化语音识别模型的权重配置为0.2。那么，备选结果31的加权分数为：分数41*0.6+分数44*0.2+分数46*0.2；备选结果32的加权分数为：分数42*0.6；备选结果33的加权分数为：分数43*0.6+分数45*0.2+分数47*0.2。将这三个备选结果中加权分数最高的备选结果确定为该语音片段的语音识别结果。

本申请实施例还提供一种语音识别装置，下面对本申请实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参考。

参见图2，图2为本申请实施例公开的一种语音识别装置的结构示意图。如图2所示，该装置可以包括数据获取单元201、内容信息确定单元202、训练单元203和语音识别单元204。

数据获取单元201，用于获取与待识别语音相关的多媒体数据。

内容信息确定单元202，用于确定所述多媒体数据包含的内容信息。

训练单元203，用于基于所述内容信息对预设模型进行训练，得到个性化语音识别模型。

语音识别单元204，用于至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。

本申请公开的语音识别装置，获取与待识别语音相关的多媒体数据，之后确定该多媒体数据包含的内容信息，由于多媒体数据是与待识别语音相关的，因此基于多媒体数据中的内容信息对预设模型进行训练，得到个性化语音识别模型，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行语音识别。本申请借助与待识别语音相关的多媒体数据得到个性化语音识别模型的过程，能够获取例如专业术语等信息作为先验信息，使得个性化语音识别模型具备更好的识别当前领域专业术语的能力，至少结合通用语音识别模型和个性化语音识别模型对待识别语音进行识别，能够显著提升语音识别结果的准确度。

在一种可能的实现方式中，训练单元203包括：第一训练子单元，用于在所述内容信息的数据量达到预设数据量阈值的情况下，将所述内容信息作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。

在一种可能的实现方式中，训练单元203包括：辅助语料获取子单元，用于在所述内容信息的数据量小于预设数据量阈值的情况下，基于所述内容信息获取辅助语料；第二训练子单元，用于将所述辅助语料作为训练数据，对所述预设模型进行训练，以得到个性化语音识别模型。

可选的，上述的辅助语料获取子单元包括：第一辅助语料获取模块，用于提取所述内容信息中的关键词，基于所述关键词获取辅助语料。

可选的，上述的辅助语料获取子单元包括：第二辅助语料获取模块，用于确定所述内容信息的摘要标签，基于所述摘要标签获取辅助语料。

在一种可能的实现方式中，语音识别单元204具体用于：结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。

在一种可能的实现方式中，语音识别单元204具体用于：确定所述待识别语音所属的行业领域；结合通用语音识别模型、所述个性化语音识别模型、以及与所述行业领域对应的行业语音识别模型对所述待识别语音进行语音识别，得到语音识别结果。

在一种可能的实现方式中，与待识别语音相关的多媒体数据为包含演讲文档影像的视频。相应的，上述的内容信息确定单元202包括：关键图像帧提取子单元，用于提取所述视频中的关键图像帧；识别子单元，用于对所述关键图像帧进行OCR识别，以得到所述多媒体数据包含的内容信息。

可选的，上述的关键图像帧提取子单元包括：图像帧获取模块，用于按照预设时间间隔从所述视频中获取多个图像帧；特征提取模块，用于分别提取多个图像帧的特征；跳变图像帧确定模块，用于根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧；第一关键图像帧确定模块，用于针对每一跳变图像帧，判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同，如果相同，则将所述跳变图像帧确定为关键图像帧。

可选的，上述的关键图像帧提取子单元包括：图像帧获取模块，用于按照预设时间间隔从所述视频中获取多个图像帧；特征提取模块，用于分别提取多个图像帧的特征；跳变图像帧确定模块，用于根据所述多个图像帧的特征在所述多个图像帧中确定跳变图像帧；备选关键图像帧确定模块，用于针对每一跳变图像帧，判断所述跳变图像帧与位于所述跳变图像帧之后的连续多个图像帧是否相同，如果相同，则将所述跳变图像帧确定为备选关键图像帧；第二关键图像帧确定模块，用于针对每一备选关键图像帧，确定所述备选关键图像帧与已提取出的关键图像帧的相似度，如果所述相似度低于预设的相似度阈值，则将所述备选关键图像帧确定为关键图像帧。

在一种可能的实现方式中，与待识别语音相关的多媒体数据为演讲文档。相应的，上述的内容信息确定单元202包括：第一文档处理子单元，用于解析所述演讲文档，以得到所述演讲文档中每一页对应的第一文本内容；第二文档处理子单元，用于将所述演讲文档中的每一页转换为图片，对转换得到的每一个图片进行OCR识别，以得到所述演讲文档中每一页对应的第二文本内容；去重子单元，用于将所述演讲文档中每一页对应的第一文本内容和第二文本内容进行去重处理，以得到所述演讲文档中每一页对应的文本内容，将所述演讲文档中各页对应的文本内容的集合作为所述多媒体数据包含的内容信息。

本申请实施例还提供一种语音识别设备。参见图3，图3示出了语音识别设备的硬件结构，该语音识别设备可以包括：至少一个处理器301，至少一个通信接口302，至少一个存储器303和至少一个通信总线304。

在本申请实施例中，处理器301、通信接口302、存储器303、通信总线304的数量为至少一个，且处理器301、通信接口302、存储器303通过通信总线304完成相互间的通信。

处理器301可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等。

存储器303可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器。

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取与待识别语音相关的多媒体数据；

确定所述多媒体数据包含的内容信息；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取与待识别语音相关的多媒体数据；

确定所述多媒体数据包含的内容信息；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取与待识别语音相关的多媒体数据；

确定所述多媒体数据包含的内容信息；

2.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，包括：

3.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述内容信息对预设模型进行训练，得到个性化语音识别模型，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述基于所述内容信息获取辅助预料，包括：

5.根据权利要求1所述的语音识别方法，其特征在于，所述至少结合通用语音识别模型和所述个性化语音识别模型对所述待识别语音进行语音识别，得到语音识别结果，包括：

确定所述待识别语音所属的行业领域；

6.根据权利要求1所述的语音识别方法，其特征在于，与待识别语音相关的多媒体数据为包含演讲文档影像的视频；所述确定所述多媒体数据包含的内容信息，包括：

提取所述视频中的关键图像帧；

对所述关键图像帧进行光学字符识别，以得到所述多媒体数据包含的内容信息。

7.根据权利要求6所述的语音识别方法，其特征在于，所述提取所述视频中的关键图像帧，包括：

按照预设时间间隔从所述视频中获取多个图像帧；

分别提取所述多个图像帧的特征；

8.根据权利要求6所述的语音识别方法，其特征在于，所述提取所述视频中的关键图像帧，包括：

按照预设时间间隔从所述视频中获取多个图像帧；

分别提取所述多个图像帧的特征；

9.根据权利要求1所述的语音识别方法，其特征在于，与待识别语音相关的多媒体数据为演讲文档；所述确定所述多媒体数据包含的内容信息，包括：

将所述演讲文档中的每一页转换为图片，对转换得到的每一个图片进行光学字符识别，以得到所述演讲文档中每一页对应的第二文本内容；

10.一种语音识别装置，其特征在于，包括：

数据获取单元，用于获取与待识别语音相关的多媒体数据；

11.一种语音识别设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至9中任一项所述的语音识别方法的各个步骤。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至9中任一项所述的语音识别方法的各个步骤。