CN110164445A

CN110164445A - 语音识别方法、装置、设备及计算机存储介质

Info

Publication number: CN110164445A
Application number: CN201810149483.XA
Authority: CN
Inventors: 杨占磊; 李威; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2019-08-23
Anticipated expiration: 2038-02-13
Also published as: CN110164445B

Abstract

本发明实施例公开了一种语音识别方法、装置、设备及计算机存储介质。该方法包括：获得第一用户的第一语音数据，第一语音数据对应于第一文本数据；基于第一语音数据，确定与第一文本数据相似的第二文本数据、以及与第一语音数据相似的第二语音数据；依据第一文本数据和第二文本数据训练第一用户对应的语言模型；并依据第一语音数据和第二语音数据训练第一用户对应的声学模型。本发明实施例的语音识别方法、装置、设备及计算机存储介质，能够提升语音识别效果和提高语音识别模型的可扩展性。

Description

语音识别方法、装置、设备及计算机存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及计算机存储介质。

背景技术

自动语音识别(Automatic Speech Recognition，ASR)是将人类的语音中的词汇内容转换为计算机可读的输入。ASR目前被广泛应用于搜索、游戏控制、翻译等领域。

语音识别系统性能受很多因素的影响，包括不同说话人、口音、信道传输、语速、环境噪音等等。根据这些因素的来源，针对性地对语音识别系统进行调整，可以降低上述因素对语音识别系统性能的影响，改善语音识别准确率。

目前，对语音识别系统进行调整一般是在基础模型的基础上，采用用户给定的语音数据进行调优。通常情况下，用户一般只会提供少量的语音数据用于优化模型，直接使用这些数据会导致以下两个问题：

问题一：由于数据量少，在模型训练的过程中为了保证收敛性，需要做很多平滑处理，语音识别效果提升不明显。

问题二：为了在少量的数据上综合考虑口音、语速、信道传输、说话内容等影响因素，需要非常精细的调整语音识别系统的各个模块。精细调整各模块需要技术人员具备相当强的经验，整个调整过程需要大量的人工参与，很难实现大规模应用，可扩展性不强。

发明内容

本发明实施例提供一种语音识别方法、装置、设备及计算机存储介质，能够提升语音识别效果和提高语音识别模型的可扩展性。

一方面，本发明实施例提供了一种语音识别方法，方法包括：

获得第一用户的第一语音数据，第一语音数据对应于第一文本数据；

基于第一语音数据，确定与第一文本数据相似的第二文本数据、以及与第一语音数据相似的第二语音数据；

依据第一文本数据和第二文本数据训练第一用户对应的语言模型；

依据第一语音数据和第二语音数据训练第一用户对应的声学模型。

另一方面，本发明实施例提供了一种语音识别装置，装置包括：

获得模块，用于获得第一用户的第一语音数据，第一语音数据对应于第一文本数据；

第一确定模块，用于基于第一语音数据，确定与第一文本数据相似的第二文本数据；

第二确定模块，用于确定与第一语音数据相似的第二语音数据；

第一训练模块，用于依据第一文本数据和第二文本数据训练第一用户对应的语言模型；

第二训练模块，用于依据第一语音数据和第二语音数据训练第一用户对应的声学模型。

再一方面，本发明实施例提供了一种语音识别设备，设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现本发明实施例提供的语音识别方法。

再一方面，本发明实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令；计算机程序指令被处理器执行时实现本发明实施例提供的语音识别方法。

本发明实施例的语音识别方法、装置、设备及计算机存储介质，能够提升语音识别效果和提高语音识别模型的可扩展性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提供的训练语言模型和声学模型的过程示意图；

图2示出了本发明实施例提供的语音识别方法的流程示意图；

图3示出了本发明实施例提供的语音识别装置的结构示意图；

图4示出了能够实现根据本发明实施例的语音识别方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

鉴于利用现有的基于较少的语音数据训练出的语音识别模型，语音识别效果差，语音识别模型的可扩展性不强的问题，本发明实施例提供了一种语音识别方法，方法包括：获得第一用户的第一语音数据，第一语音数据对应于第一文本数据；基于第一语音数据，确定与第一文本数据相似的第二文本数据、以及与第一语音数据相似的第二语音数据；依据第一文本数据和第二文本数据训练第一用户对应的语言模型；依据第一语音数据和第二语音数据训练第一用户对应的声学模型。本发明实施例的语音识别方法，在训练用户对应的语音识别模型时，仅需获得用户的一个语音数据，即可训练出与用户对应的语音识别模型，利用该语音识别模型能提升对用户的语音识别效果，并且利用本发明实施例的语音识别方法训练语音识别模型，能提高语音识别模型的可扩展性。

通常情况下，语音识别模型包括语言模型和声学模型，其中，声学模型对应于语音到音节概率的计算，语言模型对应于音节到字概率的计算，通过声学模型和语音模型结合的语音识别模型能够识别出语音数据中的字，语音数据中的字被识别出后，即识别出了语音数据中的语音内容。

可以理解的是，本发明实施例提供的语音识别方法可以应用于语音支付场景中，也可以应用于语音搜索场景中，等等。

下面以本发明实施例提供的语音识别方法应用于语音支付场景为例进行说明。

当用户购买某一产品进行支付、且用户选择语音支付时，接收用户语音数据并获得用户的标识信息，通过用户的标识信息，检测是否存在与用户对应的语音识别模型。

若检测到存在与用户对应的语音识别模型，则利用与用户对应的语音识别模型识别用户语音数据，进而根据识别的出的语音内容进行相应的处理。比如识别出用户语音数据中的语音内容为“取消支付”，则退出支付界面；再比如识别出用户语音数据中的语音内容为一串由数字和字母组成的字符串，则比较该字符串与用户的支付密码是否相同，如果相同，则进入支付成功界面，如果不相同，则提示用户密码不对，提示用户重新说支付密码，等等。

若检测到不存在与用户对应的语音识别模型，则基于用户语音数据，训练用户对应的语言模型和声学模型，当用户的语言模型和声学模型训练完成后，此时利用训练完成的用户对应的语言模型和声学模型对用户语音数据进行识别。

基于用户语音数据，训练用户对应的语言模型和声学模型的过程，如图1所示，图1示出了本发明实施例提供的训练语言模型和声学模型的过程示意图。

在训练语音模型时，首先从用户语音数据中通过人工标注技术，获得用户语音数据对应的文本数据，再从文本数据库中筛选与所获得的文本数据相似的文本数据。

具体的，在从文本数据库中筛选与所获得的文本数据相似的文本数据时，可以将文本数据库中的文本数据与所获得的文本数据进行分词处理，得到每一文本数据对应的关键字集合；将基于关键字集合计算得到的词向量相似度中不小于词向量相似度阈值的词向量相似度对应的文本数据，确定为与所获得的文本数据相似的文本数据。

在本发明的一个实施例中，上述的词向量相似度可以为杰卡德(Jaccard)系数，Jaccard系数为两个集合交集的大小与两个集合并集的大小的比值。在将文本数据库中的文本数据与所获得的文本数据进行分词处理时，可采用字符串匹配分词法，也可以采用词义分词法，还可以采用统计分词法。本发明实施例并不对分词处理所采用的方法进行限定，任何可用的分词方法均可应用于本发明实施例中。

当筛选出与所获得的文本数据相似的文本数据后，利用所获得的文本数据以及筛选得到的文本数据，训练与用户对应的语音模型。

在本发明的一个实施例中，在从文本数据库中筛选与所获得的文本数据相似的文本数据时，还可以通过基于关键词的检索算法、基于空间向量的余弦算法或基于语音相似度的文本相似度算法等，从文本数据库中筛选与所获得的文本数据相似的文本数据。

在训练声学模型时，先通过语音分析技术，获得用户语音数据的属性信息，基于所获得的属性信息，从语音数据库中筛选与用户语音数据相似的语音数据。当筛选与用户语音数据相似的语音数据后，利用用户语音数据以及筛选得到的语音数据，训练与用户对应的语音模型。

在训练声学模型时，还可以基于语言模型训练过程中，所获得的与用户语音数据相似对应的文本数据相似的文本数据进行训练。具体的，从语音数据库中获得与用户语音数据相似对应的文本数据相似的文本数据所对应的语音数据，再基于语音数据的属性信息，从所获得语音数据中筛选与用户语音数据相似的语音数据。当筛选与用户语音数据相似的语音数据后，利用用户语音数据以及筛选得到的语音数据，训练与用户对应的语音模型。

本发明实施例的属性信息可以包括：编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄等。

示例性的，以编解码格式为例，从语音数据库中或者从语音数据库中获得与用户语音数据相似对应的文本数据相似的文本数据所对应的语音数据中，筛选与用户语音数据的编解码格式相同的语音数据，将用户语音数据的编解码格式相同的语音数据作为与用户语音数据相似的语音数据。

再示例性的，以语音音量为例，首先依据用户语音数据，确定用户语音音量，假设确定出用户语音音量为20分贝。则从语音数据库中或者从语音数据库中获得与用户语音数据相似对应的文本数据相似的文本数据所对应的语音数据中，筛选语音音量比如在19分贝至21分贝的语音数据，将语音音量在19分贝至21分贝的语音数据作为与用户语音数据相似的语音数据。

再示例性的，以编解码格式和语音音量为例，可以依据用户语音数据，确定用户语音音量，假设确定出用户语音音量为20分贝。则从语音数据库中或者从语音数据库中获得与用户语音数据相似对应的文本数据相似的文本数据所对应的语音数据中，筛选语音音量比如在19分贝至21分贝的语音数据，然后再从筛选出的语音音量在19分贝至21分贝的语音数据中，筛选与用户语音数据的编解码格式相同的语音数据，将此时筛选出的语音数据作为与用户语音数据相似的语音数据。

依据编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄中的一种或几种组合进行语音数据的筛选过程，与上述以编解码格式、语音音量、编解码格式和语音音量进行语音数据的筛选过程相同或相似。本发明实施例在此不对其进行赘述。

在本发明的一个实施例中，在依据用户语音数据和筛选出的语音数据训练用户对应的声学模型时，可以将筛选出的语音数据的属性信息修改为用户语音数据的属性信息，即修改筛选出的语音数据的属性信息使之与用户语音数据的属性信息相同，依据用户语音数据以及修改属性后的所筛选出的语音数据，训练用户对应的声学模型。

在本发明的一个实施例中，在训练声学模型时，可以通过特征提取和训练并行的方式进行声学模型的训练。即在某一时刻T时，对T时刻的用户语音数据进行特征提取，利用T-1时刻所提取的特征进行训练。通过特征提取和训练并行的方式来提高模型训练速度。

当训练出用户对应的语言模型和声学模型后，建立用户的标识信息与包含训练出的用户对应的语言模型和声学模型的语音识别模型的对应关系。

当再次接收到用户语音数据时，通过用户的标识信息，获得与用户的标识信息具有对应关系的语音识别模型，即获得用户对应的语音识别模型，利用获得的语音识别模型对用户语音数据进行识别。

本发明实施例的语音识别方法，无需用户提供大量的语音数据，仅需用户的一条语音数据，即可训练与用户对应的语音识别模型，能够提高语音识别模型的可扩展性。并且所训练的模型是依据与用户语音数据相似的语音数据以及与用户语音数据对应的文本数据相似的文本数据训练得到的，能够提升语音识别效果。

基于上述的过程，本发明实施例提供的语音识别方法可以归纳为图2所示的步骤。图2示出了本发明实施例提供的语音识别方法的流程示意图。其可以包括：

S201：获得第一用户的第一语音数据，第一语音数据对应于第一文本数据。

S202：基于第一语音数据，确定与第一文本数据相似的第二文本数据、以及与第一语音数据相似的第二语音数据。

S203：依据第一文本数据和第二文本数据训练第一用户对应的语言模型。

S204：依据第一语音数据和第二语音数据训练第一用户对应的声学模型。

在本发明的一个实施例中，确定与第一文本数据相似的第二文本数据，可以包括：利用人工标注技术，获得与第一语音数据对应的第一文本数据；从文本数据库中筛选与第一文本数据相似的第二文本数据。

在本发明的一个实施例中，从文本数据库中筛选与第一文本数据相似的第二文本数据，可以包括：将文本数据库中的文本数据与第一文本数据进行分词处理，得到每一文本数据对应的关键字集合；将基于关键字集合计算得到的词向量相似度中不小于词向量相似度阈值的词向量相似度对应的文本数据，确定为与第一文本数据相似的第二文本数据。

在本发明的一个实施例中，词向量相似度可以包括：杰卡德系数。

在本发明的一个实施例中，确定与第一语音数据相似的第二语音数据，可以包括：从语音数据库中获得第二文本数据对应的语音数据；基于语音数据的属性信息，从所获得的语音数据中筛选与第一语音数据相似的第二语音数据。

在本发明的一个实施例中，确定与第一语音数据相似的第二语音数据，可以包括：基于语音数据的属性信息，从语音数据库中筛选与第一语音数据相似的第二语音数据。

在本发明的一个实施例中，属性信息可以包括以下所列项中的一种或几种组合：编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄。

在本发明的一个实施例中，依据第一语音数据和第二语音数据训练第一用户对应的声学模型，可以包括：将第二语音数据的属性信息修改为第一语音数据的属性信息；依据第一语音数据以及修改属性信息后的第二语音数据，训练第一用户对应的声学模型。

基于上述的过程，本发明实施例还提供一种语音识别装置。

如图3所示，图3示出了本发明实施例提供的语音识别装置的结构示意图。其可以包括：

获得模块301，用于获得第一用户的第一语音数据，第一语音数据对应于第一文本数据。

第一确定模块302，用于确定与第一文本数据相似的第二文本数据。

第二确定模块303，用于确定与第一语音数据相似的第二语音数据。

第一训练模块304，用于依据第一文本数据和第二文本数据训练第一用户对应的语言模型。

第二训练模块305，用于依据第一语音数据和第二语音数据训练第一用户对应的声学模型。

在本发明的一个实施例中，第一确定模块302，可以包括：

第一获得单元，用于利用人工标注技术，获得与第一语音数据对应的第一文本数据；

第一筛选单元，用于从文本数据库中筛选与第一文本数据相似的第二文本数据。

在本发明的一个实施例中，第一筛选单元，具体可以用于：

将文本数据库中的文本数据与第一文本数据进行分词处理，得到每一文本数据对应的关键字集合；

将基于关键字集合计算得到的词向量相似度中不小于词向量相似度阈值的词向量相似度对应的文本数据，确定为与第一文本数据相似的第二文本数据。

在本发明的一个实施例中，第二确定模块303，可以包括：

第二获得单元，用于从语音数据库中获得第二文本数据对应的语音数据；

第二筛选单元，用于基于语音数据的属性信息，从所获得的语音数据中筛选与第一语音数据相似的第二语音数据。

在本发明的一个实施例中，第二确定模块，具体可以用于：

基于语音数据的属性信息，从语音数据库中筛选与第一语音数据相似的第二语音数据。

在本发明的一个实施例中，第二训练模块305，具体可以用于：

将第二语音数据的属性信息修改为第一语音数据的属性信息；

依据第一语音数据以及修改属性信息后的第二语音数据，训练第一用户对应的声学模型。

另外，结合图1至图3描述的本发明实施例的语音识别方法和装置可以由语音识别设备来实现。图4示出了能够实现根据本发明实施例的语音识别方法和装置的计算设备的示例性硬件架构的结构图。如图4所示，计算设备400包括输入设备401、输入接口402、中央处理器403、存储器404、输出接口405、以及输出设备406。其中，输入接口402、中央处理器403、存储器404、以及输出接口405通过总线410相互连接，输入设备401和输出设备406分别通过输入接口402和输出接口405与总线410连接，进而与计算设备400的其他组件连接。

具体地，输入设备401接收来自外部的输入信息，并通过输入接口402将输入信息传送到中央处理器403；中央处理器403基于存储器404中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器404中，然后通过输出接口405将输出信息传送到输出设备406；输出设备406将输出信息输出到计算设备400的外部供用户使用。

也就是说，图4所示的计算设备也可以被实现为语音识别设备，该语音识别设备可以包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1至图3描述的语音识别方法和装置。

本发明实施例还提供一种计算机存储介质，该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现本发明实施例提供的语音识别方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获得第一用户的第一语音数据，所述第一语音数据对应于第一文本数据；

基于所述第一语音数据，确定与所述第一文本数据相似的第二文本数据、以及与所述第一语音数据相似的第二语音数据；

依据所述第一文本数据和所述第二文本数据训练所述第一用户对应的语言模型；

依据所述第一语音数据和所述第二语音数据训练所述第一用户对应的声学模型。

2.根据权利要求1所述的方法，其特征在于，所述确定与所述第一文本数据相似的第二文本数据，包括：

利用人工标注技术，获得与所述第一语音数据对应的第一文本数据；

从文本数据库中筛选与所述第一文本数据相似的第二文本数据。

3.根据权利要求2所述的方法，其特征在于，所述从文本数据库中筛选与所述第一文本数据相似的第二文本数据，包括：

将所述文本数据库中的文本数据与所述第一文本数据进行分词处理，得到每一文本数据对应的关键字集合；

将基于所述关键字集合计算得到的词向量相似度中不小于词向量相似度阈值的词向量相似度对应的文本数据，确定为与所述第一文本数据相似的第二文本数据。

4.根据权利要求3所述的方法，其特征在于，所述词向量相似度包括：杰卡德系数。

5.根据权利要求2所述的方法，其特征在于，确定与所述第一语音数据相似的第二语音数据，包括：

从语音数据库中获得所述第二文本数据对应的语音数据；

基于语音数据的属性信息，从所获得的语音数据中筛选与所述第一语音数据相似的第二语音数据。

6.根据权利要求1所述的方法，其特征在于，确定与所述第一语音数据相似的第二语音数据，包括：

基于语音数据的属性信息，从语音数据库中筛选与所述第一语音数据相似的第二语音数据。

7.根据权利要求5或6所述的方法，其特征在于，所述属性信息包括以下所列项中的一种或几种组合：

编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄。

8.根据权利要求5或6所述的方法，其特征在于，所述依据所述第一语音数据和所述第二语音数据训练所述第一用户对应的声学模型，包括：

将所述第二语音数据的属性信息修改为所述第一语音数据的属性信息；

依据所述第一语音数据以及修改属性信息后的所述第二语音数据，训练所述第一用户对应的声学模型。

9.一种语音识别装置，其特征在于，所述装置包括：

获得模块，用于获得第一用户的第一语音数据，所述第一语音数据对应于第一文本数据；

第一确定模块，用于基于所述第一语音数据，确定与所述第一文本数据相似的第二文本数据；

第二确定模块，用于确定与所述第一语音数据相似的第二语音数据；

第一训练模块，用于依据所述第一文本数据和所述第二文本数据训练所述第一用户对应的语言模型；

第二训练模块，用于依据所述第一语音数据和所述第二语音数据训练所述第一用户对应的声学模型。

10.根据权利要求9所述的装置，其特征在于，所述第一确定模块，包括：

第一获得单元，用于利用人工标注技术，获得与所述第一语音数据对应的第一文本数据；

第一筛选单元，用于从文本数据库中筛选与所述第一文本数据相似的第二文本数据。

11.根据权利要求10所述的装置，其特征在于，所述第一筛选单元，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述词向量相似度包括：杰卡德系数。

13.根据权利要求10所述的装置，其特征在于，所述第二确定模块，包括：

第二获得单元，用于从语音数据库中获得所述第二文本数据对应的语音数据；

第二筛选单元，用于基于语音数据的属性信息，从所获得的语音数据中筛选与所述第一语音数据相似的第二语音数据。

14.根据权利要求9所述的装置，其特征在于，所述第二确定模块，具体用于：

15.根据权利要求13或14所述的装置，其特征在于，所述属性信息包括以下所列项中的一种或几种组合：

16.根据权利要求13或14所述的装置，其特征在于，所述第二训练模块，具体用于：

17.一种语音识别设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-8任意一项所述的语音识别方法。

18.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令；所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的语音识别方法。