CN105489221A

CN105489221A - 一种语音识别方法及装置

Info

Publication number: CN105489221A
Application number: CN201510876187.6A
Authority: CN
Inventors: 欧光欣
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-04-13
Anticipated expiration: 2035-12-02
Also published as: CN105489221B

Abstract

本发明公开了一种语音识别方法及装置，用于实现在确保语音识别的准确率的同时，能够减轻服务器的负载压力。所述方法包括：接收当前登录的用户输入的语音信息；根据所述用户的当前登录帐号，获取与所述用户相对应的参数配置文件，所述参数配置文件包括个性化声学特征参数和个性化语言特征参数；根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型；根据所述个性化语音模型，识别所述语音信息。该技术方案不仅提高语音识别的准确率，且使得服务器端无需存储每个用户的个性化语音模型，而只需存储每个用户的参数配置文件和一个通用语音模型即可，从而减轻了服务器的负载压力。

Description

一种语音识别方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种语音识别方法及装置。

背景技术

目前，随着电子科技的发展，语音输入越来越被人们推崇，语音输入是通过语音识别将人说话的内容转换为文本的一种输入方式。很多应用中的语音输入还局限在语音输入语音输出，还不能很好的将语音输入转化为文字。由于在实际应用中，语音识别面对的环境十分复杂，需要处理各种不同领域的说话内容，识别性能很难达到百分之百，尤其是对于一些特殊领域，例如医疗领域、金融领域、通信领域等，存在很多专业术语在语音输入中出现的几率较低，电子设备将说话的内容转换为文本时也很难准确地将语音转换为专业术语。

针对上述问题，相关技术人员逐渐将不同领域的专业术语或文章添加到通用语言数据库中，以使通用语言数据库能够识别各个领域的用户的语音输入内容。但是，这种方法将会使得通用语言数据库越来越庞大，承载的数据越来越多，很难有针对性地在各个领域中实施，且由于不同用户往往有不同的发声习惯，因此，仅采用一个通用语言数据库来识别不同用户的语音输入的准确率并不高，存在很大的提升空间。

发明内容

本发明实施例提供一种语音识别方法及装置，用于实现在确保语音识别的准确率的同时，能够减轻服务器的负载压力。

一种语音识别方法，包括以下步骤：

接收当前登录的用户输入的语音信息；

根据所述用户的当前登录帐号，获取与所述用户相对应的参数配置文件，所述参数配置文件包括个性化声学特征参数和个性化语言特征参数；

根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型；

根据所述个性化语音模型，识别所述语音信息。

本发明实施例的一些有益效果可以包括：

上述技术方案，通过在用户登录后获取用户对应的参数配置文件，并根据参数配置文件和预设通用语音模型生成用户的个性化语音模型，进而识别用户输入的语音信息，不仅使得终端能够结合用户的个性化声学特征和语言特征来识别语音信息，从而提高语音识别的准确率，且使得服务器端无需存储每个用户的个性化语音模型，而只需存储每个用户的参数配置文件和一个通用语音模型即可，从而减轻了服务器的负载压力。

在一个实施例中，所述方法还包括：

采集所述用户的样本语音数据；

从所述样本语音数据中获取所述用户的个性化声学特征参数。

该实施例中，通过采集用户的样本语音数据来获取用户的个性化声学特征参数，使得用户的个性化声学特征参数更加准确，从而提高语音识别的准确率。

在一个实施例中，所述个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。

该实施例中，通过获取能够表征用户声学特征的参数，使得用户的个性化声学特征参数更加准确，从而提高语音识别的准确率。

在一个实施例中，所述方法还包括：

采集预设领域的特征数据，所述特征数据包括所述预设领域的特定术语、所述预设领域的文章、语义关联关系中的至少一种；

根据所述特征数据生成所述个性化语言特征参数。

该实施例中，通过采集预设领域的特征数据来生成用户的个性化语言特征参数，使得终端识别用户输入的语音信息时，能够准确识别出属于预设领域的内容，从而提高了语音识别的准确率。

在一个实施例中，所述预设通用语音模型包括通用声学模型和通用语言模型；所述根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型，包括：

结合所述个性化声学特征参数和所述通用声学模型，获得所述用户的个性化声学模型；

结合所述个性化语言特征参数和所述通用语言模型，获得所述用户的个性化语言模型。

该实施例中，通过将个性化声学特征参数和通用声学模型进行结合，并将个性化语言特征参数和通用语言模型进行结合，使得终端识别语音信息时，不仅能根据通用语音模型进行识别，还能识别出用户个性化的声学特征及预设领域的语音内容，提高了语音识别的准确率。

在一个实施例中，所述根据所述个性化语音模型，识别所述语音信息，包括：

根据所述个性化声学模型，识别所述语音信息中的声音信息；

从所述个性化语言模型中匹配所述声音信息对应的文字；

将所述声音信息转化为所述文字。

该实施例中，通过个性化声学模型识别语音信息中的声音信息，并通过个性化语言模型将声音信息转化为文字，使得终端识别语音信息时，不仅能根据通用语音模型进行识别，还能识别出用户个性化的声学特征及预设领域的语音内容，提高了语音识别的准确率。

在一个实施例中，所述从所述个性化语言模型中匹配所述声音信息对应的文字，包括：

按照所述个性化语言模型中的优先级顺序，匹配所述声音信息对应的文字，其中，所述特征数据在所述个性化语言模型中的优先级最高。

该实施例中，能够按照个性化语言模型中的优先级顺序匹配声音信息对应的文字，使得用户输入的语音信息中包括预设领域的内容时，能够优先进行匹配，从而使得通用语音模型无法识别的语音内容也能被准确地识别，提高了语音识别的准确率。

在一个实施例中，所述方法还包括：

当检测到所述用户对所述当前登录帐号的注销操作时，释放所述用户的个性化语音模型。

该实施例中，能够在用户注销帐号时释放用户的个性化语音模型，使得当前识别语音信息的终端无需存储用户的个性化语音模型，而只需在用户每次登录时从服务器端获取用户的参数配置文件即可，从而不仅能够准确地识别出语音信息，还能避免终端的存储大数据的压力。

一种语音识别装置，其特征在于，包括：

接收模块，用于接收当前登录的用户输入的语音信息；

第一获取模块，用于根据所述用户的当前登录帐号，获取与所述用户相对应的参数配置文件，所述参数配置文件包括个性化声学特征参数和个性化语言特征参数；

第一生成模块，用于根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型；

识别模块，用于根据所述个性化语音模型，识别所述语音信息。

所述装置还包括：

第一采集模块，用于采集所述用户的样本语音数据；

第二获取模块，用于从所述样本语音数据中获取所述用户的个性化声学特征参数。

所述第一生成模块生成的个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。

所述装置还包括：

第二采集模块，用于采集预设领域的特征数据，所述特征数据包括所述预设领域的特定术语、所述预设领域的文章、语义关联关系中的至少一种；

第二生成模块，用于根据所述特征数据生成所述个性化语言特征参数。

所述预设通用语音模型包括通用声学模型和通用语言模型；所述第一生成模块包括：

第一结合子模块，用于结合所述个性化声学特征参数和所述通用声学模型，获得所述用户的个性化声学模型；

第二结合子模块，用于结合所述个性化语言特征参数和所述通用语言模型，获得所述用户的个性化语言模型。

所述识别模块包括：

识别子模块，用于根据所述个性化声学模型，识别所述语音信息中的声音信息；

匹配子模块，用于从所述个性化语言模型中匹配所述声音信息对应的文字；

转化子模块，用于将所述声音信息转化为所述文字。

所述匹配子模块包括：

匹配单元，用于按照所述个性化语言模型中的优先级顺序，匹配所述声音信息对应的文字，其中，所述特征数据在所述个性化语言模型中的优先级最高。

所述装置还包括：

释放模块，用于当检测到所述用户对所述当前登录帐号的注销操作时，释放所述用户的个性化语音模型。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种语音识别方法的流程图；

图2为本发明实施例中一种语音识别方法中获取个性化声学特征参数的流程图；

图3为本发明实施例中一种语音识别方法中获取个性化语言特征参数的流程图；

图4为本发明实施例中一种语音识别方法中步骤S14的流程图；

图5为本发明实施例中一种语音识别装置的框图；

图6为本发明实施例中一种语音识别装置的框图；

图7为本发明实施例中一种语音识别装置的框图；

图8为本发明实施例中一种语音识别装置中第一生成模块的框图；

图9为本发明实施例中一种语音识别装置中识别模块的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明实施例提供的一种语音识别方法的流程图。该语音识别方法用于终端中，其中，终端可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。如图1所示，该方法包括以下步骤S11-S14：

步骤S11，接收当前登录的用户输入的语音信息。

步骤S12，根据用户的当前登录帐号，获取与用户相对应的参数配置文件，参数配置文件包括个性化声学特征参数和个性化语言特征参数。

其中，个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。位于网络侧的服务器端存储有每个用户相对应的参数配置文件和通用语音模型，包括通用声学模型和通用语言模型。

步骤S13，根据参数配置文件和预设通用语音模型，生成用户的个性化语音模型。

在一个实施例中，预设通用语音模型包括通用声学模型和通用语言模型。因此，该步骤可实施为：结合个性化声学特征参数和通用声学模型，获得用户的个性化声学模型；结合个性化语言特征参数和通用语言模型，获得用户的个性化语言模型。

步骤S14，根据个性化语音模型，识别语音信息。

采用本发明实施例提供的技术方案，通过在用户登录后获取用户对应的参数配置文件，并根据参数配置文件和预设通用语音模型生成用户的个性化语音模型，进而识别用户输入的语音信息，不仅使得终端能够结合用户的个性化声学特征和语言特征来识别语音信息，从而提高语音识别的准确率，且使得服务器端无需存储每个用户的个性化语音模型，而只需存储每个用户的参数配置文件和一个通用语音模型即可，从而减轻了服务器的负载压力。

在一个实施例中，与用户相对应的参数配置文件是预先通过样本语句获取的。

如图2所示，参数配置文件中个性化声学特征参数的获取方法包括以下步骤S21-S22：

步骤S21，采集用户的样本语音数据。

步骤S22，从样本语音数据中获取用户的个性化声学特征参数。

其中，个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)中的至少一种参数。这些个性化声学特征参数都是识别性能较好且能充分模拟人耳听觉感知特性的参数。因此，从样本语音数据中获取用户的这些个性化声学特征参数，使得终端识别语音信息时，能够有针对性地对每一个用户进行个性化地识别，从而提高语音识别的准确率。

如图3所示，参数配置文件中个性化语言特征参数的获取方法包括以下步骤S31-S32：

步骤S31，采集预设领域的特征数据，该特征数据包括预设领域的特定术语、预设领域的文章、语义关联关系中的至少一种。

步骤S32，根据特征数据生成个性化语言特征参数。

本实施例中，预设领域可根据用户常用的语音命令文本确定，例如，用户经常使用医学方面的语音命令文本，那么该预设领域为医学领域，医学领域的特征数据即为医学方面的特定术语、文字、特定术语和文字之间的语义关联关系等。根据特征数据生成的个性化语言特征参数中包括预设领域的特征数据，对于一些专业领域中的专业术语，例如医学领域中的药品名称、医学仪器名称、病例中的术语等，采用通用的语言模型是无法识别出来的，因此，根据预设领域的特征数据生成个性化语言特征参数，并结合个性化语言特征参数和通用语言模型来识别语音信号，可以准确地识别出用户输入的语音信息。

在一个实施例中，如图4所示，步骤S14可实施为以下步骤S41-S43：

步骤S41，根据个性化声学模型，识别语音信息中的声音信息。

步骤S42，从个性化语言模型中匹配声音信息对应的文字。

在一个实施例中，该步骤可实施为：按照个性化语言模型中的优先级顺序，匹配声音信息对应的文字，其中，特征数据在个性化语言模型中的优先级最高。特征数据包括预设领域的特定术语、预设领域的文章、语义关联关系中的至少一种。

步骤S43，将声音信息转化为文字。

例如，当前用户常用的语音文本内容属于医学领域，那么与该用户对应的个性化语言模型中包括医学领域的特征数据，用户输入语音信息，若根据个性化声学模型识别出语音信息中的声音信息包含“阿司匹林”，“阿司匹林”属于医学领域的专业术语，由于专业术语在个性化语言模型中的优先级最高，因此，采用个性化语言模型，即可准确快速地匹配出声音信息“阿司匹林”对应的文字，从而将声音信息转化为对应的文字内容。

本实施例中，通过个性化声学模型识别语音信息中的声音信息，并通过个性化语言模型将声音信息转化为文字，使得终端识别语音信息时，不仅能根据通用语音模型进行识别，还能识别出用户个性化的声学特征及预设领域的语音内容，提高了语音识别的准确率。

在一个实施例中，上述方法还包括以下步骤：

当检测到用户对当前登录帐号的注销操作时，释放用户的个性化语音模型。

本实施例中，能够在用户注销帐号时释放用户的个性化语音模型，使得当前识别语音信息的终端无需存储用户的个性化语音模型，而只需在用户每次登录时从服务器端获取用户的参数配置文件即可，从而不仅能够准确地识别出语音信息，还能避免终端存储大数据的压力。

此外，上述任一实施例提供的语音识别方法中，都可支持多人并发的个性化语音识别数据的使用，即，同一终端上可识别多个不同帐号的用户输入的语音信息，在进行识别时，终端根据输入语音信息的用户的帐号从服务端获取与该用户对应的参数配置文件和预设通用语音模型，从而生成与该用户对应的个性化语音模型，对语音信息进行识别。当其中某一用户的帐号被注销时，终端就会释放与该用户对应的个性化语音模型，以避免终端存储大数据的压力。

对应于上述实施例中的语音识别方法，本发明还提供一种语音识别装置，用以执行上述方法。

图5为本发明实施例中一种语音识别装置的框图。如图5所示，该装置包括：

接收模块51，用于接收当前登录的用户输入的语音信息。

第一获取模块52，用于根据用户的当前登录帐号，获取与用户相对应的参数配置文件，参数配置文件包括个性化声学特征参数和个性化语言特征参数。

第一生成模块53，用于根据参数配置文件和预设通用语音模型，生成用户的个性化语音模型。

识别模块54，用于根据个性化语音模型，识别语音信息。

在一个实施例中，如图6所示，上述装置还包括：

第一采集模块55，用于采集用户的样本语音数据。

第二获取模块56，用于从样本语音数据中获取用户的个性化声学特征参数。

在一个实施例中，第一生成模块53生成的个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。

在一个实施例中，如图7所示，上述装置还包括：

第二采集模块57，用于采集预设领域的特征数据，特征数据包括预设领域的特定术语、预设领域的文章、语义关联关系中的至少一种。

第二生成模块58，用于根据特征数据生成个性化语言特征参数。

在一个实施例中，如图8所示，预设通用语音模型包括通用声学模型和通用语言模型；第一生成模块53包括：

第一结合子模块531，用于结合个性化声学特征参数和通用声学模型，获得用户的个性化声学模型。

第二结合子模块532，用于结合个性化语言特征参数和通用语言模型，获得用户的个性化语言模型。

在一个实施例中，如图9所示，识别模块54包括：

识别子模块541，用于根据个性化声学模型，识别语音信息中的声音信息。

匹配子模块542，用于从个性化语言模型中匹配声音信息对应的文字。

转化子模块543，用于将声音信息转化为文字。

在一个实施例中，匹配子模块542包括：

匹配单元，用于按照个性化语言模型中的优先级顺序，匹配声音信息对应的文字，其中，特征数据在个性化语言模型中的优先级最高。

在一个实施例中，上述装置还包括：

释放模块，用于当检测到用户对当前登录帐号的注销操作时，释放用户的个性化语音模型。

采用本发明实施例提供的装置，通过在用户登录后获取用户对应的参数配置文件，并根据参数配置文件和预设通用语音模型生成用户的个性化语音模型，进而识别用户输入的语音信息，不仅使得终端能够结合用户的个性化声学特征和语言特征来识别语音信息，从而提高语音识别的准确率，且使得服务器端无需存储每个用户的个性化语音模型，而只需存储每个用户的参数配置文件和一个通用语音模型即可，从而减轻了服务器的负载压力。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，包括：

接收当前登录的用户输入的语音信息；

根据所述个性化语音模型，识别所述语音信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采集所述用户的样本语音数据；

3.根据权利要求1或2所述的方法，其特征在于，所述个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述特征数据生成所述个性化语言特征参数。

5.根据权利要求1所述的方法，其特征在于，所述预设通用语音模型包括通用声学模型和通用语言模型；所述根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述个性化语音模型，识别所述语音信息，包括：

从所述个性化语言模型中匹配所述声音信息对应的文字；

将所述声音信息转化为所述文字。

7.根据权利要求6所述的方法，其特征在于，所述从所述个性化语言模型中匹配所述声音信息对应的文字，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种语音识别装置，其特征在于，包括：

接收模块，用于接收当前登录的用户输入的语音信息；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第一采集模块，用于采集所述用户的样本语音数据；

11.根据权利要求9或10所述的装置，其特征在于，所述第一生成模块生成的个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

13.根据权利要求9所述的装置，其特征在于，所述预设通用语音模型包括通用声学模型和通用语言模型；所述第一生成模块包括：

14.根据权利要求12所述的装置，其特征在于，所述识别模块包括：

转化子模块，用于将所述声音信息转化为所述文字。

15.根据权利要求14所述的装置，其特征在于，所述匹配子模块包括：

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：