CN108428446B

CN108428446B - 语音识别方法和装置

Info

Publication number: CN108428446B
Application number: CN201810184559.2A
Authority: CN
Inventors: 田超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2020-12-25
Anticipated expiration: 2038-03-06
Also published as: US20190279646A1; CN108428446A; US10978047B2

Abstract

本申请实施例公开了语音识别方法和装置。该方法的一具体实施方式包括：响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息；基于目标用户的身份信息，在已存储的常用语数据库中提取出目标用户的常用语集合，常用语集合包括多条常用语；对语音输入信号进行声学特征提取，并将语音输入信号的声学特征输入声学模型，得到语音输入信号的声学模型得分；基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语；若是，利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果。该实施方式实现了语音识别效率的提升。

Description

语音识别方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及语音技术领域，尤其涉及语音识别方法和装置。

背景技术

人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，语音识别技术是计算机科学领域与人工智能领域中的一个重要方向。

语音识别通常是将语音信号经过前端处理，声学模型，语言模型和解码器之后转换为文字。在识别过程中，需要在包含大量的词典数据的库中进行搜索，计算量大，需要耗费较多的时间。

发明内容

本申请实施例提出了语音识别方法和装置。

第一方面，本申请实施例提供了一种语音识别方法，包括：响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息；基于目标用户的身份信息，在已存储的常用语数据库中提取出目标用户的常用语集合，常用语集合包括多条常用语；对语音输入信号进行声学特征提取，并将语音输入信号的声学特征输入声学模型，得到语音输入信号的声学模型得分；基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语；若是，利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果。

在一些实施例中，上述响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息，包括：响应于接收到语音输入信号，获取采集语音输入信号的电子设备的标识信息；基于采集语音输入信号的电子设备的标识信息查询出与电子设备关联的目标用户的身份信息。

在一些实施例中，上述基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语，包括：基于语音输入信号的声学模型得分判断语音输入信号是否为噪声信号；响应于确定语音输入信号不是噪声信号，比对语音输入信号的声学模型得分和目标用户的常用语的声学模型得分，并根据比对结果确定语音输入信号的内容是否为目标用户的常用语。

在一些实施例中，上述利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果，包括：构建包含基于常用语构建的语言模型中的所有状态的状态网络；从状态网络中找出与语音输入信号的声学特征最匹配的路径，作为语音输入信号的识别结果。

在一些实施例中，上述方法还包括：构建常用语数据库，包括：搜集用户的历史语音输入信号，并将历史语音输入信号转换为对应的文本；基于转换得到的文本间的一致性，对每个用户的历史语音输入信号进行聚类；根据历史语音输入信号的生成时间，统计各聚类的历史语音输入信号的生成频率；将生成频率大于预设频率的聚类内的历史语音输入信号作为用户的常用语语音信号，对用户的常用语语音信号进行解码得到音节序列，根据解码得到的音节序列形成对应的常用语，将所形成的常用语添加至用户的常用语集合中。

第二方面，本申请实施例提供了一种语音识别装置，包括：确定单元，用于响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息；提取单元，用于基于目标用户的身份信息，在已存储的常用语数据库中提取出目标用户的常用语集合，常用语集合包括多条常用语；打分单元，用于对语音输入信号进行声学特征提取，并将语音输入信号的声学特征输入声学模型，得到语音输入信号的声学模型得分；判断单元，用于基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语；解码单元，用于响应于确定语音输入信号的内容为目标用户的常用语，利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果。

在一些实施例中，上述确定单元用于按照如下方式确定输入语音输入信号的目标用户的身份信息：响应于接收到语音输入信号，获取采集语音输入信号的电子设备的标识信息；基于采集语音输入信号的电子设备的标识信息查询出与电子设备关联的目标用户的身份信息。

在一些实施例中，上述判断单元用于基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分，按照如下方式确定语音输入信号的内容是否为目标用户的常用语：基于语音输入信号的声学模型得分判断语音输入信号是否为噪声信号；响应于确定语音输入信号不是噪声信号，比对语音输入信号的声学模型得分和目标用户的常用语的声学模型得分，并根据比对结果确定语音输入信号的内容是否为目标用户的常用语。

在一些实施例中，上述解码单元用于利用基于常用语构建的语言模型，按照如下方式对语音输入信号的声学特征进行解码，得到语音识别结果：构建包含基于常用语构建的语言模型中的所有状态的状态网络；从状态网络中找出与语音输入信号的声学特征最匹配的路径，作为语音输入信号的识别结果。

在一些实施例中，上述装置还包括构建单元，用于构建常用语数据库；构建单元用于按照如下方式构建常用语数据库：搜集用户的历史语音输入信号，并将历史语音输入信号转换为对应的文本；基于转换得到的文本间的一致性，对每个用户的历史语音输入信号进行聚类；根据历史语音输入信号的生成时间，统计各聚类的历史语音输入信号的生成频率；将生成频率大于预设频率的聚类内的历史语音输入信号作为用户的常用语语音信号，对用户的常用语语音信号进行解码得到音节序列，根据解码得到的音节序列形成对应的常用语，将所形成的常用语添加至用户的常用语集合中。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面提供的语音识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现第一方面提供的语音识别方法。

本申请上述实施例的语音识别方法和装置，通过响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息，随后基于目标用户的身份信息，在已存储的常用语数据库中提取出目标用户的常用语集合，常用语集合包括多条常用语，而后对语音输入信号进行声学特征提取，并将语音输入信号的声学特征输入声学模型，得到语音输入信号的声学模型得分，之后基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语；若是，最后利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果，实现了语音识别效率的提升。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的语音识别方法的一个实施例的流程图；

图3是根据本申请的语音识别方法的一个应用场景的示意图；

图4是根据本申请的语音识别装置的一个结构示意图；

图5是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的语音识别方法或语音识别装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104、以及服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102、103通过网络104与服务器105互，以接收或发送消息等。终端设备101、102、103上可以安装有各种语音交互类应用。

终端设备101、102、103可以是具有音频输入接口和音频输出接口并支持互联网访问的各种电子设备，包括但不限于智能手机、平板电脑、智能手表、电子书阅读器、智能音箱等。

服务器105可以是为语音服务提供支持的语音服务器，语音服务器可以接收终端设备101、102、103发出的语音交互请求，并对语音交互请求进行解析，根据解析结果生成响应数据，并将生成的响应数据返回给终端设备101、102、103。

需要说明的是，本申请实施例所提供的语音识别方法可以由终端设备101、102、103或服务器105执行，相应地，语音识别装置可以设置于终端设备101、102、103或服务器105中。

应该理解，图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器。

继续参考图2，其示出了根据本申请的语音识别方法的一个实施例的流程200。该语音识别方法，包括以下步骤：

步骤201，响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息。

在本实施例中，上述语音识别方法运行于其上的电子设备(例如图1所示的终端设备101、102、103或服务器105)可以接收语音输入信号。该语音输入信号可以是由用户向语音终端(例如图1所示的终端设备101、102、103)发出的。当上述语音识别方法运行于语音终端上时，语音终端可以通过音频接口接收用户发出的语音输入信号；当上述语音识别方法运行于与语音终端连接的服务器上时，服务器可以接收由语音终端传输的语音输入信号。

在接收到语音输入信号之后，可以根据该语音输入信号确定发出语音输入信号的目标用户的身份信息。在这里，目标用户为发出语音输入信号的用户。

可以采用多种方式确定目标用户的身份信息。一种可选的实现方式为对语音输入信号进行声纹识别，提取出语音输入信号的声纹特征，与预先存储的多个用户的声纹特征集合进行比对，比对一致的声纹特征所属的用户即为发出语音输入信号的目标用户。可以获取该目标用户的身份标识(例如用户的账户名等)作为身份信息。

在本实施例的一些可选的实现方式中，可以通过直接与用户交互的电子设备的相关信息来确定发出语音输入信号的身份信息。具体地，上述响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息的步骤，可以包括：响应于接收到语音输入信号，获取采集语音输入信号的电子设备的标识信息，基于采集语音输入信号的电子设备的标识信息查询出与电子设备关联的目标用户的身份信息。

通常，用户使用与自己关联的固定的电子设备进行语音交互，不同的用户通常会使用不同的电子设备来进行语音交互。例如用户可以使用自己的手机、智能手表、放置在家里的智能音箱等发出语音请求。并且，用户常用的固定电子设备可以存储有关联的用户的身份信息等个人信息。因此可以通过目标用户所使用的设备的标识信息来确定目标用户的身份信息。可以获取采集语音输入信号的电子设备的标识信息，通过该电子设备的标识信息来获取关联的用户的信息，从而确定目标用户的身份信息。

步骤202，基于目标用户的身份信息，在已存储的常用语数据库中提取出目标用户的常用语集合。

在这里，常用语集合可以包括多条常用语。常用语是使用频率较高的语句。在本实施例中，上述语音识别方法运行于其上的电子设备可以获取常用语数据库，该常用语数据库包括多个用户的常用语集合。之后，可以根据发出语音输入信号的目标用户的身份信息，在常用语数据库中提取出目标用户的常用语集合。

在实际场景中，不同用户的常用语集合可以互不相同，不同用户的常用语集合中的常用语也可以有交叉。在本实施例中，可以搜集各用户的常用语来构建各用户的常用语集合，并以在常用语数据库中将用户的身份信息与其常用语集合关联地存储。举例来说，用户A的常用语集合包括常用语“回家”、“去公司”、“天气怎么样”、“播新闻”，用户B的常用语集合包括常用语“去健身房”、“股票行情怎么样”、“回家”、“查一下明天飞上海的航班”等。

上述常用语集合中的常用语可以是以文本和/或音频形式存储的，则用户的常用语集合可以包括该用户的多条常用语文本和/或该用户的多段常用语音频。在一些可选的实现方式中，用户的常用语集合中的常用语可以是以将用户的常用语音频输入声学模型后得出的常用语的音节的形式存储的。这样，在接收到语音输入信号之后，可以利用语音输入信号的声学模型处理结果与常用语的音节进行比对，从而判断用户的语音输入信号是否为常用语。

步骤203，对语音输入信号进行声学特征提取，并将语音输入信号的声学特征输入声学模型，得到语音输入信号的声学模型得分。

可以对语音输入信号进行声学特征提取，利用基音检测、频谱分析等方法提取出语音输入信号的时域和频域特征。可选地，可以将语音输入信号的波形转化到梅尔刻度，并进行倒谱分析，提取语音输入信号的MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征。或者可以采用感知线性预测方法提取语音输入信号的感知线性预测系数特征。

然后，可以将提取出的语音输入信号的声学特征输入声学模型进行声学打分。在这里，声学模型可以是基于HMM(Hidden Markov Model，HMM隐马尔可夫模型)、或者GMM-HMM((Gaussian Mixed Model-Hidden Markov Model,，高斯混合模型-隐马尔可夫模型)、或深度神经网络构建的模型，声学模型可以对声学特征建模，得出语音输入信号的声学模型得分，在这里，语音输入信号的声学模型得分可以是语音输入信号所包含的各音节的概率。

上述声学模型可以是基于标记的样本数据预先训练的，具体可以标记样本语音信号所包含的音节，对样本语音信号进行声学特征提取，并输入声学模型，比对声学模型对样本语音信号的声学得分预测结果和样本语音信号的标记结果，不断调整声学模型的参数使得声学模型的预测结果逼近标记结果，当预测结果与标记结果之间的差异小于预设阈值时停止调整声学模型的参数，得到训练好的声学模型。

步骤204，基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语。

在本实施例中，可以预先存储常用语集合中的各条常用语的声学模型得分。可以对每条常用语的音频进行声学特征提取后输入声学模型，预测常用语的音频中每个音节的概率分布，即得出每条常用语的声学模型得分，并存储每条常用语的声学模型得分。

在提取出目标用户的常用语集合后，可以获取已存储的目标用户的常用语集合中的常用语的声学模型得分，之后比对语音输入信号的声学模型得分与目标用户的常用语集合中的常用语的声学模型得分，即比对语音输入信号所包含的音节的概率分布与已存储的目标用户的常用语音频所包含的音节的概率分布，若二者一致程度满足预设条件，则确定语音输入信号的内容为目标用户的常用语，否则可以确定语音输入信号的内容不是目标用户的常用语。

在一些实施例中，在判断接收到的语音输入信号是否为常用语时，可以首先检测语音输入信号是否为噪声信号。这里的噪声信号可以是环境噪音。具体地，上述基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语，可以包括：基于语音输入信号的声学模型得分判断语音输入信号是否为噪声信号；响应于确定语音输入信号不是噪声信号，比对语音输入信号的声学模型得分和目标用户的常用语的声学模型得分，并根据比对结果确定语音输入信号的内容是否为目标用户的常用语。

由于噪声信号与人体语音信号的声音产生方式不同，噪声信号的时间和频率特性与人发出的语音信号的时间和频率特性差别较大。而声学模型通常是基于声学词典中每个音节的时域和/或频域特性来分析语音信号的音节概率分布，因此通常噪声信号的声学得分(噪声信号中每一帧对应一个或多个音节的概率)较低，即噪声信号的声学模型得分远低于由人发出的语音信号的声学模型得分。

上述语音识别方法运行于其上的电子设备可以根据语音输入信号的声学模型得分是否低于预设的得分阈值，若是，则确定语音输入信号为噪声信号，否则可以确定语音输入信号为目标用户发出的语音信号。

在确定上述语音输入信号不是噪声时，可以将语音输入信号的声学模型得分与目标用户的常用语集合中的常用语的声学模型得分一一比对，判断目标用户的常用语集合中是否存在与语音输入信号的声学模型得分之间的差异小于预设差异值的常用语，若是，则可以确定语音输入信号的内容为目标用户的常用语。可选地，若目标用户的常用语集合中不存在与语音输入信号的声学模型得分之间的差异小于预设差异值的常用语，可以确定语音输入信号的内容不是目标用户的常用语。

步骤205，若是，利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果。

在本实施例中，上述语音识别方法运行于其上的电子设备可以采用基于常用语构建的语言模型对语音输入信号的声学特征进行解码。在这里，基于常用语构建的语言模型可以采用搜集的大量用户的常用语来构建词典和语法逻辑，在解码时将基于常用语构建的词典中的词按照语法逻辑进行所有可能的方式的组合，形成包含多个文字序列的文字序列集合，然后可以在该文字序列集合中找出与语音输入信号匹配的概率最大的文字序列。

具体地，在查找与语音输入信号匹配的概率最大的文字序列时，可以利用声学模型对将语音输入信号的声学特征进行处理，得到包含每个音节的概率的语音输入信号的读音分解结果，然后可以采用N-gram模型、基于卷积神经网络、循环神经网络等构建的解码模型计算语音输入信号的读音分解结果对应的文本内容为各条文字序列的概率，最后选择概率最大的文字序列作为语音识别的结果。

在本实施例的一些可选的实现方式中，可以利用基于常用语构建的语言模型，按照如下方式对语音输入信号的声学特征进行解码，得到语音识别结果：构建包含基于常用语构建的语言模型中的所有状态的状态网络；从状态网络中找出与语音输入信号的声学特征最匹配的路径，作为语音输入信号的识别结果。

具体来说，可以采用隐马尔可夫模型，构建一个状态网络。该状态网络中的每N(N为正整数)个状态组成一个音素，一个或多个因素构成一个音节，一个或多个音节构成一个单词，一个或多个单词形成一个文本序列。在本实施例中，可以基于搜集的常用语构建多条文本序列，然后将文本序列分解为单词，将单词分解为音节，将音节分解为音素，将音素分解为状态网络中的状态，这样，可以构建一个包含了所有常用语对应的文本序列对应的状态序列的状态网络，并且，在该状态网络中，每条文本序列所命中的状态序列形成一条路径，则该状态网络具有多条路径。可以从状态网络中找出与语音输入信号的省声学特征最匹配的路径，具体可以计算语音输入信号中的每一帧对应每个状态的概率，选择概率最高并且满足常用语语法逻辑的路径作为语音输入信号的解码结果。最后可以得到概率最高的路径对应的文本序列，即为语音输入信号的识别结果。

在本实施例中，采用基于常用语构建的语言模型来对语音输入信号进行解码，由于常用语的词典和语法逻辑的数据量远小于包含语言体系中所有词的词典和语法逻辑的数据量，因此可以极大地减小运算量，提升计算效率。

在本实施例的一些可选的实现方式中，上述语音识别方法还可以包括构建常用语数据库的步骤。该构建常用语数据库的步骤可以包括：构建每个用户的常用语集合。

具体地，对每个用户，可以首先搜集该用户的历史语音输入信号，并将历史语音输入信号转换为对应的文本。也就是可以在与用户的历史语音交互过程中搜集用户的历史语音输入信号，并采用常规的语音识别方法进行识别，将历史语音输入信号转换为文本。

随后可以基于转换得到的文本间的一致性，对每个用户的历史语音输入信号进行聚类。可以对转换得到的文本进行特征提取，计算文本的特征之间的相似度作为文本间的一致性度量参数，将一致性较高的文本聚为同一类；或者可对转换得到的文本进行两两比对，一致的则聚为同一类，不一致的划分为不同的类。

而后可以根据历史语音输入信号的生成时间，统计各聚类的历史语音输入信号的生成频率。可以获取历史语音输入信号的生成时间，也就是用户发出该历史语音输入信号的时间，然后统计一个预设时间段内(例如统计时刻之前的半年内)用户发出每个聚类内的所有语音输入信号的次数，计算用户发出该聚类的历史语音输入信号的频率，作为该聚类的历史语音输入信号的生成频率。

然后，可以将生成频率大于预设频率的聚类内的历史语音输入信号作为用户的常用语语音信号，对用户的常用语语音信号进行解码得到音节序列，根据解码得到的音节序列形成对应的常用语，将所形成的常用语添加至用户的常用语集合中。具体来说，生成频率大于预设频率的聚类内的历史语音输入信号为用户经常发出的语音信号，可以作为用户的常用语语音信号，之后利用MFCC等声学特征的提取方法来提取用户的常用语语音信号特征，并将基于常用语语音信号的特征进行解码，得到常用语语音信号中的每个音节的概率。可以根据每个音节的概率确定出对常用语解码后得到的音节序列，例如可以选择概率最大值作为解码得到的音节，并按序排列常用语的所有音节形成音节序列。可以将每条常用语语音信号解析得到的音节序列作为该常用语，添加至对应用户的常用语集合中。在这里，音节序列中每个音节的概率可以为常用语的声学模型得分，可以将常用语的音节序列和对应的声学模型得分关联地存储。

请参考图3，其示出了根据本申请的语音识别方法的一个应用场景的示意图。如图3所示，用户A向手机B发出包含内容“去公司”的语音指令，手机B将语音指令转换为语音输入信号传输至服务器C。服务器C在接收到语音输入信号之后，可以根据手机B的设备编号识别出用户A的身份，然后对语音输入信号进行声学打分，得到语音输入信号的声学模型得分，之后利用常用语数据库中由用户A的身份信息提取出的常用语集合判断语音输入信号的内容是否为常用语。如果语音输入信号的内容是常用语，采用常用语语言模型进行解码；如果语音输入信号的内容不是常用语，采用常规语言模型进行解码。在该场景中，判定语音输入信号的内容是常用语，则可以采用数据量较小、计算量较少的常用语语言模型进行解码，得到语音识别结果为：去公司。在实际场景中，服务器C可以根据语音识别结果进行响应，例如可以规划去公司的路线，并将规划好的路线发送至手机B。

本申请上述实施例的语音识别方法，通过响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息，随后基于目标用户的身份信息，在已存储的常用语数据库中提取出目标用户的常用语集合，常用语集合包括多条常用语，而后对语音输入信号进行声学特征提取，并将语音输入信号的声学特征输入声学模型，得到语音输入信号的声学模型得分，之后基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语；若是，最后利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果，由于基于常用语构建的语言模型数据量较小，解码过程所耗费的时间较少，因此本申请上述实施例的语音识别方法可以有效提升语音识别效率。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种语音识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的语音识别装置400包括：确定单元401、提取单元402、打分单元403、判断单元404以及解码单元405。其中，确定单元401可以用于响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息；提取单元402可以用于基于目标用户的身份信息，在已存储的常用语数据库中提取出目标用户的常用语集合，常用语集合包括多条常用语；打分单元403可以用于对语音输入信号进行声学特征提取，并将语音输入信号的声学特征输入声学模型，得到语音输入信号的声学模型得分；判断单元404可以用于基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语；解码单元405可以用于响应于确定语音输入信号的内容为目标用户的常用语，利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果。

在本实施例中，确定单元401可以接收语音输入信号，并采用多种方式确定发出语音输入信号的目标用户的身份信息，例如可以采用声纹识别方法，对语音输入信号进行特征提取，将提取出的特征与预先存储的多个用户的声纹特征集合中的声纹特征进行匹配，匹配成功的声纹特征所对应的用户即为目标用户，进而确定出目标用户的身份信息。

提取单元402可以获取包含多个用户的常用语集合的常用语数据库，且每个常用语集合与用户的身份信息相关联。提取单元402可以根据确定单元401确定的目标用户的身份信息，从常用语数据库中提取出目标用户的常用语集合。

打分单元403可以对语音输入信号进行声学特征提取，利用基音检测、频谱分析等方法提取出语音输入信号的时域和/或频域特征，然后并将提取出的声学特征输入声学模型进行打分。声学模型可以是基于HMM或深度神经网络构建的模型，可以对声学特征建模，得出语音输入信号所包含的各音节的概率，即得出声学模型得分。

判断单元404可以获取已存储的提取单元402提取出的目标用户的常用语集合中的常用语的声学模型得分，然后比对语音输入信号的声学模型得分与目标用户的常用语集合中的常用语的声学模型得分，若二者一致程度满足预设条件，则确定语音输入信号的内容为目标用户的常用语，否则确定语音输入信号的内容不是目标用户的常用语。

在判断单元404的判断结果为语音输入信号的内容是目标用户的常用语时，解码单元405可以采用基于常用语构建的N-gram模型、卷积神经网络、循环神经网络等解码模型计算语音输入信号的读音分解结果对应的文本内容为各条文字序列的概率，最后选择概率最大的文字序列作为语音识别的结果。

在一些实施例中，上述确定单元401可以进一步用于按照如下方式确定输入语音输入信号的目标用户的身份信息：响应于接收到语音输入信号，获取采集语音输入信号的电子设备的标识信息；基于采集语音输入信号的电子设备的标识信息查询出与电子设备关联的目标用户的身份信息。

在一些实施例中，上述判断单元404可以进一步用于基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分，按照如下方式确定语音输入信号的内容是否为目标用户的常用语：基于语音输入信号的声学模型得分判断语音输入信号是否为噪声信号；响应于确定语音输入信号不是噪声信号，比对语音输入信号的声学模型得分和目标用户的常用语的声学模型得分，并根据比对结果确定语音输入信号的内容是否为目标用户的常用语。

在一些实施例中，上述解码单元405可以进一步用于利用基于常用语构建的语言模型，按照如下方式对语音输入信号的声学特征进行解码，得到语音识别结果：构建包含基于常用语构建的语言模型中的所有状态的状态网络；从状态网络中找出与语音输入信号的声学特征最匹配的路径，作为语音输入信号的识别结果。

在一些实施例中，上述装置400还可以包括构建单元，用于构建常用语数据库。构建单元用于按照如下方式构建常用语数据库：搜集用户的历史语音输入信号，并将历史语音输入信号转换为对应的文本；基于转换得到的文本间的一致性，对每个用户的历史语音输入信号进行聚类；根据历史语音输入信号的生成时间，统计各聚类的历史语音输入信号的生成频率；将生成频率大于预设频率的聚类内的历史语音输入信号作为用户的常用语语音信号，对用户的常用语语音信号进行解码得到音节序列，根据解码得到的音节序列形成对应的常用语，将常用语添加至用户的常用语集合中。

装置400中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置400及其中包含的单元，在此不再赘述。

本申请上述实施例的语音识别装置400，通过确定单元响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息，随后提取单元基于目标用户的身份信息，在已存储的常用语数据库中提取出目标用户的常用语集合，常用语集合包括多条常用语，而后打分单元对语音输入信号进行声学特征提取，并将语音输入信号的声学特征输入声学模型，得到语音输入信号的声学模型得分，之后判断单元基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语；最后解码单元响应于确定语音输入信号的内容是目标用户的常用语，利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果，实现了语音识别效率的提升。

下面参考图5，其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括确定单元、提取单元、打分单元、判断单元和解码单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，确定单元还可以被描述为“响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：响应于接收到语音输入信号，确定输入语音输入信号的目标用户的身份信息；基于目标用户的身份信息，在已存储的常用语数据库中提取出目标用户的常用语集合，常用语集合包括多条常用语；对语音输入信号进行声学特征提取，并将语音输入信号的声学特征输入声学模型，得到语音输入信号的声学模型得分；基于语音输入信号的声学模型得分和已存储的目标用户的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语；若是，利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音识别方法，包括：

响应于接收到语音输入信号，确定输入所述语音输入信号的目标用户的身份信息；

基于所述目标用户的身份信息，在已存储的常用语数据库中提取出所述目标用户的常用语集合，所述常用语集合包括多条常用语；

对所述语音输入信号进行声学特征提取，并将所述语音输入信号的声学特征输入声学模型，得到所述语音输入信号的声学模型得分；

基于所述语音输入信号的声学模型得分和已存储的所述目标用户的常用语集合中的常用语的声学模型得分确定所述语音输入信号的内容是否为所述目标用户的常用语；

若是，利用基于常用语构建的语言模型对所述语音输入信号的声学特征进行解码，得到语音识别结果。

2.根据权利要求1所述的方法，其中，所述响应于接收到语音输入信号，确定输入所述语音输入信号的目标用户的身份信息，包括：

响应于接收到语音输入信号，获取采集所述语音输入信号的电子设备的标识信息；

基于所述采集所述语音输入信号的电子设备的标识信息查询出与所述电子设备关联的目标用户的身份信息。

3.根据权利要求1所述的方法，其中，所述基于所述语音输入信号的声学模型得分和已存储的所述目标用户的常用语集合中的常用语的声学模型得分确定所述语音输入信号的内容是否为所述目标用户的常用语，包括：

基于所述语音输入信号的声学模型得分判断所述语音输入信号是否为噪声信号；

响应于确定所述语音输入信号不是噪声信号，比对所述语音输入信号的声学模型得分和所述目标用户的常用语的声学模型得分，并根据比对结果确定所述语音输入信号的内容是否为所述目标用户的常用语。

4.根据权利要求1所述的方法，其中，所述利用基于常用语构建的语言模型对所述语音输入信号的声学特征进行解码，得到语音识别结果，包括：

构建包含基于常用语构建的语言模型中的所有状态的状态网络；

从所述状态网络中找出与所述语音输入信号的声学特征最匹配的路径，作为所述语音输入信号的识别结果。

5.根据权利要求1-4任一项所述的方法，其中，所述方法还包括：

构建所述常用语数据库，包括：

搜集用户的历史语音输入信号，并将所述历史语音输入信号转换为对应的文本；

基于转换得到的文本间的一致性，对每个用户的历史语音输入信号进行聚类；

根据历史语音输入信号的生成时间，统计各聚类的历史语音输入信号的生成频率；

将生成频率大于预设频率的聚类内的历史语音输入信号作为所述用户的常用语语音信号，对所述用户的常用语语音信号进行解码得到音节序列，根据解码得到的音节序列形成对应的常用语，将所形成的常用语添加至所述用户的常用语集合中。

6.一种语音识别装置，包括：

确定单元，用于响应于接收到语音输入信号，确定输入所述语音输入信号的目标用户的身份信息；

提取单元，用于基于所述目标用户的身份信息，在已存储的常用语数据库中提取出所述目标用户的常用语集合，所述常用语集合包括多条常用语；

打分单元，用于对所述语音输入信号进行声学特征提取，并将所述语音输入信号的声学特征输入声学模型，得到所述语音输入信号的声学模型得分；

判断单元，用于基于所述语音输入信号的声学模型得分和已存储的所述目标用户的常用语集合中的常用语的声学模型得分确定所述语音输入信号的内容是否为所述目标用户的常用语；

解码单元，用于响应于确定所述语音输入信号的内容为所述目标用户的常用语，利用基于常用语构建的语言模型对所述语音输入信号的声学特征进行解码，得到语音识别结果。

7.根据权利要求6所述的装置，其中，所述确定单元用于按照如下方式确定输入所述语音输入信号的目标用户的身份信息：

8.根据权利要求6所述的装置，其中，所述判断单元用于基于所述语音输入信号的声学模型得分和已存储的所述目标用户的常用语集合中的常用语的声学模型得分，按照如下方式确定所述语音输入信号的内容是否为所述目标用户的常用语：

9.根据权利要求6所述的装置，其中，所述解码单元用于利用基于常用语构建的语言模型，按照如下方式对所述语音输入信号的声学特征进行解码，得到语音识别结果：

10.根据权利要求6-9任一项所述的装置，其中，所述装置还包括构建单元，用于构建所述常用语数据库；

所述构建单元用于按照如下方式构建所述常用语数据库：

11.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。