CN108447471B

CN108447471B - 语音识别方法及语音识别装置

Info

Publication number: CN108447471B
Application number: CN201710082111.5A
Authority: CN
Inventors: 万秋生
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-02-15
Filing date: 2017-02-15
Publication date: 2021-09-10
Anticipated expiration: 2037-02-15
Also published as: US20190295534A1; EP3584786B1; EP3584786A1; US20210249000A1; JP6771805B2; US11562736B2; CN108447471A; KR20190082900A; JP2020505643A; WO2018149209A1; US11043211B2; KR102222317B1; EP3584786A4

Abstract

一种语音识别方法及装置，一个实施例的方法包括：确定待识别语音信息的语意信息，在语意信息不满足预设规则时，对待识别语音信息进行分段，获得各语音片段，并提取各语音片段的声纹信息，在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息，对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息，将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定组合语音信息的组合语意信息，在组合语意信息满足预设规则时，将组合语意信息作为语音识别结果。基于本实施例方案进行语音识别准确性高。

Description

语音识别方法及语音识别装置

技术领域

本发明涉及计算机信息处理技术领域，特别涉及一种语音识别方法及语音识别装置。

背景技术

随着智能技术的发展，进行语音识别并根据识别的语音进行控制，已成为智能技术应用中的一项重要内容，各种智能产品中应用语音识别技术以实现智能化控制，随着智能产品的增加以及对语音识别的准确度的要求越来越高，各种语音识别技术层出不穷。

目前常用的语音识别方式是通过提取用户发出的待识别语音信息的特征，再根据识别算法对该用户发出的待识别语音信息进行识别。然而，在多人讲话的场合(如车内)使用语音识别功能，捕获到的待识别语音信息可能包含多人的说话内容，其中只有一个人的待识别语音信息是有效的，存在他人发出的噪音，无法识别出正确的语意，导致语音识别准确性不足。

发明内容

基于此，有必要针对语音识别准确性不足的问题，提出一种能提高语音识别准确性的语音识别方法及装置。

据此，本实施例采用以下技术方案：

一种语音识别方法，包括以下步骤：

获取采集的待识别语音信息，并确定所述待识别语音信息的语意信息；

在所述语意信息不满足预设规则时，对所述待识别语音信息进行分段处理，获得各语音片段，并提取各所述语音片段的声纹信息；

在本地声纹数据库中存在尚未匹配过的声纹信息时，从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息；

对各所述语音片段的声纹信息与所述待匹配声纹信息进行匹配，从各所述语音片段的声纹信息中确定出与所述待匹配声纹信息匹配成功的筛选后声纹信息；

将各所述筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定所述组合语音信息的组合语意信息；

在所述组合语意信息满足所述预设规则时，将所述组合语意信息作为语音识别结果。

一种语音识别装置，包括：

语意信息确定模块，用于获取采集的待识别语音信息，并确定所述待识别语音信息的语意信息；

分段声纹获取模块，用于在所述语意信息不满足预设规则时，对所述待识别语音信息进行分段处理，获得各语音片段，并提取各所述语音片段的声纹信息；

待匹配声纹信息获取模块，用于在本地声纹数据库中存在尚未匹配过的声纹信息时，从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息；

匹配筛选模块，用于对各所述语音片段的声纹信息与所述待匹配声纹信息进行匹配，从各所述语音片段的声纹信息中确定出与所述待匹配声纹信息匹配成功的筛选后声纹信息；

组合模块，用于将各所述筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定所述组合语音信息的组合语意信息；

识别结果确定模块，用于在所述组合语意信息满足所述预设规则时，将所述组合语意信息作为语音识别结果。

上述语音识别方法及装置，首先确定待识别语音信息的语意信息，在语意信息不满足预设规则时，表示此时识别的语意信息可能不准确，此时，将待识别语音信息进行分段，获得各语音片段，并提取各语音片段的声纹信息，在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息，为后续声纹匹配提供依据，即提供进行声纹匹配的单个用户的待匹配声纹信息，然后，对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息，即筛选出与上述待匹配声纹信息匹配的单个用户的声纹信息，并将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并对组合语音信息进行识别，获得组合语意信息，从而获得单个用户表达的语意，为了提高识别准确性，还需对组合语意信息是否满足预设规则进行判断，满足时表示已获得了准确识别的语意，即准确获得了用户想表达的语意，此时将组合语意信息作为语音识别结果，提高语音识别准确度。

附图说明

图1为一个实施例的工作环境示意图；

图2为一个实施例中的终端的组成结构示意图；

图3为一个实施例的语音识别方法的流程示意图；

图4为另一个实施例的语音识别方法的流程示意图；

图5为一具体实施例的语音识别方法的流程示意图；

图6为一个实施例的语音识别装置的模块示意图；

图7为一个具体示例中的数据获取模块的模块示意图；

图8为另一个实施例的语音识别装置的模块示意图；

图9为另一个具体示例中的数据获取模块的模块示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1示出了本发明一个实施例中的工作环境示意图，如图1所示，其工作环境涉及终端110、服务器120以及网络130，终端110及服务器120可以通过网络130进行通信。终端110可对语音信息进行识别获得语意信息，再对语意信息进行进一步处理确定语音识别结果，也可将获取的语音信息通过网络130上传至对应的服务器120，服务器120可对终端110上传的语音信息进行识别，并可将识别结果通过网络130发送至终端110，终端110将接收的识别结果作为语音信息，并根据接收的语音信息确定语音识别结果。终端110根据语音识别结果可生成相应的指令以执行后续的相关操作，实现语音智能化控制。该终端110可以是任何一种能够实现智能输入输出以及识别语音的设备，例如，台式电脑或移动终端，移动终端可以是智能手机、平板电脑、车载电脑、穿戴式智能设备等。该服务器120可以是接收语音信息并进行语音识别的平台所在的服务器；服务器120可以为一个或多个。本实施例涉及的是终端110对语音信息进行识别获得语音识别结果的方案，终端110可根据语音识别结果实现语音智能操作。

终端110在一个实施例中的内部结构图如图2所示。该终端110包括通过系统总线连接的处理器、存储介质、网络接口和内存。其中，终端110的存储介质存储有操作系统、本地声纹数据库和一种语音识别装置，该装置用于实现一种语音识别方法。终端110的处理器用于提供计算和控制能力，支撑整个终端110的运行。终端110的内存为非易失性存储介质中的语音识别装置的运行提供环境，该内存中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语音识别方法。终端110的网络接口用于与网络130连接和通信。

请参阅图3，一个实施例中的语音识别方法，包括步骤S310至步骤S360：

S310：获取采集的待识别语音信息，并确定待识别语音信息的语意信息。

在本实施例中，语音信息可为用户通过终端的语音输入装置输入的音频信息，即通过语音输入装置可采集到用户的语音信息，在对待识别语音信息采集完成后，可获取采集的待识别语音信息，其中，语音输入装置可包括但不限于麦克风。待识别语音信息是指需要对其进行识别获得语意信息的语音信息，语意信息可为文字信息，对待识别语音信息进行语音识别获得对应的语意信息，即可确定待识别语音信息的语意信息，也就是可确定输入待识别语音信息的用户表达出的语意。

S320：在语意信息不满足预设规则时，对待识别语音信息进行分段处理，获得各语音片段，并提取各语音片段的声纹信息。

在确定待识别语音信息的语意信息之后，需要判断其是否满足预设规则，在本实施例中，预设规则可为预先设置的对语意信息的要求，也就是说，语意信息不满足预设规则时，表示该语音信息不满足对其的要求，则认为其是不准确。比如，由于是对音频进行识别，一般情况下，用户在通过音频准确表达其想表达的内容时，对应的语音信息应满足人说话时的语法要求，从而，预先规则可为语意信息符合预设语法规则。

另一方面，实现本实施例的语音识别方法的终端可以包括多种工作模式，这些工作模式可以包括但不限于导航模式、音乐模式、广播模式和节目模式等，在不同的工作模式下工作，终端可满足不同的用户需求，且每种工作模式有其对应的词库，词库中包括了工作模式对应可能用到的词汇，在确定语意信息后，还可判断语意信息分词后得到的关键词是否在词库中，若在，则表示用户的待识别语音信息的语意信息是在终端的工作模式下可能用到的词汇。

据此，在本实施例中，预设规则可以为语意信息符合预设语法规则且语意信息在单个词库中，语意信息不满足预设规则时，认为对待识别语音信息识别获得的语意信息不能被终端准确识别，从而无法转变成对应的指令以执行相应的操作。另一方面，预设规则也可以为语意信息符合预设语法规则、语意信息在单个词库中且语音信息有对应的指令，当语意信息符合预设语法规则且语音信息在单个词库中，但是语意信息不能转化为有效指令，即该语意信息没有对应的指令时，认为其还是不符合预设规则。

在一具体应用示例中，比如，确定的语意信息为“我要你好播放音乐”，用户A对应说的是“我要播放音乐”，然而在其说话过程中，用户B在用户A的“我要”后面插入了“你好”，虽然“播放音乐”是在音乐模式对应词库中，但是整个句子的语法不符合人类正常语法，从而可认为其不满足预设规则的。又比如，语意信息为“你好”，既符合预设语法规则，又在词库中，但是其实质上是一种问候语，而非一种控制语，终端没有与“你好”对应的指令，即无法生成执行相应操作的指令，也可以认为其不满足预设规则。

在判定语意信息不满足预设规则时，认为其不准确，为了提高识别准确性，需要对待识别语音信息进行分段处理，以获得各语音片段，并提取各语音片段的声纹信息。由于每个人的声纹信息是不同的，同一个人的不同语音信息对应相同的声纹信息，例如，用户A说出不同的语音信息，但是为同一用户A说出的，其声纹信息是相同的。为了提高准确度，可通过声纹信息的判断提出单人的语音信息。

S330：在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。

本地声纹数据库可存储声纹信息，在本地声纹数据库中存储的声纹信息可为与终端进行过语音交互的用户的声纹信息，且其对应的语意信息至少有一次满足预设规则。将各语音片段对应的语意信息与本地声纹数据库中存储的尚未匹配过的声纹信息进行匹配时，首先需要从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息，即进行各语音片段的声纹信息与本地声纹数据库中声纹信息匹配时，每次将本地声纹数据库中单个的待匹配声纹信息与各语音片段的声纹信息进行匹配，这样即可筛选出单个用户的语音信息。

S340：对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息。

语音信息中可能包括多个用户的语音，从本地声纹数据库中选择出一个尚未匹配过的待匹配声纹信息后，即选择一个用户的声纹信息后，将各语音片段的声纹信息与该待匹配声纹信息进行匹配，相同用户的声纹信息相同，各语音片段的声纹信息中与待匹配声纹信息匹配成功的声纹信息是同一用户的声纹信息，即筛选后声纹信息即为待匹配声纹信息对应的用户的声纹信息。

S350：将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定组合语音信息的组合语意信息。

由于各筛选后声纹信息是来自同一用户，从而，可将各筛选后声纹信息对应的语音片段进行组合，即将同一用户的语音片段进行组合，得到的组合语音信息即是同一用户的语音，是同一用户的语音数据，然后，确定组合语音信息的组合语意信息，组合语意信息即为该用户的待识别语音信息对应的准确表达的语意。

S360：在组合语意信息满足预设规则时，将组合语意信息作为语音识别结果。

获得组合语意信息后，虽然组合语意信息为上述用户的待识别语音信息对应的准确表达的语意，但是语音信息可能为多个用户的语音，有可能通过上述步骤获得的组合语音信息的组合语音信息是不满足预设规则的，为了进一步提高准确性，需要对组合语音信息是否满足预设规则进行判断，当满足时，进一步说明该语意信息是准确的，此时，可将组合语意信息作为语音识别结果，实现语音识别目的。后续可根据语音识别结果生成相应的指令，根据指令可执行相应的操作。比如，语意信息为“我要你好播放音乐”，如果选出的待匹配声纹信息为用户A的声纹信息，语音片段“我要”和“播放音乐”的声纹信息与用户A的声纹信息匹配成功，即筛选后声纹信息为语音片段“我要”和“播放音乐”的声纹信息，则可将语音片段“我要”和“播放音乐”组合作为最终的组合语音信息，确定组合语音信息为“我要播放音乐”，既符合预设语法要求又在词库中，且是一个需要执行播放音乐操作的语意信息，有对应的指令，即根据该指令可执行播放音乐的操作，认为该组合语意信息是满足预设规则的，将“我要播放音乐”作为语音识别结果。后续可生成与之对应的播放音乐的指令以执行音乐。

上述语音识别方法，首先确定待识别语音信息的语意信息，在语意信息不满足预设规则时，表示此时识别的语意信息可能不准确，此时，将待识别语音信息进行分段，获得各语音片段，并提取各语音片段的声纹信息，在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息，为后续声纹匹配提供依据，即提供进行声纹匹配的单个用户的待匹配声纹信息，然后，对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息，即筛选出与上述待匹配声纹信息匹配的单个用户的声纹信息，并将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并对组合语音信息进行识别，获得组合语意信息，从而获得单个用户表达的语意，为了提高识别准确性，还需对组合语意信息是否满足预设规则进行判断，满足时表示已获得了准确识别的语意，即准确获得了用户想表达的语意，此时将组合语意信息作为语音识别结果，提高语音识别准确度。

在其中一个实施例中，上述语音识别方法，还包括步骤：

在组合语意信息不满足预设规则时，返回在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。

在组合语意信息不满足预设规则时，表示该组合语音信息不满足对其的要求，则认为其不准确。需对下一个用户的声纹信息进行匹配。比如，语意信息为“我要你好播放音乐”，如果选出的待匹配声纹信息为用户B的声纹信息，语音片段“你好”的声纹信息与用户B的声纹信息匹配成功，即筛选后声纹信息为语音片段“你好”的声纹信息，则可将语音片段“你好”作为最终的组合语音信息，确定组合语音信息为“你好”，虽然是符合预设语法要求且在词库中，但是其没有对应的指令，即不能生成执行操作的指令，因此也可以认为其不满足预设规则，此时需要返回在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤，获取下一个未匹配过的声纹信息作为待匹配声纹信息，继续进行声纹匹配过程。

S370：在语意信息满足预设规则时，将语意信息作为语音识别结果。

在语意信息满足预设规则时，表示该语音信息满足对其的要求，则认为其是准确，将其作为语音识别结果，从而，可获得较为准确的语音识别结果，提高语音识别准确性。

请继续参阅图4，在其中一个实施例中，在语意信息满足预设规则时，将语意信息作为语音识别结果之后，还可以包括步骤：

S381：提取待识别语音信息的声纹信息。

S382：将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对；

S383：在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的声纹信息存储于本地声纹数据库。

语意信息满足预设规则时，认为其较为准确，将其作为语音识别结果之后，还可提取待识别语音信息的声纹信息，将该声纹信息存储到本地声纹数据库中。具体地，在存储之前，还需要对该声纹信息与本地声纹数据库中存储的各声纹信息进行比对，也就是比对本地声纹数据库中存储的各声纹信息是否存在与提取的声纹信息匹配的，若不存在，即提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败，说明该提取的声纹信息对应的用户是首次与终端进行语音交互，且对应的语音信息满足预设规则，因此将提取的声纹信息存储于本地声纹数据库。

在其中一个实施例中，将声纹信息存储于本地声纹数据库的方式包括：建立提取的声纹信息的用户标识；将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库，并将用户标识的优先等级初始化为初始等级。

其中，用户标识为能唯一指定用户身份的标识，可以包括数字、字母和标点符号中的至少一种的字符的字符串，用户标识与声纹信息对应，也就是实现声纹信息与说话人对应起来。在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时，表示提取的声纹信息对应的用户是首次语音交互且语意信息满足预设要求，建立提取的声纹信息的用户标识，将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库，并将用户标识的优先等级初始化为初始等级，比如，初始等级为1，表示其等级是最低的等级，优先等级越高，表示该用户进行语音交互的次数越多，其对应的声纹信息越重要。

在其中一个实施例中，上述语音识别方法，还可以包括步骤：

在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时，将提取的声纹信息对应的用户标识的优先等级增加预设等级。

在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时，说明该提取的声纹信息之前已存储过了，表示提取的声纹信息对应的用户之前有与终端进行过语音交互，且对应的语意信息满足预设规则，并非首次进行语音交互，此时，将提取的声纹信息对应的用户标识的优先等级增加预设等级，以提高该用户的声纹信息的重要程度。具体地，预设等级可为1，比如，提取的声纹信息对应的用户标识的优先等级原来为1，增加预设等级1，即则优先等级变为2。

在其中一个实施例中，本地声纹数据库中还可以建立有用户标识，本地声纹数据库中存储的声纹信息与用户标识对应。

据此，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的方式可以包括：

根据用户标识的优先等级的预设等级顺序，从本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。

如此可从本地声纹数据库中有序地获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息，而不是杂乱无章进行选择，有效防止出错。

在其中一个实施例中，预设等级顺序可以包括优先等级从高到低的顺序或优先等级从低到高的顺序。

由于用户标识的优先等级越高，对应的声纹信息越重要，也就是越常用语音进行控制的用户，比如，在机车内，终端为车载电脑，一般车主进行语音控制最为频繁，优先等级越高，其重要程度越高，待识别语音信息对应的用户越有可能是车主，从而，根据优先等级从高到低的顺序进行选择待匹配声纹信息，不但可有顺序地进行声纹匹配，防止出错，而且可提高整体的识别效率。另外，预设等级顺序采用优先等级从低到高的顺序时，可有顺序地选择待匹配声纹信息，有效地进行声纹匹配，防止出错。

在组合语意信息不满足预设规则，且本地声纹数据库中不存在尚未匹配过的声纹信息时，给出识别错误提示信息。

在组合语意信息不满足预设规则时，表示组合语意信息不准确，为了准确识别，需要进行下一个尚未匹配过的声纹信息选择，但本地声纹数据库中不存在尚未匹配过的声纹信息，说明本地声纹数据库中声纹信息均已匹配过，声纹信息匹配终止，此时，给出识别错误提示信息，以提醒用户此次语音识别失效，以便用户快速进入先一个语音控制过程。

在其中一个实施例中，在确定待识别语音信息的语意信息之后，对待识别语音信息进行分段处理之前，还包括步骤：提取语意信息的关键词。

当语意信息不符合预设语法规则、语意信息的关键词不同时存在一个词库或在本地指令库中不存在与语意信息的关键词对应的指令时，判定语意信息不满足预设规则。

每种工作模式对应有词库，即工作模式与词库对应，在判断语意信息是否符合预设规则时，首先对其是否符合预设语法规则进行判断，若符合预设语法规则，则查看语意信息的关键词是否同时在一个词库，这是由于有多种工作模式下有多种词库，关键词可能分布在各种词库中，由于一次语音只能对一种工作模式下进行与工作模式对应的相关操作，若关键词是分布在各词库中，说明该语意信息的关键词不满足预设规则。另外，本地指令库用于存储控制执行相关操作的指令，具体地，语意信息的关键词与指令关联存储，通过语意信息的关键词可找到对应的指令，后续根据指令执行相应的操作。若语意信息符合预设语法规则、且对应的关键词都在一个词库中，但是在本地指令库中不存在与之对应的指令，说明该语音信息还是无效的，无法得到对应的指令，即无法实现语音控制。比如，语意信息为“你好”，其满足预设语法规则，且存在一个词库中，但是其是一个简单的问候语，并不是一个控制语句，在本地指令库中不存在与“你好”对应的据此可执行相应操作的指令。

在本实施例中，在确定组合语音信息的组合语意信息之后，将组合语意信息作为语音识别结果之前，还包括步骤：提取组合语意信息的关键词。

当组合语意信息符合预设语法规则，组合语意信息的关键词同时存在于一个词库且在本地指令库中存在与组合语意的关键词对应的指令时，判定组合语意信息满足预设规则。

组合语意信息符合预设语法规则，组合语意信息的关键词同时存在于一个词库且在本地指令库中存在与组合语意的关键词对应的指令时，认为组合语意信息是满足预设规则的，此时将其作为语音识别结果，由于可在本地指令库可找到与组合语意的关键词对应的指令，后续即可根据该指令进行相关操作。比如，组合语音信息为“我要播放音乐”，是符合预设语法规则的，若其关键词为“播放”和“音乐”，这些关键词同时存在于与音乐模式对应的词库中，且在本地指令库中存在与“播放”对应的指令，认为“我要播放音乐”满足预设规则，可在本地指令库中找到对应的播放指令进行音乐播放。

在其中一个实施例中，确定待识别语音信息的语意信息的方式可以包括：

对待识别语音信息进行语音识别，获得语意信息。在对待识别语音信息进行识别时，可通过在终端本地进行识别，即对待识别语音信息进行语音识别，可获得语意信息，这样可提高确定语意信息的效率，从而提高整个语音识别效率。

将待识别语音信息发送至云端服务器。

接收云端服务器对待识别语音信息进行语音识别的识别结果，将识别结果作为语意信息。

从而也可通过在云端服务器进行识别，即将待识别语音信息发送至云端服务器，云端服务器对待识别语音信息进行语音识别的识别结果，将识别结果作为语意信息，由于在云端服务器可存储大量的据以进行识别的数据，可提高识别准确性。

下面以一具体实施例对上述的语音识别方法加以具体说明，请参阅图5，为一具体实施例的语音识别方法的流程图。

首先，获取采集的识别语音信息，对其进行识别获得语意信息，或将其发送给云端服务器，接收云端服务器进行语音识别的识别结果，识别结果作为语意信息。然后，判断语意信息是否满足预设规则，在若不满足，对待识别语音信息进行分段处理，获得各语音片段，并提取各语音片段的声纹信息；在本地声纹数据库中查找是否存在尚未匹配过的声纹信息，若存在，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息；对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息；将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定组合语音信息的组合语意信息；再判断组合语意信息是否满足预设规则，若满足，则将组合语意信息作为语音识别结果；后续可提取待识别语音信息的声纹信息；将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对；在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的声纹信息存储于本地声纹数据库。另外，在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时，将提取的声纹信息对应的用户标识的优先等级增加预设等级。

另外，在组合语意信息不满足预设规则时，返回在本地声纹数据库中查找是否存在尚未匹配过的声纹信息的步骤，在本地声纹数据库中存在尚未匹配过的声纹信息时，再从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。在本地声纹数据库中不存在尚未匹配过的声纹信息时，给出识别错误提示信息。在语意信息满足预设规则时，将语意信息作为语音识别结果。

基于与上述方法相同的思想，图6示出了一个实施例中的语音识别装置，包括：

语意信息确定模块601，用于获取采集的待识别语音信息，并确定待识别语音信息的语意信息。

分段声纹获取模块602，用于在语意信息不满足预设规则时，对待识别语音信息进行分段处理，获得各语音片段，并提取各语音片段的声纹信息。

待匹配声纹信息获取模块603，用于在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。

匹配筛选模块604，用于对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息。

组合模块605，用于将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定组合语音信息的组合语意信息。

识别结果确定模块606，用于在组合语意信息满足预设规则时，将组合语意信息作为语音识别结果。

上述语音识别装置，首先确定待识别语音信息的语意信息，在语意信息不满足预设规则要求时，表示此时识别的语意信息可能不准确，此时，将待识别语音信息进行分段，获得各语音片段，并提取各语音片段的声纹信息，在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息，为后续声纹匹配提供依据，即提供进行声纹匹配的单个用户的待匹配声纹信息，然后，对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息，也就是从各语音片段的声纹信息中筛选出与上述待匹配声纹信息匹配的单个用户的声纹信息，并将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，即获得单个用户的组合语音信息，并对组合语音信息进行识别，获得组合语意信息，从而获单个用户表达的语意，为了提高识别准确性，还需对组合语意信息判断是否满足预设规则要求，满足时表示已获得了准确识别的语意，即准确获得了用户想表达的语意，此时将组合语意信息作为语音识别结果，提高语音识别准确度。

请参阅图7，在其中一个实施例中，上述语音识别装置，还包括：

返回模块607，用于在组合语意信息不满足预设规则时，返回待匹配声纹信息获取模块执行在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。

在其中一个实施例中，上述识别结果确定模块，用于在语意信息满足预设规则时，将语意信息作为语音识别结果。

请参阅图8，在其中一个实施例中，上述语音识别装置，还包括：

语音声纹提取模块608，用于识别结果确定模块在语意信息满足预设规则时，将语意信息作为语音识别结果后，提取待识别语音信息的声纹信息。

声纹比对模块609，用于将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对。

存储模块610，用于在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的声纹信息存储于本地声纹数据库。

请参阅图9，在其中一个实施例中，存储模块包括：

标识建立模块6101，用于建立提取的声纹信息的用户标识。

初始化模块6102，用于将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库，并将用户标识的优先等级初始化为初始等级。

在其中一个实施例中，上述语音识别装置，还包括等级增加模块。

等级增加模块，用于在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时，将提取的声纹信息对应的用户标识的优先等级增加预设等级。

在其中一个实施例中，本地声纹数据库中存储的声纹信息与用户标识对应。

上述待匹配声纹信息获取模块，用于根据用户标识的优先等级的预设等级顺序，从本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。

在其中一个实施例中，预设等级顺序包括优先等级从高到低的顺序或优先等级从低到高的顺序。

在其中一个实施例中，上述语音识别装置，还包括：提示模块。

提示模块，用于在组合语意信息不满足预设规则，且本地声纹数据库中不存在尚未匹配过的声纹信息时，给出识别错误提示信息。

在其中一个实施例中，上述语音识别装置，还包括：信息关键词提取模块。

信息关键词提取模，用于提取语意信息的关键词，以及提取组合语意信息的关键词。

上述分段声纹获取模块，在语意信息不符合预设语法规则、语意信息的关键词不同时存在一个词库或在本地指令库中不存在与语意信息的关键词对应的指令时，判定语意信息不满足预设规则。

上述识别结果确定模块，在组合语意信息符合预设语法规则，组合语意信息的关键词同时存在于一个词库且在本地指令库中存在与组合语意的关键词对应的指令时，判定组合语意信息满足预设规则。

在其中一个实施例中，语意信息确定模块包括：

识别模块，用于对待识别语音信息进行语音识别，获得语意信息。

或者

信息发送模块，用于将待识别语音信息发送至云端服务器。

语意信息获取模块，用于接收云端服务器对待识别语音信息进行语音识别的识别结果，将识别结果作为语意信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音识别方法，其特征在于，还包括步骤：

在所述组合语意信息不满足所述预设规则时，返回在本地声纹数据库中存在尚未匹配过的声纹信息时，从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。

3.根据权利要求1所述的语音识别方法，其特征在于，还包括步骤：

在所述语意信息满足所述预设规则时，将所述语意信息作为语音识别结果；

4.根据权利要求3所述的语音识别方法，其特征在于，在所述语意信息满足所述预设规则时，将所述语意信息作为语音识别结果之后，还包括步骤：

提取所述待识别语音信息的声纹信息；

将提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息进行比对；

在提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的所述声纹信息存储于所述本地声纹数据库。

5.根据权利要求4所述的语音识别方法，其特征在于，将所述声纹信息存储于所述本地声纹数据库的方式包括：

建立提取的所述声纹信息的用户标识；

将提取的所述声纹信息与对应的所述用户标识关联存储于所述本地声纹数据库，并将所述用户标识的优先等级初始化为初始等级。

6.根据权利要求5所述的语音识别方法，其特征在于，还包括步骤：

在提取的所述声纹信息与所述本地声纹数据库中存储的声纹信息匹配成功时，将提取的所述声纹信息对应的用户标识的优先等级增加预设等级。

7.根据权利要求1所述的语音识别方法，其特征在于，所述本地声纹数据库中存储的声纹信息与用户标识对应；

从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的方式包括：

根据所述用户标识的优先等级的预设等级顺序，从所述本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。

8.根据权利要求1所述的语音识别方法，其特征在于，

在确定所述待识别语音信息的语意信息之后，对所述待识别语音信息进行分段处理之前，还包括步骤：提取所述语意信息的关键词；

当所述语意信息不符合预设语法规则、所述语意信息的关键词不同时存在一个词库或在本地指令库中不存在与所述语意信息的关键词对应的指令时，判定所述语意信息不满足所述预设规则；

在确定所述组合语音信息的组合语意信息之后，将所述组合语意信息作为语音识别结果之前，还包括步骤：提取所述组合语意信息的关键词；

当所述组合语意信息符合所述预设语法规则，所述组合语意信息的关键词同时存在于一个词库且在所述本地指令库中存在与所述组合语意的关键词对应的指令时，判定所述组合语意信息满足所述预设规则。

9.一种语音识别装置，其特征在于，包括：

10.根据权利要求9所述的语音识别装置，其特征在于，还包括：

返回模块，用于在所述组合语意信息不满足所述预设规则时，返回在本地声纹数据库中存在尚未匹配过的声纹信息时，从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。

11.根据权利要求9所述的语音识别装置，其特征在于，所述识别结果确定模块，用于在所述语意信息满足所述预设规则时，将所述语意信息作为语音识别结果。

12.根据权利要求11所述的语音识别装置，其特征在于，还包括：

语音声纹提取模块，用于提取所述待识别语音信息的声纹信息；

声纹比对模块，用于将提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息进行比对；

存储模块，用于在提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的所述声纹信息存储于所述本地声纹数据库。

13.根据权利要求12所述的语音识别装置，其特征在于，所述存储模块包括：

标识建立模块，用于建立提取的所述声纹信息的用户标识；

初始化模块，用于将提取的所述声纹信息与对应的所述用户标识关联存储于所述本地声纹数据库，并将所述用户标识的优先等级初始化为初始等级。

14.根据权利要求13所述的语音识别装置，其特征在于，还包括：

等级增加模块，用于在提取的所述声纹信息与所述本地声纹数据库中存储的声纹信息匹配成功时，将提取的所述声纹信息对应的用户标识的优先等级增加预设等级。

15.根据权利要求9所述的语音识别装置，其特征在于，所述本地声纹数据库中存储的声纹信息与用户标识对应；

所述待匹配声纹信息获取模块，用于根据所述用户标识的优先等级的预设等级顺序，从所述本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。

16.根据权利要求9所述的语音识别装置，其特征在于，还包括：信息关键词提取模块；

所述信息关键词提取模块，用于提取所述语意信息的关键词，以及提取所述组合语意信息的关键词；

所述分段声纹获取模块，在所述语意信息不符合预设语法规则、所述语意信息的关键词不同时存在一个词库或在本地指令库中不存在与所述语意信息的关键词对应的指令时，判定所述语意信息不满足所述预设规则；

所述识别结果确定模块，在所述组合语意信息符合所述预设语法规则，所述组合语意信息的关键词同时存在于一个词库且在所述本地指令库中存在与所述组合语意的关键词对应的指令时，判定所述组合语意信息满足所述预设规则。