CN105096940B

CN105096940B - 用于进行语音识别的方法和装置

Info

Publication number: CN105096940B
Application number: CN201510375427.4A
Authority: CN
Inventors: 易敏文; 贾磊; 袁正沧; 吕文玉; 燕宇飞; 袁艺; 王道龙; 李华明; 刘晓伟; 刘孟; 张钰; 方驰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2019-03-08
Anticipated expiration: 2035-06-30
Also published as: CN105096940A

Abstract

本发明提供了一种用于进行语音识别的方法和装置，其中，该方法包括以下步骤：接收用户输入的待识别语音信息；对所述待识别语音信息进行特征提取，以获取所述待识别语音信息的特征信息；将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果，其中，所述用户对应的个人语音特征库用于专门针对该用户的语音信息进行识别；输出所述待识别语音信息的识别结果。根据本发明的方案，能够提高语音识别准确率。

Description

用于进行语音识别的方法和装置

技术领域

本发明涉及信息技术领域，尤其涉及一种用于进行语音识别的方法和装置。

背景技术

语音识别技术是将语音信号转变为相应的文本或命令的技术。目前，随着智能设备日新月异的发展，语音识别已成为智能设备必备的功能之一。

然而，现有的语音识别技术对个别群体的语音的识别不够准确。例如，由于不同方言地区的用户受方言发音的影响对某些字、词发音不准，例如，受方言发音的影响，大多数湖南人会将“湖南”说成“fu nan”；大多数福建人会将“福建”说成“hu jian”；又例如，有听力障碍的用户由于受自身听力的限制，导致说话时发音不准。这些情况都会导致现有的语音识别系统对用户发出的语音识别不准。

发明内容

本发明的目的是提供一种用于进行语音识别的方法和装置。

根据本发明的一个方面，提供一种用于进行语音识别的方法，其中，该方法包括以下步骤：接收用户输入的待识别语音信息；对所述待识别语音信息进行特征提取，以获取所述待识别语音信息的特征信息；将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果，其中，所述用户对应的个人语音特征库用于专门针对该用户的语音信息进行识别；输出所述待识别语音信息的识别结果。

根据本发明的另一个方面，还提供了一种用于进行语音识别的装置，其中，该装置包括以下装置：用于接收用户输入的待识别语音信息的装置；用于对所述待识别语音信息进行特征提取，以获取所述待识别语音信息的特征信息的装置；用于将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置，其中，所述用户对应的个人语音特征库用于专门针对该用户的个人语音信息进行识别；用于输出所述待识别语音信息的识别结果的装置。

与现有技术相比，本发明具有以下优点：根据本实施例的方案，在对用户输入的待识别语音信息进行语音识别过程中，基于专门针对所述用户的语音信息进行识别的个人语音特征库进行识别，能够提高语音识别准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一个实施例的用于进行语音识别的方法的流程示意图；

图2为本发明一个实施例的将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的步骤的流程示意图；

图3为本发明另一个实施例的用于进行语音识别的方法的流程示意图；

图4为根据本发明另一个实施例的建立所述用户对应的个人语音特征库的步骤的流程示意图；

图5为本发明又一个实施例的用于进行语音识别的方法的流程示意图；

图6为本发明再一个实施例的用于进行语音识别的方法的流程示意图；

图7为本发明又再一个实施例的用于进行语音识别的方法的流程示意图；

图8为本发明一个实施例的用于进行语音识别的装置的结构示意图；

图9为本发明实施例的第一匹配装置的结构示意图；

图10为本发明另一个实施例的用于进行语音识别的装置示意图；

图11为根据本发明一个实施例的建立装置的结构示意图；

图12为本发明又一个实施例的用于进行语音识别的装置示意图；

图13为本发明再一个实施例的用于进行语音识别的装置示意图；

图14为本发明又再一个实施例的用于进行语音识别的装置示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称“计算机设备”，也称为“电脑”，是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备，其可以包括处理器与存储器，由处理器执行在存储器中预存的存续指令来执行预定处理过程，或是由ASIC、FPGA、DSP等硬件执行预定处理过程，或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。

所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA、智能手表、智能手环等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

应当理解的是，当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。与此相对，当一个单元被称为“直接连接”或“直接耦合”到另一单元时，则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”，“与...邻近”相比于“与...直接邻近”等等)。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本发明作进一步详细描述。

图1为本发明一个实施例的用于进行语音识别的方法的流程示意图。

其中，本实施例的方法可通过用户设备或网络设备来实现；其中，所述用户设备包括但不限于PC机、平板电脑、智能手机、PDA等。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云。

根据本实施例的方法包括步骤S110、步骤S120、步骤S130和步骤S140。

在步骤S110中，接收用户输入的待识别语音信息。

其中，所述待识别语音信息可以由用户在用户设备中输入，并由用户设备对接收到的待识别语音信息进行识别。或者，所述待识别语音信息可以由用户在用户设备中输入，网络设备通过用户设备接收该用户输入的待识别语音信息并进行语音识别。所述待识别语音信息可以为音频信息或视频信息。

在步骤S120中，对所述待识别语音信息进行特征提取，以获取所述待识别语音信息的特征信息。

对待识别语音信息进行特征提取就是去除待识别语音信息中对于语音识别无用的冗余信息，保留能够反映语音本质特征的信息，并用一定的形式表示出来。具体而言，可以提取出语音信息中反映语音信息特征的特征参数，并形成特征矢量序列作为所述待识别语音信息的特征信息，以便用于后续处理。提取的语音信息的特征可以包括时域和频域两种。其中，时域特征例如可以包括：短时平均能量、短时平均过零率、共振峰、基音周期等；频域特征例如可以包括：线性预测系数(LPC)、LP倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱系数(MFCC)等。

需要说明的是，上述特征信息仅为举例，本领域技术人员应该理解，任何能够反映语音信息特征的信息均应包含在本发明所述的特征信息的范围内。

在步骤S130中，将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

其中，所述用户对应的个人语音特征库用于专门针对该用户个人的语音信息进行识别。

图2为本发明一个实施例的将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的步骤的流程示意图。

如图2所示，步骤S130可以进一步包括步骤S1301和步骤S1302。

在步骤S1301中，对所述用户进行身份识别，以确定所述用户对应的个人语音特征库。

具体地，可以建立每个用户的身份标识信息与该用户对应的个人语音特征库的对应关系，并保存每个用户的身份标识信息与该用户对应的个人语音特征库的对应关系，从而在进行语音识别时，通过识别用户的身份识别信息，确定该用户对应的个人语音特征库。

其中，对所述用户进行身份识别，以确定所述用户对应的个人语音特征库的实现方式包括但不限于：

1)根据所述用户的账号信息识别所述用户的身份，以确定所述用户对应的个人语音特征库。

其中，所述用户的账号信息与所述用户的身份标识信息绑定(例如，身份ID)。

具体地，可以建立每个用户的身份标识信息与该用户注册的各个具有语音识别功能的应用账号的对应关系，并保存每个用户的身份标识信息与该用户的各个具有语音识别功能的应用账号的对应关系，其中，该对应关系可以保存在网络设备端。当用户登录任意应用账号并使用语音识别功能时，根据该用户的账号信息获取该账号对应的身份标识信息，从而根据该身份标识信息确定该用户对应的个人语音特征库。

2)根据当前使用的设备的标识信息识别所述用户的身份，以确定所述用户对应的个人语音特征库。

其中，设备的标识信息包括：MAC地址、UDID(Unique Device Identifier，设备唯一识别符)、IMEI(International Mobile Equipment Identity，移动设备国际识别码)、手机号码等。

具体地，可以建立每个用户的身份标识信息与该用户的一个或多个用户设备的标识信息的对应关系，并保存每个用户的身份标识信息与该用户的各个用户设备的标识信息的对应关系，其中，该对应关系可以保存在网络设备端。当用户在该一个或多个用户设备中的任意一个用户设备上使用语音识别时，获取该用户设备的标识信息，并根据该用户设备的标识信息获取对应的身份标识信息，从而根据该身份标识信息确定该用户对应的个人语音特征库。

3)从所述待识别语音信息中提取所述用户的声纹信息，并根据所述声纹信息识别所述用户的身份，以确定所述用户对应的个人语音特征库。

声纹(Voiceprint)是指用电声学仪器显示的携带言语信息的声波频谱。声纹不仅具有特定性，而且有相对稳定性的特点，因此同指纹一样具有身份识别的作用。

具体地，可以建立每个用户的声纹信息与身份标识信息的对应关系，并保存每个用户的身份标识信息与该用户的声纹信息的对应关系，其中，该对应关系可以保存在网络设备端。当进行语音识别时，从接收到的待识别语音信息中提取所述用户的声纹信息，并通过声纹鉴定技术将提取的声纹信息与保存的每个用户的声纹信息进行对比，以确定该声纹信息对应的身份标识信息，从而确定所述用户对应的个人语音特征库。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何对所述用户进行身份识别，以确定所述用户对应的个人语音特征库的实现方式，均应包含在本发明的范围内。

在步骤S1302中，将所述特征信息在确定的所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

其中，所述用户对应的个人语音特征库中保存有根据所述用户的个人语音数据建立的多个语音模型。该多个语音模型是根据从该用户的个人语音数据中提取的特征信息进行模型训练得到的。将提取的待识别语音信息的特征信息与该用户对应的个人语音特征库中的多个语音模型进行匹配以获取识别结果。其中，获取的所述待识别语音信息的识别结果为至少一个识别结果。具体而言，在进行模型匹配时可能获取到多个识别结果，可以根据各个识别结果的匹配度确定其中的至少一个为所述待识别语音的识别结果。其中，所述匹配度可以为进行语音识别过程中得到的各个识别结果的置信度，置信度高低能够直接反应识别结果的可靠程度。例如，根据各个识别结果的置信度从高到低，确定其中预定数量个置信度最高的识别结果为所述待识别语音的识别结果；或者，根据各个识别结果置信度，确定其中置信度达到预定阈值的识别结果为所述待识别语音的识别结果。

在步骤S140中，输出所述待识别语音信息的识别结果。

具体地，可以向所述用户显示所述待识别语音的识别结果。其中，获取的所述待识别语音信息的识别结果为多个识别结果时，可以根据各个识别结果的匹配度从高到低的顺序向所述用户显示获取的多个识别结果，由用户从该多个识别结果中确定一个识别结果。

本发明的方法应用于可接收并执行语音命令的应用中时，可以包括根据用户确定的识别结果进行进一步操作的步骤。例如，用户在搜索引擎中通过语音输入的方式输入查询词时，向用户显示对用户输入的语音信息进行识别的多个识别结果，并接收用户从该多个识别结果中确定的识别结果，对该识别结果执行搜索操作。

现有语音识别技术对个别群体的语音的识别不够准确。例如，由于不同方言地区的用户受方言发音的影响对某些字、词发音不准，或者，有听力障碍的用户由于受自身听力的限制，导致说话时发音不准。

根据本实施例的方案，在对用户输入的待识别语音信息进行语音识别过程中，基于专门针对所述用户的语音信息进行识别的个人语音特征库进行识别，能够提高语音识别准确率。

图3为本发明另一个实施例的用于语音识别的方法的流程示意图。

根据本实施例的方法包括步骤S110、步骤S120、步骤S130和步骤S140，还进一步包括步骤S100。所述步骤S110、步骤S120、步骤S130和步骤S140已在参照图1中予以详述，在此不再赘述。

在步骤S100中，建立所述用户对应的个人语音特征库。其中，所述用户对应的个人语音特征库中包含多个所述用户对应的个人语音模型。其中，每个所述用户对应的个人语音模型是根据所述用户的个人语音数据进行模型训练而建立的。

图4为根据本发明另一个实施例的建立所述用户对应的个人语音特征库的步骤的流程示意图。如图4所示，建立所述用户对应的个人语音特征库的步骤包括步骤S1001、步骤S1002和步骤S1003。

在步骤S1001中，收集所述用户的语音数据。

所述用户的语音数据包括所述用户发出的语音信息以及相应的识别结果。其中，收集所述用户的语音数据的实现方式包括但不限于：

1)从所述待识别语音信息中提取所述用户的声纹信息，根据所述声纹信息从历史语音数据中获取所述用户的语音数据。

具体地，可以将提取的所述用户的声纹信息与历史语音数据库中保存的历史语音数据的声纹信息进行比对，从而获取该用户的历史语音数据，以备进行语音模型训练。

2)对接收到的所述用户输入的语音信息进行识别，并向所述用户显示所述语音信息的至少一个识别结果；接收所述用户从所述至少一个识别结果中确认的识别结果，作为所述用户的语音数据。

其中，对接收到的所述用户输入的语音信息进行识别的过程可以参考前述实施例中的步骤。向用户显示所述至少一个识别结果时，可以按照各个识别结果的匹配度(该识别结果为真实结果的可信程度，例如，可以为置信度)从高到低顺序进行显示，将匹配度最高的识别结果显示在最前面。从而用户可以在显示的所述至少一个识别结果中快速找到最接近真实结果的识别结果。

采用上述实现方式2)可以在用户使用语音识别系统的过程中，将用户输入的语音信息进行识别后，保存该语音信息以及用户确认的结果作为所述用户的语音数据，从而在用户使用语音识别系统的过程中不断地完善该用户的个人语音特征库。

3)接收所述用户根据给定的文本信息输入的语音信息，作为所述用户的语音数据。

具体地，可以向用户显示给定的文本信息，由用户根据该文本信息进行朗读(可以为多次朗读)，将接收到的用户朗读的语音信息与该给定的文本信息作为该用户的语音数据进行保存，以备进行语音模型训练。

步骤S1002，对所述用户的语音数据进行特征提取，以获取所述用户的语音数据的特征信息。

具体而言，所述用户的语音数据包含所述用户的语音信息，因此可以对该用户的语音数据包含的语音信息进行特征提取，以获取所述用户的语音数据的特征信息。因此，步骤1002可以参考前述步骤S120中对所述待识别语音信息进行特征提取的步骤，此处不再赘述。

步骤S1003，根据所述用户的语音数据的特征信息进行模型训练，以建立所述用户对应的个人语音模型。

具体地，可以采用统计模型的方式，例如隐马尔可夫模型(HMM)对提取的特征信息进行模型训练，以建立所述用户对应的多个个人语音模型。其中，建模语音单元可以是音素，音节，词等各个层次。

图5为本发明又一个实施例的用于进行语音识别的方法的流程示意图。

根据本实施例的方法包括步骤S110、步骤S120、步骤S130和步骤S140。其中，在步骤S130中如果在所述用户对应的个人语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则该方法进一步包括步骤S150，其中步骤S150可以在步骤S140之前执行。所述步骤S110、步骤S120、步骤S130和步骤S140已在参照图1中予以详述，在此不再赘述。

在步骤S150中，将所述待识别语音信息的特征信息在地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

具体地，将所述待识别语音信息的特征信息在所述用户对应的个人语音特征库中进行匹配时，可能存在未获取到所述待识别语音信息的识别结果的情况，例如，该用户首次进行语音识别或者进行语音识别的次数较少，导致所建立的该用户的个人语音模型数量较少，因此未能匹配到识别结果。或者，可能存在所获取的所述待识别语音信息的识别结果未达到预定匹配度的情况，则可以将所述待识别语音信息的特征信息在地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

所述地域语音特征库可以为多个不同地域分别对应的多个地域语音特征库。其中，每个地域对应的地域语音特征库用于针对来自所对应的地域的用户的语音信息进行语音识别。每个地域对应的地域语音特征库中包含多个语音模型，每个地域语音特征库包含的多个语音模型是根据该地域语音特征库所对应的地域的至少一个用户(该用户的母语为该地域的方言，或该用户口音受该地域方言口音影响)的符合预定条件(例如，训练的语音为普通话或该地域的方言)语音数据进行模型训练得到的。

将所述待识别语音信息的特征信息在多个不同地域分别对应的多个地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。并且，根据获取的匹配结果所属的地域语音数据库可以确定所述用户所属的地域，当再次对该用户的语音信息进行识别时，可以优先在确定的地域所对应的地域语音数据库中进行匹配。

根据本实施例的方案，如果基于专门针对所述用户的语音信息进行识别未匹配到识别结果，则将所述待识别语音信息的特征信息在多个不同地域分别对应的多个地域语音特征库中进行匹配，能够提高语音识别准确率。

图6为本发明再一个实施例的用于进行语音识别的方法的流程示意图。

根据本实施例的方法包括步骤S110、步骤S120、步骤S130和步骤S140。其中，在步骤S130中如果在所述用户对应的个人语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则该方法进一步包括步骤S160，其中步骤S160可以在步骤S140之前执行。所述步骤S110、步骤S120、步骤S130和步骤S140已在参照图1中予以详述，在此不再赘述。

在步骤S160中，将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

其中，所述基础语音特征库用于针对非特定用户的语音信息进行语音识别。所述基础语音特征库中可以包含多个用于识别非特定用户的语音信息的语音模型。所述多个用于识别非特定用户的语音信息的语音模型可以为根据多个用户的语音数据进行模型训练得到的。也就是说，所述基础语音特征库可以用于对非特定用户(例如，语音识别系统的所有用户)的符合预定条件的(例如，普通话)语音信息进行识别。因此，如果在所述用户对应的个人语音特征库中进行匹配，未获取到识别结果，或者所获取的识别结果未达到预定匹配度，可以在基础语音数据库中进行匹配，以获取所述待识别语音信息的识别结果。

图7为本发明又再一个实施例的用于进行语音识别的方法的流程示意图。

根据本实施例的方法包括步骤S110、步骤S120、步骤S130和、步骤S140和步骤S150。其中，还进一步包括步骤S160，其中步骤S160可以在步骤S140之前执行。所述步骤S110、步骤S120、步骤S130、步骤S140、步骤150和步骤S160已在参照图1、图5和图6中予以详述，在此不再赘述。

具体地，如果在步骤S150中在所述用户对应的个人语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则在步骤S160中，将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

图8为本发明一个实施例的用于进行语音识别的装置的结构示意图。该用于进行语音识别的装置(以下简称为“语音识别装置”)包括用于接收用户输入的待识别语音信息的装置(以下简称为“语音接收装置1”)、用于对所述待识别语音信息进行特征提取，以获取所述待识别语音信息的特征信息的装置(以下简称为“特征提取装置2”)、用于将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置(以下简称为“第一匹配装置3”)、以及用于输出所述待识别语音信息的识别结果的装置(以下简称为“结果输出装置4”)。根据本发明的语音识别装置可以应用于网络设备中或用户设备中。

语音接收装置1接收用户输入的待识别语音信息。

特征提取装置2对所述待识别语音信息进行特征提取，以获取所述待识别语音信息的特征信息。

对待识别语音信息进行特征提取就是去除待识别语音信息中对于语音识别无用的冗余信息，保留能够反映语音本质特征的信息，并用一定的形式表示出来。具体而言，特征提取装置2可以提取出语音信息中反映语音信息特征的特征参数，并形成特征矢量序列作为所述待识别语音信息的特征信息，以便用于后续处理。提取的语音信息的特征可以包括时域和频域两种。其中，时域特征例如可以包括：短时平均能量、短时平均过零率、共振峰、基音周期等；频域特征例如可以包括：线性预测系数(LPC)、LP倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱系数(MFCC)等。

第一匹配装置3将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。其中，所述用户对应的个人语音特征库用于针对该用户个人发出的语音信息进行识别。

图9为本发明实施例的第一匹配装置3的结构示意图。第一匹配装置3可以进一步包括用于对所述用户进行身份识别，以确定所述用户对应的个人语音特征库的装置(以下简称为“确定子装置31”)，以及用于将所述特征信息在确定的所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置(以下简称为“匹配子装置32”)。

其中，确定子装置31对所述用户进行身份识别，以确定所述用户对应的个人语音特征库。

具体地，可以建立每个用户的身份标识信息与该用户对应的个人语音特征库的对应关系，并保存每个用户的身份标识信息与该用户对应的个人语音特征库的对应关系，从而确定子装置31在进行语音识别时，通过识别用户的身份识别信息，确定该用户对应的个人语音特征库。

其中，确定子装置31对所述用户进行身份识别，以确定所述用户对应的个人语音特征库的实现方式包括但不限于：

1)确定子装置31包括用于根据所述用户的账号信息识别所述用户的身份，以确定所述用户对应的个人语音特征库的装置(以下简称为“第一确定子装置”)。

具体地，可以建立每个用户的身份标识信息与该用户注册的各个具有语音识别功能的应用账号的对应关系，并保存每个用户的身份标识信息与该用户的各个具有语音识别功能的应用账号的对应关系，其中，该对应关系可以保存在网络设备端。当用户登录任意应用账号并使用语音识别功能时，第一确定子装置根据该用户的账号信息获取该账号对应的身份标识信息，从而根据该身份标识信息确定该用户对应的个人语音特征库。

2)确定子装置31包括用于根据当前使用的设备的标识信息识别所述用户的身份，以确定所述用户对应的个人语音特征库的装置(以下简称为“第二确定子装置”)。

具体地，可以建立每个用户的身份标识信息与该用户的一个或多个用户设备的标识信息的对应关系，并保存每个用户的身份标识信息与该用户的各个用户设备的标识信息的对应关系，其中，该对应关系可以保存在网络设备端。当用户在该一个或多个用户设备中的任意一个用户设备上使用语音识别时，第二确定子装置获取该用户设备的标识信息，并根据该用户设备的标识信息获取对应的身份标识信息，从而根据该身份标识信息确定该用户对应的个人语音特征库。

3)确定子装置31包括用于从所述待识别语音信息中提取所述用户的声纹信息，并根据所述声纹信息识别所述用户的身份，以确定所述用户对应的个人语音特征库的装置(以下简称为“第三确定子装置”)。

其中，声纹(Voiceprint)是指用电声学仪器显示的携带言语信息的声波频谱。声纹不仅具有特定性，而且有相对稳定性的特点，因此同指纹一样具有身份识别的作用。

具体地，可以建立每个用户的声纹信息与身份标识信息的对应关系，并保存每个用户的身份标识信息与该用户的声纹信息的对应关系，其中，该对应关系可以保存在网络设备端。当进行语音识别时，第三确定子装置从接收到的待识别语音信息中提取所述用户的声纹信息，并通过声纹鉴定技术将提取的声纹信息与保存的每个用户的声纹信息进行对比，以确定该声纹信息对应的身份标识信息，从而确定所述用户对应的个人语音特征库。

匹配子装置32将所述特征信息在确定的所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

其中，所述用户对应的个人语音特征库中保存有根据所述用户的个人语音数据建立的多个语音模型。该多个语音模型是根据从该用户的个人语音数据中提取的特征信息进行模型训练得到的。匹配子装置32将提取的待识别语音信息的特征信息与该用户对应的个人语音特征库中的多个语音模型进行匹配以获取识别结果。其中，获取的所述待识别语音信息的识别结果为至少一个识别结果。具体而言，在进行模型匹配时可能获取到多个识别结果，匹配子装置32可以根据各个识别结果的匹配度确定其中的至少一个为所述待识别语音的识别结果。其中，所述匹配度可以为进行语音识别过程中得到的各个识别结果的置信度，置信度高低能够直接反应识别结果的可靠程度。例如，根据各个识别结果的置信度从高到低，确定其中预定数量个置信度最高的识别结果为所述待识别语音的识别结果；或者，根据各个识别结果置信度，确定其中置信度达到预定阈值的识别结果为所述待识别语音的识别结果。

结果输出装置4输出所述待识别语音信息的识别结果。

具体地，结果输出装置4可以向所述用户显示所述待识别语音的识别结果。其中，获取的所述待识别语音信息的识别结果为多个识别结果时，可以根据各个识别结果的匹配度从高到低的顺序向所述用户显示获取的多个识别结果，由用户从该多个识别结果中确定一个识别结果。

本发明的方法应用于可接收并执行语音命令的应用中时，可以包括用于根据用户确定的识别结果进行进一步操作的装置(简称“操作装置”)。例如，用户在搜索引擎中通过语音输入的方式输入查询词时，向用户显示对用户输入的语音信息进行识别的多个识别结果，并接收用户从该多个识别结果中确定的识别结果，对该识别结果执行搜索操作。

图10为本发明另一个实施例的用于进行语音识别的装置示意图。

本实施例的语音识别装置包括语音接收装置1、特征提取装置2、特征匹配装置3、以及结果输出装置4。其中，还包括用于建立所述用户对应的个人语音特征库的装置(以下简称为“建立装置7”)。其中，所述语音接收装置1、特征提取装置2、特征匹配装置3、以及结果输出装置4已在参照图8中予以详述，在此不再赘述。

建立装置7建立所述用户对应的个人语音特征库。其中，所述用户对应的个人语音特征库中包含多个所述用户对应的个人语音模型。其中，每个所述用户对应的个人语音模型是根据所述用户的个人语音数据进行模型训练而建立的。

图11为根据本发明一个实施例的建立装置7的结构示意图。如图11所示，建立装置7包括用于收集所述用户的语音数据的装置(以下简称为“数据收集装置71”)，用于对所述用户的语音数据进行特征提取，以获取所述用户的语音数据的特征信息的装置(以下简称为“特征信息获取装置72”)以及用于根据所述用户的语音数据的特征信息进行模型训练，以建立所述用户对应的个人语音模型的装置(以下简称为“模型训练装置73”)。

数据收集装置71收集所述用户的语音数据；所述用户的语音数据包括所述用户发出的语音信息以及相应的识别结果。

其中，数据收集装置71收集所述用户的语音数据的实现方式包括但不限于：

1)数据收集装置71包括用于从所述待识别语音信息中提取所述用户的声纹信息，根据所述声纹信息从历史语音数据中获取所述用户的语音数据的装置(以下简称“第一收集子装置”)。

具体地，第一收集子装置可以将提取的所述用户的声纹信息与历史语音数据库中保存的历史语音数据的声纹信息进行比对，从而获取该用户的历史语音数据，以备进行语音模型训练。

2)数据收集装置71包括用于对接收到的所述用户输入的语音信息进行识别，并向所述用户显示所述语音信息的至少一个识别结果；接收所述用户从所述至少一个识别结果中确认的识别结果，作为所述用户的语音数据的装置(以下简称“第二收集子装置”)。

其中，第二收集子装置对接收到的所述用户输入的语音信息进行识别的过程可以参考前述实施例。第二收集子装置向用户显示所述至少一个识别结果时，可以按照各个识别结果的匹配度(该识别结果为真实结果的可信程度，例如，可以为置信度)从高到低顺序进行显示，将匹配度最高的识别结果显示在最前面。从而用户可以在显示的所述至少一个识别结果中快速找到最接近真实结果的识别结果。

3)数据收集装置71包括用于接收所述用户根据给定的文本信息输入的语音信息，作为所述用户的语音数据的装置(以下简称“第三收集子装置”)。

具体地，第三收集子装置可以向用户显示给定的文本信息，由用户根据该文本信息进行朗读(可以为多次朗读)，将接收到的用户朗读的语音信息与该给定的文本信息作为该用户的语音数据进行保存，以备进行语音模型训练。

特征信息获取装置72对所述用户的语音数据进行特征提取，以获取所述用户的语音数据的特征信息。

具体而言，所述用户的语音数据包含所述用户的语音信息，因此特征信息获取装置72可以对该用户的语音数据包含的语音信息进行特征提取，以获取所述用户的语音数据的特征信息。

模型训练装置73根据所述用户的语音数据的特征信息进行模型训练，以建立所述用户对应的个人语音模型。

具体地，模型训练装置73可以采用统计模型的方式，例如隐马尔可夫模型(HMM)对提取的特征信息进行模型训练，以建立所述用户对应的多个个人语音模型。其中，建模语音单元可以是音素，音节，词等各个层次。

图12为本发明又一个实施例的用于进行语音识别的装置示意图。

本实施例的语音识别装置包括语音接收装置1、特征提取装置2、第一匹配装置3、以及结果输出装置4。其中，还包括用于将所述待识别语音信息的特征信息在地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置(以下简称为“第二匹配装置5”)。其中，所述语音接收装置1、特征提取装置2、特征匹配装置3、以及结果输出装置4已在参照图8中予以详述，在此不再赘述。

其中，如果在所述用户对应的个人语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则第二匹配装置5将所述待识别语音信息的特征信息在地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

具体地，将所述待识别语音信息的特征信息在所述用户对应的个人语音特征库中进行匹配时，可能存在未获取到所述待识别语音信息的识别结果的情况，例如，该用户首次进行语音识别或者进行语音识别的次数较少，导致所建立的该用户的个人语音模型数量较少，因此未能匹配到识别结果；或者，可能存在所获取的所述待识别语音信息的识别结果未达到预定匹配度的情况，则第二匹配装置5可以将所述待识别语音信息的特征信息在地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

所述地域语音特征库可以为多个不同地域分别对应的多个地域语音特征库。其中，每个地域对应的地域语音特征库用于针对来自所对应的地域的用户的语音信息进行语音识别。每个地域对应的地域语音特征库中包含多个语音模型，每个地域语音特征库包含的多个语音模型是根据该地域语音特征库所对应的地域的至少一个用户(该用户的母语为该地域的方言的用户，或该用户口音受该地域方言口音影响)的符合预定条件(例如，训练的语音为普通话或该地域的方言)语音数据进行模型训练得到的。

第二匹配装置5将所述待识别语音信息的特征信息在多个不同地域分别对应的多个地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。并且，根据获取的匹配结果所属的地域语音数据库可以确定所述用户所属的地域，当再次对该用户的语音信息进行识别时，可以优先在确定的地域所对应的地域语音数据库中进行匹配。

图13为本发明再一个实施例的用于进行语音识别的装置示意图。

本实施例的语音识别装置包括语音接收装置1、特征提取装置2、第一匹配装置3、以及结果输出装置4。其中，还包括用于将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置(以下简称为“第三匹配装置6”)。其中，所述语音接收装置1、特征提取装置2、第一匹配装置3、以及结果输出装置4已在参照图8中予以详述，在此不再赘述。

其中，如果在所述用户对应的个人语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则第三匹配装置6将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

其中，所述基础语音特征库用于针对非特定用户的语音信息进行语音识别。所述基础语音特征库中可以包含多个用于识别非特定用户的语音信息的语音模型。所述多个用于识别非特定用户的语音信息的语音模型可以为根据多个用户的语音数据进行模型训练得到的。也就是说，所述基础语音特征库可以用于对非特定用户(例如，语音识别系统的所有用户)的符合预定条件的(例如，普通话)语音信息进行识别。因此，如果在所述用户对应的个人语音特征库中进行匹配，未获取到识别结果，或者所获取的识别结果未达到预定匹配度，第三匹配装置6可以将所述待识别语音信息的特征信息在基础语音数据库中进行匹配，以获取所述待识别语音信息的识别结果。

本实施例的语音识别装置包括语音接收装置1、特征提取装置2、第一匹配装置3、结果输出装置4以及第二匹配装置5。其中，还包括用于将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置(以下简称为“第三匹配装置6”)。其中，所述语音接收装置1、特征提取装置2、第一匹配装置3、结果输出装置4、第二匹配装置5、第三匹配装置6已在参照图8、图12、图13中予以详述，在此不再赘述。

其中，如果在所述用户对应的个人语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则第二匹配装置5将所述待识别语音信息的特征信息在地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。如果在所述地域语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则第三匹配装置6将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

虽然前面特别示出并且描述了示例性实施例，但是本领域技术人员将会理解的是，在不背离权利要求书的精神和范围的情况下，在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。

Claims

1.一种用于语音识别的方法，其中，该方法包括以下步骤：

接收用户输入的待识别语音信息；

对所述待识别语音信息进行特征提取，以获取所述待识别语音信息的特征信息；

将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果，其中，所述用户对应的个人语音特征库用于专门针对该用户的语音信息进行识别；

如果在所述用户对应的个人语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则

将所述待识别语音信息的特征信息在地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果，所述地域语音特征库为多个不同地域分别对应的多个地域语音特征库，其中，每个地域对应的地域语音特征库用于针对来自所对应的地域的用户的语音信息进行语音识别；

或者，

将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果，所述基础语音特征库用于针对非特定用户的语音信息进行语音识别；

输出所述待识别语音信息的识别结果。

2.根据权利要求1所述的方法，还包括：如果在所述地域语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

3.根据权利要求1所述的方法，其中，所述将所述待识别语音信息的特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的步骤包括：

对所述用户进行身份识别，以确定所述用户对应的个人语音特征库；

将所述待识别语音信息的特征信息在确定的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果。

4.根据权利要求3所述的方法，其中，所述对所述用户进行身份识别，以确定所述用户对应的个人语音特征库的步骤包括：

根据所述用户的账号信息识别所述用户的身份，以确定所述用户对应的个人语音特征库；

或者，

根据当前使用的设备的标识信息识别所述用户的身份，以确定所述用户对应的个人语音特征库；

或者，

从所述待识别语音信息提取所述用户的声纹信息，并根据所述声纹信息识别所述用户的身份，以确定所述用户对应的个人语音特征库。

5.根据权利要求1所述的方法，其中，所述方法还包括：建立所述用户对应的个人语音特征库。

6.根据权利要求5所述的方法，其中，所述建立所述用户对应的个人语音特征库的步骤包括：

收集所述用户的语音数据；

对所述用户的语音数据进行特征提取，以获取所述用户的语音数据的特征信息；

根据所述用户的语音数据的特征信息进行模型训练，以建立所述用户对应的个人语音模型。

7.根据权利要求6所述的方法，其中，所述收集所述用户的语音数据的步骤包括：

从所述待识别语音信息中提取所述用户的声纹信息，根据所述声纹信息从历史语音数据中获取所述用户的语音数据。

8.根据权利要求6所述的方法，其中，所述收集所述用户的语音数据的步骤包括：

对接收到的所述用户输入的语音信息进行识别，并向所述用户显示所述语音信息的至少一个识别结果；

接收所述用户从所述至少一个识别结果中确认的识别结果，作为所述用户的语音数据。

9.根据权利要求6所述的方法，其中，所述收集所述用户的语音数据的步骤包括：

接收所述用户根据给定的文本信息输入的语音信息，作为所述用户的语音数据。

10.一种用于进行语音识别的装置，其中，该装置包括以下装置：

用于接收用户输入的待识别语音信息的装置；

用于对所述待识别语音信息进行特征提取，以获取所述待识别语音信息的特征信息的装置；

用于将所述特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置，其中，所述用户对应的个人语音特征库用于专门针对该用户的个人语音信息进行识别；

用于如果在所述用户对应的个人语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则

将所述待识别语音信息的特征信息在地域语音特征库中进行匹配，以获取所述待识别语音信息的识别结果，所述地域语音特征库保存有不同地域对应的地域语音模型的装置，所述地域语音特征库为多个不同地域分别对应的多个地域语音特征库，其中，每个地域对应的地域语音特征库用于针对来自所对应的地域的用户的语音信息进行语音识别；

或者，

将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置，所述基础语音特征库用于针对非特定用户的语音信息进行语音识别；

用于输出所述待识别语音信息的识别结果的装置。

11.根据权利要求10所述的装置，还包括：用于如果在所述地域语音特征库中进行匹配，未获取到所述待识别语音信息的识别结果或者所获取的所述待识别语音信息的识别结果未达到预定匹配度，则将所述待识别语音信息的特征信息在基础语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置。

12.根据权利要求10所述的装置，其中，所述用于将所述待识别语音信息的特征信息在所述用户对应的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置包括：

用于对所述用户进行身份识别，以确定所述用户对应的个人语音特征库的装置；

用于将所述待识别语音信息的特征信息在确定的个人语音特征库中进行匹配，以获取所述待识别语音信息的识别结果的装置。

13.根据权利要求12所述的装置，其中，所述对所述用户进行身份识别，以确定所述用户对应的个人语音特征库的装置包括：

用于根据所述用户的账号信息识别所述用户的身份，以确定所述用户对应的个人语音特征库的装置；

或者，

用于根据当前使用的设备的标识信息识别所述用户的身份，以确定所述用户对应的个人语音特征库的装置；

或者，

用于从所述待识别语音信息提取所述用户的声纹信息，并根据所述声纹信息识别所述用户的身份，以确定所述用户对应的个人语音特征库的装置。

14.根据权利要求10所述的装置，其中，还包括：用于建立所述用户对应的个人语音特征库的装置。

15.根据权利要求14所述的装置，其中，所述用于建立所述用户对应的个人语音特征库的装置包括：

用于收集所述用户的语音数据的装置；

用于对所述用户的语音数据进行特征提取，以获取所述用户的语音数据的特征信息的装置；

用于根据所述用户的语音数据的特征信息进行模型训练，以建立所述用户对应的个人语音模型的装置。

16.根据权利要求15所述的装置，其中，所述用于收集所述用户的语音数据的装置包括：

用于从所述待识别语音信息中提取所述用户的声纹信息，根据所述声纹信息从历史语音数据中获取所述用户的语音数据的装置。

17.根据权利要求15所述的装置，其中，所述用于收集所述用户的语音数据的装置包括：

用于对接收到的所述用户输入的语音信息进行识别，并向所述用户显示所述语音信息的至少一个识别结果的装置；

用于接收所述用户从所述至少一个识别结果中确认的识别结果，作为所述用户的语音数据的装置。

18.根据权利要求15所述的装置，其中，所述用于收集所述用户的语音数据的装置包括：

用于接收所述用户根据给定的文本信息输入的语音信息，作为所述用户的语音数据的装置。