CN111785275A

CN111785275A - 语音识别方法及装置

Info

Publication number: CN111785275A
Application number: CN202010615561.8A
Authority: CN
Inventors: 焦金珂; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16

Abstract

本申请公开了一种语音识别方法及装置。该方法包括：获取待识别的语音数据；从语音数据中提取声纹特征，得到目标声纹特征；确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型；基于语音识别模型将待识别的语音数据识别为文字。通过本申请，解决了相关技术中对多人语言交流场景下的语音信息进行识别时，识别效果不准确的问题。

Description

语音识别方法及装置

技术领域

本申请涉及语音识别技术领域，具体而言，涉及一种语音识别方法及装置。

背景技术

语音识别技术是当前应用广泛的一项技术，为了追求更高的识别率，在相关技术中通常会根据说话人的语音特征信息构建不同的语音识别模型，比如针对语种类型(普通话、方言、外语种等)、身份属性(成年人、儿童等)、行业领域(教育、会议、金融等)等不同特征分别采集音频和语料数据进行训练专属的语音识别模型。

但是，当前的语音识别模型一般都是针对某一特定群体(比如普通话、英语、四川话、童音模型、金融模型等)，无法满足特定的单独个体的语音识别需求，具体地，例如，用户A和用户B都说四川话，但用户A和用户B的语调、停顿、重音、口音等不一致，同一四川话模型无法很好地适应每一个说四川话的用户。

此外，在实际使用过程中，当后台存在多个识别模型时，为了达到较好的识别率，通常需要确定适用于当前说话人的语音识别模型，相关技术中的模型切换方式不够便捷和准确，大多数模型切换还是需要用户主动发起切换动作，例如，人工手动切换模型，而那些自动切换模型的方案，往往无法精准识别用户的群体或身份，而需要各种复杂逻辑判断实现，例如和用户语音交互判断，通过用户画像标签判断，通过语言类型相似度判断等等，或者多个模型并行识别最后根据规则加权计算，容易出现判断失误，切换不精准的情况。

针对相关技术中对多人语言交流场景下的语音信息进行识别时，识别效果不准确的问题，目前尚未提出有效的解决方案。

发明内容

本申请提供一种语音识别方法及装置，以解决相关技术中对多人语言交流场景下的语音信息进行识别时，识别效果不准确的问题。

根据本申请的一个方面，提供了一种语音识别方法。该方法包括：获取待识别的语音数据；从语音数据中提取声纹特征，得到目标声纹特征；确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型；基于语音识别模型将待识别的语音数据识别为文字。

可选地，确定目标声纹特征对应的目标对象包括：将目标声纹特征与数据库中的多组预设声纹特征进行匹配，其中，每组预设声纹特征分别关联有预设身份信息，预设身份信息为预设声纹特征对应的语音信息的发出对象的身份信息；获取与目标声纹特征的匹配度最高的一组预设声纹特征，得到第一预设声纹特征；获取第一预设声纹特征关联的预设身份信息；基于第一预设声纹特征关联的预设身份信息确定目标对象。

可选地，语音识别模型包括声学模型和语言模型，其中，声学模型用于判断预设语音数据属于预设声学字符的概率，语言模型用于判断预设声学字符序列属于预设文字序列的概率，基于语音识别模型将待识别的语音数据识别为文字包括：将待识别的语音数据输入声学模型，得到目标声学字符串；将目标声学字符串输入语言模型，得到目标文字序列；根据目标文字序列确定语音数据对应的文字结果。

可选地，在确定目标声纹特征对应的目标对象之前，该方法还包括：采集目标对象对应的基础语料数据；基于基础语料数据提取目标对象的声纹特征；获取目标对象的身份信息；建立目标对象的身份信息和目标对象的声纹特征之间的关联关系。

可选地，在确定用于识别目标对象的语音数据的语音识别模型之前，该方法还包括：采集目标对象对应的基础语料数据；从基础语料中获取基础语音信息，并标注基础语音信息对应的声学字符信息；将基础语音信息以及基础语音信息对应的声学字符信息作为训练集数据，训练得到声学模型。

可选地，在确定用于识别目标对象的语音数据的语音识别模型之前，该方法还包括：采集目标对象对应的基础语料数据；从基础语料中获取基础文本信息，并标注基础文本信息对应的声学字符信息；将基础文本信息以及基础文本信息对应的声学字符信息作为训练集数据，训练得到语言模型。

可选地，在将目标声纹特征与数据库中的多组预设声纹特征进行匹配之后，该方法还包括：在数据库中不存在与目标声纹特征匹配的预设声纹特征的情况下，将预设语音识别模型确定为语音识别模型。

可选地，获取待识别的语音数据包括：获取目标场景下当前发言对象的语音数据，得到待识别的语音数据，其中，目标场景为多人语音交流场景。

可选地，获取待识别的语音数据包括：获取目标场景下的录音数据，其中，目标场景为多人语音交流场景；采用预设规则切分录音数据，得到多个录音片段；获取多个录音片段中的目标录音片段，并将目标录音片段作为待识别的语音数据。

根据本申请的另一方面，提供了一种语音识别装置。该装置包括：第一获取单元，用于获取待识别的语音数据；第一提取单元，用于从语音数据中提取声纹特征，得到目标声纹特征；第一确定单元，用于确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型；识别单元，用于基于语音识别模型将待识别的语音数据识别为文字。

通过本申请，采用以下步骤：获取待识别的语音数据；从语音数据中提取声纹特征，得到目标声纹特征；确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型；基于语音识别模型将待识别的语音数据识别为文字，解决了相关技术中对多人语言交流场景下的语音信息进行识别时，识别效果不准确的问题。通过待识别的语音数据的声纹特征确定对应的语音识别模型，进而达到了提高识别多人语言交流场景下的语音信息的准确度的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的语音识别方法的流程图；以及

图2是根据本申请实施例提供的语音识别装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请的实施例，提供了一种语音识别方法。

图1是根据本申请实施例的语音识别方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，获取待识别的语音数据。

需要说明的是，待识别的语音数据为多人交流场景下的语音数据，可以是实时获取的语音数据，也可以是录制的语音数据。

在待识别的语音数据为实时获取的语音数据时，可选地，获取待识别的语音数据包括：获取目标场景下当前发言对象的语音数据，得到待识别的语音数据，其中，目标场景为多人语音交流场景。

例如，目标场景可以为多人会议场景，参会的人员轮流进行发言，获取当前发言对象的语音数据，得到待识别的语音数据。

待识别的语音数据还可以是录制的语音数据，可选地，获取待识别的语音数据包括：获取目标场景下的录音数据，其中，目标场景为多人语音交流场景；采用预设规则切分录音数据，得到多个录音片段；获取多个录音片段中的目标录音片段，并将目标录音片段作为待识别的语音数据。

需要说明的是，除了实时在线会议的场景，在离线非实时场景下，也可以进行待识别的语音数据的获取，具体地，上传一段多人讲话的录音，通过系统对该段音频进行音频段切分，得到多个音频片段，进而识别出每小段音频的发言人身份，并识别相应发言人的音频的语音。

步骤S102，从语音数据中提取声纹特征，得到目标声纹特征。

具体地，声纹特征包括音色、频率、响度等特征，在本申请中，可以提取语音数据的至少一种声纹特征作为目标声纹特征。

步骤S103，确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型。

具体地，通过声纹识别的方式确定目标声纹特征对应的目标对象，需要说明的是，声纹识别即为说话人识别，包括说话人辨认和说话人确认两类，其中，说话人辨认用以判断某段语音是若干人中的哪一个所说的，也即进行“多选一”的选择，本申请实施例中的声纹识别即为说话人辨认。

此外，还需要说明的是，为了提高语音识别准确度，提前为不同的目标对象训练对应的语音识别模型，在确定目标对象后，即可根据目标对象确定相应的语音识别模型。

在确定目标声纹特征对应的目标对象之前已经建立了预设声纹特征与对应对象的身份信息之间的关联关系，可选地，在本申请实施例提供的语音识别方法中，确定目标声纹特征对应的目标对象包括：将目标声纹特征与数据库中的多组预设声纹特征进行匹配，其中，每组预设声纹特征分别关联有预设身份信息，预设身份信息为预设声纹特征对应的语音信息的发出对象的身份信息；获取与目标声纹特征的匹配度最高的一组预设声纹特征，得到第一预设声纹特征；获取第一预设声纹特征关联的预设身份信息；基于第一预设声纹特征关联的预设身份信息确定目标对象。

具体地，数据库为声纹库，声纹库中存储有多组已注册的声纹特征，也即，存储的声纹特征已建立与对应对象的身份信息之间的关联关系。将目标声纹特征与声纹库中的多组已注册的声纹特征进行比对，获取相似度大于设定阈值的声纹特征，并将该声纹特征关联的对象确定为待识别的语音数据的发出对象，也即目标对象。

此外，在获取到多个相似度大于设定阈值的声纹特征时，将与目标声纹特征的相似度最高的声纹特征关联的对象确定为目标对象。

此外，在声纹库中获取不到相似度大于设定阈值的声纹特征时，如待识别的语音数据对应的发言人之前未注册声纹库，则输出结果为空或特殊标识。

需要提前建立声纹库，可选地，在确定目标声纹特征对应的目标对象之前，该方法还包括：采集目标对象对应的基础语料数据；基于基础语料数据提取目标对象的声纹特征；获取目标对象的身份信息；建立目标对象的身份信息和目标对象的声纹特征之间的关联关系。

具体地，收集目标对象的基础语料数据，基础语料数据可以包括会议录音、演讲音频、聊天语音等音频数据，以及演讲稿、会议记录、材料文案等文本数据。

对收集到的音频数据进行初步筛选，去除音频不清晰、有严重噪音、音频格式被严重压缩或损坏、无法辨识说话人的音频数据，保留相对干净且清晰的音频数据，用于提取目标人的声纹特征信息，提取的声纹特征可以包括音色、频率、响度等特征。需要说明的是，收集的目标对象的音频数据越多，且音频数据越干净，则声纹特征越明显，后续的声纹识别准确率越高。

进一步的，将所提取出的声纹特征存储起来，并与目标对象的身份信息相匹配，从而建立声纹特征库，用于形成声纹特征信息和目标人个人信息相匹配的关联关系，其中，身份信息包含但不限于姓名、身份证号、手机号等可辨识的标识。

步骤S104，基于语音识别模型将待识别的语音数据识别为文字。

具体地，通过本申请实施例，能够在多人语音交流场景下，识别待识别语音数据对应的目标对象，并动态切换为目标对象对应的语音识别模型进行语音识别，从而显著提高语音识别准确率。

需要说明的是，声学模型为实验概率统计的模型，是对带有声学信息的语音基本单元建立模型，描述其统计特性，声学模型可以理解为是对发声的建模，它能够把语音输入转换成声学表示的输出，也即，能够给出语音属于某个声学字符的概率。

而语言模型，是在声学模型给出发音序列之后，基于发音序列从候选的文字序列中找出概率最大的字符串序列。

本申请实施例提供的语音识别方法，通过获取待识别的语音数据；从语音数据中提取声纹特征，得到目标声纹特征；确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型；基于语音识别模型将待识别的语音数据识别为文字，解决了相关技术中对多人语言交流场景下的语音信息进行识别时，识别效果不准确的问题。通过待识别的语音数据的声纹特征确定对应的语音识别模型，进而达到了提高识别多人语言交流场景下的语音信息的准确度的效果。

需要提前训练声学模型，可选地，在确定用于识别目标对象的语音数据的语音识别模型之前，该方法还包括：采集目标对象对应的基础语料数据；从基础语料中获取基础语音信息，并标注基础语音信息对应的声学字符信息；将基础语音信息以及基础语音信息对应的声学字符信息作为训练集数据，训练得到声学模型。

具体地，收集目标对象在日常工作生活中的基础语料数据，包括会议录音、演讲音频、聊天语音等音频数据，以及演讲稿、会议记录、材料文案等文本数据。

需要说明的是，由于采集到的基础语料数据来源广泛，且包含不同场景不同背景噪音等条件下的音频数据，需要对上述音频数据进行人工标注，以实现音字对照。具体地，音频标注是指对一段音频中的音频数据进行切割，切分为一句一句的音频片段，并去除无有效人声的静音段或背景音段，并针对每一小段音频进行人工听写并对应时间戳，以实现音字对照。需要说明的是，如果事先采集到与音频相对应的文本文件，如演讲稿、会议记录、材料文案等文本数据，则音频标注的步骤可以更高效的完成。

在对音频数据进行人工标注后，进行声学模型的训练，具体地，根据音频数据及标注结果提取该目标对象的语音特征，通过深度学习训练该目标对象的个性化声学模型。需要说明的是，如果该目标对象说的是某种类型的语音，则可以基于该种类型的语言的基础模型加上该目标对象的语音特征进行增量训练，以实现更精准的识别该目标对象的该种类型的语音。例如，该目标对象说的是四川话，则可以基于四川话基础模型加上该目标对象的语音特征进行增量训练，以实现更精准的识别该目标对象的四川话语音；同理，在该目标对象说的是普通话、童音等都可以基于本申请实施例进行增量训练，得到对应的声学模型。

需要提前训练语言模型，可选地，在确定用于识别目标对象的语音数据的语音识别模型之前，该方法还包括：采集目标对象对应的基础语料数据；从基础语料中获取基础文本信息，并标注基础文本信息对应的声学字符信息；将基础文本信息以及基础文本信息对应的声学字符信息作为训练集数据，训练得到语言模型。

需要说明的是，由于该目标对象可能处于不同的行业领域，则同一个音节可能会识别成不同的文字，比如，“dai’kuan”对于金融行业的人来说，较大可能应识别为“贷款”，而对于电子信息行业的人来说，较大可能应识别为“带宽”。本申请获取目标对象的基础语料数据中的演讲稿、会议记录、材料文案等文本数据，并进行字音标注，根据文本数据以及标注结果训练该目标人的语言模型，从而实现更高概率地识别出该目标人所处行业或环境下的常用词汇的语音。

进一步地，通过训练后的声学模型和语言模型共同构成了该目标对象的个性化语音识别模型，该个性化语音识别模型能够针对目标人的说话特征(如口音、音调等)及语言特征更准确地进行语音识别。在得到该个性化语音识别模型，对模型进行存储该并与该目标人的个人信息相匹配，建立语音识别模型库，从而形成语音识别模型库和目标人个人信息相匹配的对照关系，其中，个人信息包含但不限于姓名、身份证号、手机号等可辨识的标识。

具体地，预设语音识别模型可以为通用的语音识别模型，在声纹库中获取不到相似度大于设定阈值的声纹特征时，如待识别的语音数据对应的发言人之前未注册声纹库，可以采用通用的语音识别模型对待识别的语音数据进行识别。需要说明的是，通用语音模型为收集了各行各业、各种口音方言、各种不同场景下的语音识别模型，其优点是能够识别不同语言类型，不同行业场景下的语音数据，其缺点是识别率相对较低。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请的实施例，提供了另一种语音识别方法。

该语音识别方法的场景为多人会议场景，在该多人会议上，有金融行业的四川话口音的领导A，有保险行业的上海话口音的领导B，也有说普通话的房地产企业代表C等人，会议采用语音识别技术，需要采用语音识别方法实时将发言人的讲话内容以文本字幕形式展示在大屏幕上，并将文本内容记录保存下来以生成会后的会议记录。

具体地，在会议开始前，需要采集目标人A、B、C等人的语音语料数据，包含音频、文本等，并分别识别目标人的声纹特征，建立声纹特征与个人信息之间的关联关系，完成声纹注册，从而构建声纹库。同时，采集每个目标人的日常语料数据，并进行标注，根据日常语料数据以及标注结果训练每个人对应的个性化语音识别模型，并形成模型和个人信息之间的对照关系，构建模型库。

在开会的过程中，通过会议麦克风等硬件设备实时的获取发言人的语音数据，并采用声纹识别技术对语音数据进行说话人辨识。具体地，对获取到的语音数据提取声纹特征，并将提取的声纹特征和声纹库已注册的特征进行比对，从而判断出该语音数据的发言人，输出该发言人的身份标识。

进一步地，在得到该发言人的身份标识后，根据发言人身份标识则自动将当前的语音识别模型切换为与该发言人相对应的专属语音识别模型。需要说明的是，如果发言人中存在预先未进行声纹注册及语音模型训练的用户，则上无法识别该发言人的身份，也没有与之匹配的个性化语音模型，则收到上述声纹识别模块输出的空标识或特殊标识后，自动将当前的语音识别模型切换为通用语音模型。

最后，采用切换后的语音识别模型，对采集到的音频数据进行语音识别，并输出识别后的文本信息。通过本申请实施例，能够实现在多人语音交流场景下，识别发言人的身份信息并动态切换为该发言人的个人语音模型，能够显著提高语音识别准确率。

此外，需要说明的是，本申请实施例除了可以应用在实时在线会议的场景，要求实时录音，实时切换模型和实时语音转文字。还可以应用在离线非实时场景下，具体地，可以通过上传一段多人讲话的录音(可能是前几天开会录的，非现场实时)，然后系统对该段音频进行音频段切分，对每一小片段的音频进行声纹识别，识别出该小段音频的发言人身份后，切换该发言人的个性化语音识别模型并进行识别输出文本结果，最终将各个片段的音频所对应的个性化模型识别出的结果进行汇总，输出整段音频的更准确的识别文本结果。

本申请实施例还提供了一种语音识别装置，需要说明的是，本申请实施例的语音识别装置可以用于执行本申请实施例所提供的用于语音识别方法。以下对本申请实施例提供的语音识别装置进行介绍。

图2是根据本申请实施例的语音识别装置的示意图。如图2所示，该装置包括：第一获取单元10、第一提取单元20、第一确定单元30和识别单元40。

具体地，第一获取单元10，用于获取待识别的语音数据。

第一提取单元20，用于从语音数据中提取声纹特征，得到目标声纹特征。

第一确定单元30，用于确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型。

识别单元40，用于基于语音识别模型将待识别的语音数据识别为文字。

本申请实施例提供的语音识别装置，通过第一获取单元10获取待识别的语音数据；第一提取单元20从语音数据中提取声纹特征，得到目标声纹特征；第一确定单元30确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型；识别单元40基于语音识别模型将待识别的语音数据识别为文字，解决了相关技术中对多人语言交流场景下的语音信息进行识别时，识别效果不准确的问题，通过待识别的语音数据的声纹特征确定对应的语音识别模型，进而达到了提高识别多人语言交流场景下的语音信息的准确度的效果。

可选地，在本申请实施例提供的语音识别装置中，第一确定单元30包括：匹配模块，用于将目标声纹特征与数据库中的多组预设声纹特征进行匹配，其中，每组预设声纹特征分别关联有预设身份信息，预设身份信息为预设声纹特征对应的语音信息的发出对象的身份信息；第一获取模块，用于获取与目标声纹特征的匹配度最高的一组预设声纹特征，得到第一预设声纹特征；第二获取模块，用于获取第一预设声纹特征关联的预设身份信息；第一确定模块，用于基于第一预设声纹特征关联的预设身份信息确定目标对象。

可选地，在本申请实施例提供的语音识别装置中，语音识别模型包括声学模型和语言模型，其中，声学模型用于判断预设语音数据属于预设声学字符的概率，语言模型用于判断预设声学字符序列属于预设文字序列的概率，识别单元40包括：第一输入模块，用于将待识别的语音数据输入声学模型，得到目标声学字符串；第二输入模块，用于将目标声学字符串输入语言模型，得到目标文字序列；第二确定模块，用于根据目标文字序列确定语音数据对应的文字结果。

可选地，在本申请实施例提供的语音识别装置中，该装置还包括：第一采集单元，用于在确定目标声纹特征对应的目标对象之前，采集目标对象对应的基础语料数据；第二提取单元，用于基于基础语料数据提取目标对象的声纹特征；第二获取单元，用于获取目标对象的身份信息；建立单元，用于建立目标对象的身份信息和目标对象的声纹特征之间的关联关系。

可选地，在本申请实施例提供的语音识别装置中，该装置还包括：第一采集单元，用于在确定用于识别目标对象的语音数据的语音识别模型之前，采集目标对象对应的基础语料数据；第三获取单元，用于从基础语料中获取基础语音信息，并标注基础语音信息对应的声学字符信息；第二确定单元，用于将基础语音信息以及基础语音信息对应的声学字符信息作为训练集数据，训练得到声学模型。

可选地，在本申请实施例提供的语音识别装置中，该装置还包括：第二采集单元，用于在确定用于识别目标对象的语音数据的语音识别模型之前，采集目标对象对应的基础语料数据；第四获取单元，用于从基础语料中获取基础文本信息，并标注基础文本信息对应的声学字符信息；第三确定单元，用于将基础文本信息以及基础文本信息对应的声学字符信息作为训练集数据，训练得到语言模型。

可选地，在本申请实施例提供的语音识别装置中，该装置还包括：第四确定单元，用于在将目标声纹特征与数据库中的多组预设声纹特征进行匹配之后，在数据库中不存在与目标声纹特征匹配的预设声纹特征的情况下，将预设语音识别模型确定为语音识别模型。

可选地，在本申请实施例提供的语音识别装置中，第一获取单元10包括第三获取模块，用于获取目标场景下当前发言对象的语音数据，得到待识别的语音数据，其中，目标场景为多人语音交流场景。

可选地，在本申请实施例提供的语音识别装置中，第一获取单元10还包括：第四获取模块，用于获取目标场景下的录音数据，其中，目标场景为多人语音交流场景；切分模块，用于采用预设规则切分录音数据，得到多个录音片段；第五获取模块，用于获取多个录音片段中的目标录音片段，并将目标录音片段作为待识别的语音数据。

所述语音识别装置包括处理器和存储器，上述第一获取单元10、第一提取单元20、第一确定单元30和识别单元40等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决相关技术中对多人语言交流场景下的语音信息进行识别时，识别效果不准确的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述语音识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述语音识别方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取待识别的语音数据；从语音数据中提取声纹特征，得到目标声纹特征；确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型；基于语音识别模型将待识别的语音数据识别为文字。

可选地，获取待识别的语音数据包括：获取目标场景下的录音数据，其中，目标场景为多人语音交流场景；采用预设规则切分录音数据，得到多个录音片段；获取多个录音片段中的目标录音片段，并将目标录音片段作为待识别的语音数据。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取待识别的语音数据；从语音数据中提取声纹特征，得到目标声纹特征；确定目标声纹特征对应的目标对象，并确定用于识别目标对象的语音数据的语音识别模型；基于语音识别模型将待识别的语音数据识别为文字。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别的语音数据；

从所述语音数据中提取声纹特征，得到目标声纹特征；

确定所述目标声纹特征对应的目标对象，并确定用于识别所述目标对象的语音数据的语音识别模型；

基于所述语音识别模型将所述待识别的语音数据识别为文字。

2.根据权利要求1所述的方法，其特征在于，确定所述目标声纹特征对应的目标对象包括：

将所述目标声纹特征与数据库中的多组预设声纹特征进行匹配，其中，每组预设声纹特征分别关联有预设身份信息，所述预设身份信息为所述预设声纹特征对应的语音信息的发出对象的身份信息；

获取与所述目标声纹特征的匹配度最高的一组预设声纹特征，得到第一预设声纹特征；

获取所述第一预设声纹特征关联的预设身份信息；

基于所述第一预设声纹特征关联的预设身份信息确定所述目标对象。

3.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括声学模型和语言模型，其中，所述声学模型用于判断预设语音数据属于预设声学字符的概率，所述语言模型用于判断预设声学字符序列属于预设文字序列的概率，基于所述语音识别模型将所述待识别的语音数据识别为文字包括：

将所述待识别的语音数据输入所述声学模型，得到目标声学字符串；

将所述目标声学字符串输入所述语言模型，得到目标文字序列；

根据所述目标文字序列确定所述语音数据对应的文字结果。

4.根据权利要求1所述的方法，其特征在于，在确定所述目标声纹特征对应的目标对象之前，所述方法还包括：

采集所述目标对象对应的基础语料数据；

基于所述基础语料数据提取所述目标对象的声纹特征；

获取所述目标对象的身份信息；

建立所述目标对象的身份信息和所述目标对象的声纹特征之间的关联关系。

5.根据权利要求3所述的方法，其特征在于，在确定用于识别所述目标对象的语音数据的语音识别模型之前，所述方法还包括：

采集所述目标对象对应的基础语料数据；

从所述基础语料中获取基础语音信息，并标注所述基础语音信息对应的声学字符信息；

将所述基础语音信息以及所述基础语音信息对应的声学字符信息作为训练集数据，训练得到所述声学模型。

6.根据权利要求3所述的方法，其特征在于，在确定用于识别所述目标对象的语音数据的语音识别模型之前，所述方法还包括：

采集所述目标对象对应的基础语料数据；

从所述基础语料中获取基础文本信息，并标注所述基础文本信息对应的声学字符信息；

将所述基础文本信息以及所述基础文本信息对应的声学字符信息作为训练集数据，训练得到所述语言模型。

7.根据权利要求2所述的方法，其特征在于，在将所述目标声纹特征与数据库中的多组预设声纹特征进行匹配之后，所述方法还包括：

在所述数据库中不存在与所述目标声纹特征匹配的预设声纹特征的情况下，将预设语音识别模型确定为所述语音识别模型。

8.根据权利要求1所述的方法，其特征在于，获取待识别的语音数据包括：

获取目标场景下当前发言对象的语音数据，得到所述待识别的语音数据，其中，所述目标场景为多人语音交流场景。

9.根据权利要求1所述的方法，其特征在于，获取待识别的语音数据包括：

获取目标场景下的录音数据，其中，所述目标场景为多人语音交流场景；

采用预设规则切分所述录音数据，得到多个录音片段；

获取所述多个录音片段中的目标录音片段，并将所述目标录音片段作为所述待识别的语音数据。

10.一种语音识别装置，其特征在于，包括：

第一获取单元，用于获取待识别的语音数据；

第一提取单元，用于从所述语音数据中提取声纹特征，得到目标声纹特征；

第一确定单元，用于确定所述目标声纹特征对应的目标对象，并确定用于识别所述目标对象的语音数据的语音识别模型；

识别单元，用于基于所述语音识别模型将所述待识别的语音数据识别为文字。