CN112349275A

CN112349275A - 适用于多种用户的语音识别方法、装置、设备及介质

Info

Publication number: CN112349275A
Application number: CN202011247745.XA
Authority: CN
Inventors: 姚宏志
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-09

Abstract

本申请涉及人工智能技术领域，揭示了一种适用于多种用户的语音识别方法、装置、设备及介质，其中方法包括：获取语音识别模式确定请求；响应获取语音识别模式确定请求，播放预设提问语音，根据播放的预设提问语音获取用户输入的回答语音数据；根据回答语音数据，确定语音特征数据和待识别用户信息；根据语音特征数据和待识别用户信息，确定目标语音识别模式；获取待识别语音数据；采用目标语音识别模式对待识别语音数据进行语音识别，得到待识别语音数据对应的目标文本数据。从而实现针对不同特征的用户提供针对性的语音识别模式，确保了语音识别的准确率的一致性，提高了用户体验，从而有利于应用于具有多种用户类别的应用场景。

Description

适用于多种用户的语音识别方法、装置、设备及介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种适用于多种用户的语音识别方法、装置、设备及介质。

背景技术

目前市场上常用的语音识别产品对用户的语音识别通常是统一处理的，并没有做任何的细分，其结果往往是针对特定用户的识别率低，从而导致难以应用于具有多种用户类别的应用场景。比如，语音对话系统针对有方言的用户，语音识别的正确率大大低于讲普通话用户。又比如，大人、小孩、老人说话的语音语调是不同的，如果不做区分，小孩、老人的语音识别正确率也可能大大低于普通话用户。

发明内容

本申请的主要目的为提供一种适用于多种用户的语音识别方法、装置、设备及介质，旨在解决现有技术中的语音识别系统针对不同用户类别的语音识别的准确率不一致，难以应用于具有多种用户类别的应用场景的技术问题。

为了实现上述发明目的，本申请提出一种适用于多种用户的语音识别方法，所述方法包括：

获取语音识别模式确定请求；

响应所述获取语音识别模式确定请求，播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据；

根据所述回答语音数据，确定语音特征数据和待识别用户信息；

根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式；

获取待识别语音数据；

采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的目标文本数据。

进一步的，所述响应所述获取语音识别模式确定请求，播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据的步骤，包括：

当所述预设提问语音为一轮提问语音时，响应所述获取语音识别模式确定请求播放所述预设提问语音，获取播放所述预设提问语音之后第一预设时长内用户输入的所述回答语音数据；

当所述预设提问语音为多轮提问语音时，按预设时间间隔播放预设提问语音，获取播放每轮所述提问语音之后第二预设时长内用户输入的所述回答语音数据。

进一步的，所述根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式的步骤，包括：

将所述语音特征数据和所述待识别用户信息输入分类预测模型进行分类预测，得到语音识别模式预测结果；

从所述语音识别模式预测结果的概率预测值中找出最大值，将找出的所述概率预测值对应的语音识别模式作为目标语音识别模式。

进一步的，所述将所述语音特征数据和所述待识别用户信息输入分类预测模型进行分类预测，得到语音识别模式预测结果的步骤之前，包括：

获取多个训练样本，所述训练样本包括：用户样本数据、语音识别模式标定值，所述用户样本数据包括：语音特征样本数据、用户信息样本数据；

将所述用户样本数据输入目标神经网络进行预测，得到样本预测值，其中，所述目标神经网络依次包括：向量层、池化层、分类层；

根据所述样本预测值和所述语音识别模式标定值对所述目标神经网络进行训练，将训练后的所述目标神经网络作为所述分类预测模型。

进一步的，所述根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式的步骤之后，还包括：

获取预设周期；

获取当前预设周期的上一个所述预设周期对应的所述待识别语音数据；

对上一个所述预设周期对应的所述待识别语音数据进行对话轮次计算，得到上一个所述预设周期对应的对话轮次；

当所述上一个所述预设周期对应的所述对话轮次为多轮时，将上一个所述预设周期对应的所述待识别语音数据输入人数判定模型进行人数预测，得到上一个所述预设周期对应的人数预测结果；

当上一个所述预设周期对应的所述人数预测结果为多人时，重新执行所述播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据的步骤，以用于重新确定所述目标语音识别模式。

进一步的，所述采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的目标文本数据的步骤之后，还包括：

获取语音识别准确度评价结果；

获取预设准确度评价阈值；

当所述语音识别准确度评价结果小于所述预设准确度评价阈值时，重新执行所述播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据的步骤，以用于重新确定所述目标语音识别模式；

当所述语音识别准确度评价结果大于或等于所述预设准确度评价阈值时，获取所述待识别语音数据，根据所述待识别语音数据和所述目标语音识别模式，确定细分语音识别模式，将所述细分语音识别模式作为所述目标语音识别模式。

将所述语音特征数据、所述待识别用户信息及所述目标语音识别模式更新到语音识别模式匹配库中；

获取所述待识别语音数据；

根据所述待识别语音数据在所述语音识别模式匹配库中进行语音识别模式匹配，确定语音识别模式匹配结果；

当所述语音识别模式匹配结果为成功时，根据所述语音识别模式匹配结果，确定所述目标语音识别模式；

当所述语音识别模式匹配结果为失败时，获取默认语音识别模式，将所述默认语音识别模式作为所述目标语音识别模式；

采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的所述目标文本数据。

本申请还提出了一种适用于多种用户的语音识别装置，所述装置包括：

请求获取模块，用于获取语音识别模式确定请求；

回答语音数据确定模块，用于响应所述获取语音识别模式确定请求，播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据；

目标语音识别模式确定模块，用于根据所述回答语音数据，确定语音特征数据和待识别用户信息，根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式；

语音识别模块，用于获取待识别语音数据，采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的目标文本数据。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的适用于多种用户的语音识别方法、装置、设备及介质，通过响应获取语音识别模式确定请求播放预设提问语音，根据播放的预设提问语音获取用户输入的回答语音数据，根据回答语音数据确定目标语音识别模式，从而实现针对不同特征的用户提供针对性的语音识别模式，确保了语音识别的准确率的一致性，提高了用户体验，从而有利于应用于具有多种用户类别的应用场景。

附图说明

图1为本申请一实施例的适用于多种用户的语音识别方法的流程示意图；

图2为本申请一实施例的适用于多种用户的语音识别装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请使用的专业术语解释如下：

本申请的声纹，英文名为Voiceprint，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

本申请的语速，是人类特有的语言表达定义。人们在使用具有传播或沟通意义的词汇表达或传播信息时，单位时间内所包括的词汇容量。不同语言文化中，同等语速下信息容量有别。中国汉字及词汇特别是现代白话在语速表达上远不如文字所包括的信息容量和传播效率高，这是因为汉语音节少，同音字词多，需要用上下文来区别语言含义，语速与语言信息接受之间互相制约。

本申请的基音周期，是一种用于记录基音的时间长度的检测方法，属于声音学。基音周期是声带每开启和闭合一次的时间。

本申请的基音频率，是基音的频率。基音，一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音(fundamental tone)，其余为泛音。

为了解决现有技术中的语音识别系统针对不同用户类别的语音识别的准确率不一致，难以应用于具有多种用户类别的应用场景的技术问题，本申请提出了一种适用于多种用户的语音识别方法，所述方法应用于人工智能技术领域，所述方法进一步应用于人工智能的语音识别技术领域。所述方法通过根据用户的语音数据自动识别出适合用户的语音识别模式，然后再用适合用户的语音识别模式进行语音识别，确保了语音识别的准确率的一致性，提高了用户体验，从而有利于应用于具有多种用户类别的应用场景。

参照图1，所述适用于多种用户的语音识别方法包括：

S1：获取语音识别模式确定请求；

S2：响应所述获取语音识别模式确定请求，播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据；

S3：根据所述回答语音数据，确定语音特征数据和待识别用户信息；

S4：根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式；

S5：获取待识别语音数据；

S6：采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的目标文本数据。

本实施例通过响应获取语音识别模式确定请求播放预设提问语音，根据播放的预设提问语音获取用户输入的回答语音数据，根据回答语音数据确定目标语音识别模式，从而实现针对不同特征的用户提供针对性的语音识别模式，确保了语音识别的准确率的一致性，提高了用户体验，从而有利于应用于具有多种用户类别的应用场景。

对于S1，获取用户输入的语音识别模式确定请求。

语音识别模式确定请求，是指对用户确定针对性的语音识别模式的请求。

语音识别模式，用于进行语音识别时采用的模式。

语音识别，是指将对音频信号进行识别及转换，最终得到文本信息。

不同语音识别模式，采用的语音数据库不同。语音数据库包括但不限于：普通话语音数据库、四川话语音数据库、粤语语音数据库。

语音数据库中存储的是该语音识别模式下所有对应语音特征、声纹特征、声调特征。可以理解的是语音数据库还可以存储其他音频特征数据，在此不做限定。

用户可以通过按键触发语音识别模式确定请求，也可以通过声音触发语音识别模式确定请求。

对于S2，播放预设提问语音时，用户根据播放的所述预设提问语音输入回答语音数据。

预设提问语音是针对用户信息的提问语音。预设提问语音可以包括一轮提问语音，也可以包括多轮提问语音。比如，预设提问语音包括：“请问主人芳龄多少”“你好，请问是否帅哥主人”，在此举例不做具体限定。

回答语音数据，是音频信号。

对于S3，对所述回答语音数据进行语音特征提取及语音识别，确定语音特征数据和待识别用户信息。

优选的，所述根据所述回答语音数据，确定语音特征数据和待识别用户信息的步骤，包括：

S31：根据所述回答语音数据进行特征提取，得到所述语音特征数据；

对所述回答语音数据进行声纹特征、语速特征、基音周期特征、基音频率特征提取，将提取得到的特征作为语音特征数据。也就是说，语音特征数据包括：声纹特征、语速特征、基音周期特征、基音频率特征。

可以理解的是，语音特征数据还可以包括其他可以辨识一个人语音的特征。

可以理解的是，进行声纹特征、语速特征、基音周期特征、基音频率特征提取的方法可以从现有技术中选择，在此不做赘述。

S32：根据所述语音特征数据，确定初级语音识别模式；

其中，将所述语音特征数据输入初级语音模式预测模型进行分类预测，得到所述语音特征数据的分类预测概率；从所述语音特征数据的分类预测概率找出最大值，将找出的最大值对应的语音识别模式作为所述初级语音识别模式。

所述初级语音识别模式采用基于神经网络训练得到的模型。

S33：采用所述初级语音识别模式对所述回答语音数据进行语音识别及文本转换，得到待识别用户信息。

其中，采用初级语音识别模式对所述回答语音数据进行语音识别以将音频信号转换为文本，将转换得到的文本作为所述待识别用户信息。

待识别用户信息包括但不限于：用户年龄的数据、用户性别的数据。

对于S4，根据所述语音特征数据、所述待识别用户信息和分类预测模型，确定目标语音识别模式。因为目标语音识别模式是根据用户的所述语音特征数据、所述待识别用户信息确定的，所以目标语音识别模式是针对用户特征的语音识别模式，确保了语音识别的准确率的一致性，提高了用户体验，从而有利于应用于具有多种用户类别的应用场景。

分类预测模型是基于神经网络训练得到的模型。

目标语音识别模式，也是语音识别模式。

对于S5，可以获取用户实时输入的待识别语音数据，也可以从数据库中获取待识别语音数据。

待识别语音数据，是音频信号。

对于S6，采用所述目标语音识别模式对所述待识别语音数据进行语音识别以将音频信号转换为文本，将转换得到的文本作为待识别语音数据对应的目标文本数据。

在一个实施例中，上述响应所述获取语音识别模式确定请求，播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据的步骤，包括：

S21：当所述预设提问语音为一轮提问语音时，响应所述获取语音识别模式确定请求播放所述预设提问语音，获取播放所述预设提问语音之后第一预设时长内用户输入的所述回答语音数据；

S22：当所述预设提问语音为多轮提问语音时，按预设时间间隔播放预设提问语音，获取播放每轮所述提问语音之后第二预设时长内用户输入的所述回答语音数据。

本实施例实现了根据播放的所述预设提问语音在预设时长(第一预设时长或第二预设时长)内获取用户输入的回答语音数据，从而实现了针对性的获取用户的回答语音数据，有利于提高基于该回答语音数据确定目标语音识别模式的准确性。

对于S21，播放所述预设提问语音之后，用户在第一预设时长内输入的语音数据才是有效的所述回答语音数据。

优选的，所述获取播放所述预设提问语音之后第一预设时长内用户输入的所述回答语音数据的步骤包括：获取播放所述预设提问语音之后第一预设时长内用户开始输入的所述回答语音数据，也就是说，用户只要在第一预设时长开始输入的语音数据，该语音数据即为有效的回答语音数据。

对于S22，按预设时间间隔播放预设提问语音，每播放一轮，在第二预设时长内获取到的用户输入的所述回答语音数据。

优选的，第二预设时长小于或等于预设时间间隔。比如，预设时间间隔5秒，则第二预设时长为小于或等于5秒，在此举例不做具体限定。从而避免播放预设提问语音和用户输入所述回答语音数据部分重叠，该重叠会导致采集的回答语音数据出现干扰语音数据。

优选的，所述按预设时间间隔播放预设提问语音的步骤，包括：所述预设时间间隔是一个具体的时长，相邻两轮提问语音播放的开始时间之间的间隔时长与所述预设时间间隔的时长相同，从而有利于缩短获取回答语音数据的时间，有利于提高确定目标语音识别模式的效率。

优选的，所述按预设时间间隔播放预设提问语音的步骤，包括：所述预设时间间隔是一个具体的时长，第一轮提问语音在响应所述获取语音识别模式确定请求时播放，非第一轮提问语音的开始时间与上一轮提问语音之后的所述回答语音数据的结束时间的差值与所述预设时间间隔的时长相同，从而有利于完整获取用户输入的语音数据。

在一个实施例中，上述根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式的步骤，包括：

S41：将所述语音特征数据和所述待识别用户信息输入分类预测模型进行分类预测，得到语音识别模式预测结果；

S42：从所述语音识别模式预测结果的概率预测值中找出最大值，将找出的所述概率预测值对应的语音识别模式作为目标语音识别模式。

本实施例实现了根据语音特征数据和待识别用户信息确定目标语音识别模式，从而使目标语音识别模式针对用户特征的语音识别模式，确保了语音识别的准确率的一致性，提高了用户体验，从而有利于应用于具有多种用户类别的应用场景。

对于S41，语音识别模式预测结果包括：语音识别模式、概率预测值，语音识别模式与概率预测值一一对应。

分类预测模型是基于神经网络训练得到的模型。

对于S42，通过将找出的所述概率预测值对应的语音识别模式作为目标语音识别模式，有利于提高确定目标语音识别模式的准确性，进一步确保了语音识别的准确率的一致性。

在一个实施例中，上述将所述语音特征数据和所述待识别用户信息输入分类预测模型进行分类预测，得到语音识别模式预测结果的步骤之前，包括：

S411：获取多个训练样本，所述训练样本包括：用户样本数据、语音识别模式标定值，所述用户样本数据包括：语音特征样本数据、用户信息样本数据；

S412：将所述用户样本数据输入目标神经网络进行预测，得到样本预测值，其中，所述目标神经网络依次包括：向量层、池化层、分类层；

S413：根据所述样本预测值和所述语音识别模式标定值对所述目标神经网络进行训练，将训练后的所述目标神经网络作为所述分类预测模型。

本实施例实现了对目标神经网络进行训练得到分类预测模型，通过机器学习学习大量样本得到规律，提高了分类预测模型的泛化能力，从而提高了确定的目标语音识别模式的准确性。

对于S411，可以从数据库中获取多个训练样本。

每个训练样本包括一个用户样本数据、一个语音识别模式标定值，并且，语音识别模式标定值是针对该用户样本数据的人工标定值。

语音特征样本数据包括但不限于：声纹特征的样本数据、语速特征的样本数据、基音周期特征的样本数据、基音频率特征的样本数据。

用户信息样本数据包括但不限于：用户年龄的样本数据、用户性别的样本数据。

对于S412，样本预测值中预测值的具体数量与语音识别模式的数量相同。也就是说，每个用户样本数据对应多个预测值，每个预测值对应一个语音识别模式。

所述向量层用于将用户样本数据转换为特征向量。

所述池化层用于对所述向量层输入的特征向量进行求和池化操作。

所述分类层用于对所述池化层输入的数据进行分类。

对于S413，将所述样本预测值和所述语音识别模式标定值输入损失函数进行计算，得到所述目标神经网络的损失值，根据所述损失值更新所述目标神经网络的参数，更新后的所述目标神经网络被用于下一次计算所述样本预测值；

重复执行上述方法步骤直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件，将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述目标神经网络，确定为所述分类预测模型。

所述第一收敛条件是指相邻两次计算的损失的大小满足lipschitz条件(利普希茨连续条件)。

所述迭代次数达到第二收敛条件是指所述目标神经网络被用于计算所述样本预测值的次数，也就是说，计算一次，迭代次数增加1。

在一个实施例中，上述根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式的步骤之后，还包括：

S71：获取预设周期；

S72：获取当前预设周期的上一个所述预设周期对应的所述待识别语音数据；

S73：对上一个所述预设周期对应的所述待识别语音数据进行对话轮次计算，得到上一个所述预设周期对应的对话轮次；

S74：当所述上一个所述预设周期对应的所述对话轮次为多轮时，将上一个所述预设周期对应的所述待识别语音数据输入人数判定模型进行人数预测，得到上一个所述预设周期对应的人数预测结果；

S75：当上一个所述预设周期对应的所述人数预测结果为多人时，重新执行所述播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据的步骤，以用于重新确定所述目标语音识别模式。

本实施例按预设周期确定上一个所述预设周期的人数，当为多人时需要重新执行步骤S2至步骤S4重新确定目标语音识别模式，以使对用户进行语音识别的目标语音识别模式是针对用户提供的针对性的语音识别模式，确保了语音识别的准确率的一致性，提高了用户体验。

对于S71，可以从数据库中获取预设周期。

所述预设周期，可以是一个预设的具体时长，也可以是时间周期列表。时间周期列表包括各个阶段的开始时间及结束时间。

对于S72，从数据库中获取当前预设周期的上一个所述预设周期对应的所述待识别语音数据。

当前预设周期的开始时间是上一个所述预设周期的结束时间。

对于S73，可以根据机器语音数据和上一个所述预设周期对应的所述待识别语音数据进行对话轮次计算，其中两轮对话中间隔有至少一个机器语音数据。也就是说，将机器语音数据播放次数加1得到最大对话轮次，上一个所述预设周期对应的对话轮次小于或等于最大对话轮次。

对于S74，当所述上一个所述预设周期对应的所述对话轮次为多轮时，对上一个所述预设周期对应的所述待识别语音数据进行特征提取，得到待判别对话轮次特征数据；将所述待判别对话轮次特征数据输入人数判定模型进行人数预测，得到上一个所述预设周期对应的人数预测结果。

待判别对话轮次特征数据包括但不限于：声纹特征的数据、语速特征的数据、基音周期特征的数据、基音频率特征的数据。

人数判定模型，是基于神经网络训练得到的模型。

对于S75，当上一个所述预设周期对应的所述人数预测结果为多人时，重新确定目标语音识别模式，以有利于在用户变更之后，对新的用户提供针对性的语音识别模式，确保了语音识别的准确率的一致性，提高了用户体验。

在一个实施例中，上述采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的目标文本数据的步骤之后，还包括：

S81：获取语音识别准确度评价结果；

S82：获取预设准确度评价阈值；

S83：当所述语音识别准确度评价结果小于所述预设准确度评价阈值时，重新执行所述播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据的步骤，以用于重新确定所述目标语音识别模式；

S84：当所述语音识别准确度评价结果大于或等于所述预设准确度评价阈值时，获取所述待识别语音数据，根据所述待识别语音数据和所述目标语音识别模式，确定细分语音识别模式，将所述细分语音识别模式作为所述目标语音识别模式。

本实施例实现了根据语音识别准确度评价结果确定重新确定目标语音识别模式或者确定细分语音识别模式，从而有利于进一步根据用户特征提供针对性的语音识别模式，进一步确保了语音识别的准确率的一致性，进一步提高了用户体验。

对于S81，获取用户直接输入的语音识别准确度评价结果。

语音识别准确度评价结果可以是采用分值进行评价的结果，也可以是采用等级进行评价的结果。比如，所述等级包括：非常准确、一般准确、不准确，在此举例不做具体限定。

对于S82，可以从数据库中获取预设准确度评价阈值。

当语音识别准确度评价结果是采用分值进行评价的结果时，预设准确度评价阈值是具体分值。

当语音识别准确度评价结果是采用等级进行评价的结果时，预设准确度评价阈值是具体等级。

对于S83，当所述语音识别准确度评价结果小于所述预设准确度评价阈值时，意味着用户对当前的目标语音识别模式不认可，通过重新确定目标语音识别模式以提高目标语音识别模式的准确性。

对于S84，当所述语音识别准确度评价结果大于或等于所述预设准确度评价阈值时，获取所述待识别语音数据，将所述待识别语音数据和所述目标语音识别模式输入细分语音识别模式预测模型进行细分语音识别模式概率预测，得到细分语音识别模式概率预测结果；从细分语音识别模式概率预测结果中找出最大值，将找出的最大值对应的细分语音识别模式作为所述目标语音识别模式。从而有利于进一步提高目标语音识别模式的准确性，进一步确保了语音识别的准确率的一致性，进一步提高了用户体验。

细分语音识别模式预测模型是基于神经网络训练得到的模型。

语音识别模式先按语言类别进行大分类，再按年龄和性别的结合类别进行细分分类。语言类别包括但不限于：普通话、粤语、四川话。年龄和性别的结合类别包括但不限于：幼儿女性、儿童女性、青年女性、中年女性、老年女性、幼儿男性、儿童男性、青年男性、中年男性、老年男性。

细分语音识别模式，也是语音识别模式。

也就是说，在获取到语音识别准确度评价结果之前，目标语音识别模式采用对应的语言类别的默认语音识别模式，在所述语音识别准确度评价结果大于或等于所述预设准确度评价阈值时再采用细分类别的语音识别模式。比如，目标语音识别模式是粤语，在获取到语音识别准确度评价结果之前采用粤语的默认语音识别模式，在所述语音识别准确度评价结果大于或等于所述预设准确度评价阈值时采用粤语的幼儿女性语音识别模式、儿童女性语音识别模式、青年女性语音识别模式、中年女性语音识别模式、老年女性语音识别模式、幼儿男性语音识别模式、儿童男性语音识别模式、青年男性语音识别模式、中年男性语音识别模式、老年男性语音识别模式中的一种，在此举例不做具体限定。

S91：将所述语音特征数据、所述待识别用户信息及所述目标语音识别模式更新到语音识别模式匹配库中；

S92：获取所述待识别语音数据；

S93：根据所述待识别语音数据在所述语音识别模式匹配库中进行语音识别模式匹配，确定语音识别模式匹配结果；

S94：当所述语音识别模式匹配结果为成功时，根据所述语音识别模式匹配结果，确定所述目标语音识别模式；

S95：当所述语音识别模式匹配结果为失败时，获取默认语音识别模式，将所述默认语音识别模式作为所述目标语音识别模式；

S96：采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的所述目标文本数据。

本实施例实现了在多人同时对话的过程中，根据待识别语音数据自动切换目标语音识别模式，从而适用于多人参与的对话讨论的应用场景。

对于S91，将所述语音特征数据、所述待识别用户信息及所述目标语音识别模式添加到语音识别模式匹配库中。

对于S92，可以从数据库中获取所述待识别语音数据，也可以获取用户实时输入的所述待识别语音数据。

对于S93，根据所述待识别语音数据进行特征提取，得到待匹配特征数据；将所述待匹配特征数据在所述语音识别模式匹配库中进行语音识别模式匹配，当匹配到语音识别模式时确定所述语音识别模式匹配结果为成功，否则确定所述语音识别模式匹配结果为失败。

待匹配特征数据包括但不限于：声纹特征、语速特征、基音周期特征、基音频率特征。

对于S94，当所述语音识别模式匹配结果为成功时，将步骤S93匹配到语音识别模式作为所述目标语音识别模式。

对于S95，默认语音识别模式，也就是语音识别模式。

对于S96，当所述语音识别模式匹配结果为成功时，采用步骤S94确定的所述目标语音识别模式对所述待识别语音数据进行语音识别；当所述语音识别模式匹配结果为失败时，采用步骤S95确定的所述目标语音识别模式对所述待识别语音数据进行语音识别。

在一个实施例中，上述响应所述获取语音识别模式确定请求，播放预设提问语音的步骤之后，还包括：

当根据播放的所述预设提问语音无法获取用户输入的所述回答语音数据时，获取默认语音识别模式，将所述默认语音识别模式作为目标语音识别模式。

本实施例实现了在无法无法获取用户输入的所述回答语音数据时，将默认语音识别模式作为目标语音识别模式，从而可以继续为用户提供语音识别服务，提高了用户体验。

参照图2，本申请还提出了一种适用于多种用户的语音识别装置，所述装置包括：

请求获取模块100，用于获取语音识别模式确定请求；

回答语音数据确定模块200，用于响应所述获取语音识别模式确定请求，播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据；

目标语音识别模式确定模块300，用于根据所述回答语音数据，确定语音特征数据和待识别用户信息，根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式；

语音识别模块400，用于获取待识别语音数据，采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的目标文本数据。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存适用于多种用户的语音识别方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种适用于多种用户的语音识别方法。所述适用于多种用户的语音识别方法，包括：获取语音识别模式确定请求；响应所述获取语音识别模式确定请求，播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据；根据所述回答语音数据，确定语音特征数据和待识别用户信息；根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式；获取待识别语音数据；采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的目标文本数据。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种适用于多种用户的语音识别方法，包括步骤：获取语音识别模式确定请求；响应所述获取语音识别模式确定请求，播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据；根据所述回答语音数据，确定语音特征数据和待识别用户信息；根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式；获取待识别语音数据；采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的目标文本数据。

上述执行的适用于多种用户的语音识别方法，通过响应获取语音识别模式确定请求播放预设提问语音，根据播放的预设提问语音获取用户输入的回答语音数据，根据回答语音数据确定目标语音识别模式，从而实现针对不同特征的用户提供针对性的语音识别模式，确保了语音识别的准确率的一致性，提高了用户体验，从而有利于应用于具有多种用户类别的应用场景。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种适用于多种用户的语音识别方法，其特征在于，所述方法包括：

获取语音识别模式确定请求；

获取待识别语音数据；

2.根据权利要求1所述的适用于多种用户的语音识别方法，其特征在于，所述响应所述获取语音识别模式确定请求，播放预设提问语音，根据播放的所述预设提问语音获取用户输入的回答语音数据的步骤，包括：

3.根据权利要求1所述的适用于多种用户的语音识别方法，其特征在于，所述根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式的步骤，包括：

4.根据权利要求3所述的适用于多种用户的语音识别方法，其特征在于，所述将所述语音特征数据和所述待识别用户信息输入分类预测模型进行分类预测，得到语音识别模式预测结果的步骤之前，包括：

5.根据权利要求1所述的适用于多种用户的语音识别方法，其特征在于，所述根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式的步骤之后，还包括：

获取预设周期；

6.根据权利要求1所述的适用于多种用户的语音识别方法，其特征在于，所述采用所述目标语音识别模式对所述待识别语音数据进行语音识别，得到所述待识别语音数据对应的目标文本数据的步骤之后，还包括：

获取语音识别准确度评价结果；

获取预设准确度评价阈值；

7.根据权利要求1所述的适用于多种用户的语音识别方法，其特征在于，所述根据所述语音特征数据和所述待识别用户信息，确定目标语音识别模式的步骤之后，还包括：

获取所述待识别语音数据；

8.一种适用于多种用户的语音识别装置，其特征在于，所述装置包括：

请求获取模块，用于获取语音识别模式确定请求；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。