CN110246485B

CN110246485B - 基于语音识别模型的样本数据获取方法、终端设备及介质

Info

Publication number: CN110246485B
Application number: CN201910424176.2A
Authority: CN
Inventors: 王健宗; 黄章成
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2024-05-24
Anticipated expiration: 2039-05-21
Also published as: CN110246485A

Abstract

本发明适用于人工智能技术领域，提供了一种基于语音识别模型的样本数据获取方法、终端设备及介质，包括：获取用户基于预设文本数据及预设语音表达方式输入的第一语音数据；对第一语音数据进行音转文处理，得到第一文本数据，将第一文本数据与预设文本数据进行文字匹配，得到文字匹配结果；确定第一语音数据的情感特征，将第一语音数据的情感特征与预设文本数据的预设情感特征进行情感特征匹配，得到情感特征匹配结果；基于文字匹配结果及情感特征匹配结果确定第一语音数据的总得分值，将总得分值大于第一预设得分值阈值的第一语音数据确定为用于训练语音识别模型的第一目标样本数据，如此，能够提高训练得到的语音识别模型的准确度。

Description

基于语音识别模型的样本数据获取方法、终端设备及介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于语音识别模型的样本数据获取方法、终端设备及计算机可读存储介质。

背景技术

语音识别所要解决的问题是让机器能够“听懂”人类的语言，即，通过机器对采集到的用户语音数据进行识别，进而将采集到的用户语音数据转换为相应的文本数据。现有的语音识别大多是通过语音识别模型来实现的，而若要保证语音识别模型的准确度，就需要先通过大量的样本语音数据对语音识别模型进行训练，可见，样本语音数据的质量直接影响着语音识别模型的准确度。

然而，现有的用于训练语音识别模型的样本语音数据通常是从语料库中随机抽取的，而由于不同人的说话方式、发音方式、情感表达方式等各不相同，因此，从语料库中随机抽取的样本语音数据的质量参差不齐，采用随机抽取的样本语音数据进行模型训练无法保证训练得到的语音识别模型的准确度。

发明内容

有鉴于此，本发明实施例提供了一种基于语音识别模型的样本数据获取方法、终端设备及计算机可读存储介质，以解决现有技术在训练语音识别模型时所采用的样本语音数据的质量参差不齐，导致训练得到的语音识别模型的准确度较低的问题。

本发明实施例的第一方面提供了一种基于语音识别模型的样本数据获取方法，包括：

获取用户基于预设文本数据及所述预设文本数据的预设语音表达方式输入的第一语音数据；

对所述第一语音数据进行音转文处理，得到所述第一语音数据对应的第一文本数据，并将所述第一文本数据与所述预设文本数据进行文字匹配，得到文字匹配结果；

确定所述第一语音数据的各个预设语音特征因子的值，并基于所有所述预设语音特征因子的值确定所述第一语音数据的情感特征，将所述第一语音数据的情感特征与所述预设文本数据通过所述预设语音表达方式表达时对应的预设情感特征进行情感特征匹配，得到情感特征匹配结果；

基于所述文字匹配结果及所述情感特征匹配结果确定所述第一语音数据的总得分值，并将总得分值大于第一预设得分值阈值的所述第一语音数据确定为用于训练语音识别模型的第一目标样本数据。

本发明实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下各步骤：

本发明实施例的第三方面提供了一种终端设备，包括：

第一获取单元，用于获取用户基于预设文本数据及所述预设文本数据的预设语音表达方式输入的第一语音数据；

第一匹配单元，用于对所述第一语音数据进行音转文处理，得到所述第一语音数据对应的第一文本数据，并将所述第一文本数据与所述预设文本数据进行文字匹配，得到文字匹配结果；

第二匹配单元，用于确定所述第一语音数据的各个预设语音特征因子的值，并基于所有所述预设语音特征因子的值确定所述第一语音数据的情感特征，将所述第一语音数据的情感特征与所述预设文本数据通过所述预设语音表达方式表达时对应的预设情感特征进行情感特征匹配，得到情感特征匹配结果；

第一确定单元，用于基于所述文字匹配结果及所述情感特征匹配结果确定所述第一语音数据的总得分值，并将总得分值大于第一预设得分值阈值的所述第一语音数据确定为用于训练语音识别模型的第一目标样本数据。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下各步骤：

实施本发明实施例提供的一种基于语音识别模型的样本数据获取方法、终端设备及计算机可读存储介质具有以下有益效果：

本发明实施例提供的一种基于语音识别模型的样本数据获取方法通过对用户输入的第一语音数据进行音转文处理，得到第一文本数据，将第一文本数据与预设文本数据进行文字匹配，得到文字匹配结果；确定第一语音数据的情感特征，将第一语音数据的情感特征与预设文本数据通过预设语音表达方式表达时对应的预设情感特征进行情感特征匹配，得到情感特征匹配结果；基于文字匹配结果及情感特征匹配结果确定第一语音数据的总得分值，将总得分值大于第一预设得分值阈值的第一语音数据确定为用于训练语音识别模型的第一目标样本数据，如此，采用与预设文本数据的文字匹配度及情感特征匹配度均较高的第一语音数据作为用于训练语音识别模型的第一目标样本数据，能够提高训练得到的语音识别模型的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于语音识别模型的样本数据获取方法的实现流程图；

图2是本发明另一实施例提供的一种基于语音识别模型的样本数据获取方法的实现流程图；

图3是本发明再一实施例提供的一种基于语音识别模型的样本数据获取方法的实现流程图；

图4是本发明又一实施例提供的一种基于语音识别模型的样本数据获取方法的实现流程图；

图5是本发明实施例提供的一种终端设备的结构框图；

图6是本发明另一实施例提供的一种终端设备的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1是本发明实施例提供的一种基于语音识别模型的样本数据获取方法的实现流程图。本实施例中，基于语音识别模型的样本数据获取方法的执行主体为终端设备。终端设备包括但不限于智能手机、平板电脑或台式电脑。如图1所示的基于语音识别模型的样本数据获取方法包括以下步骤：

S1：获取用户基于预设文本数据及所述预设文本数据的预设语音表达方式输入的第一语音数据。

为了增加语音识别模型对语音识别的准确度，本实施例基于训练用的样本语音数据的质量进行考虑。具体的，为了获得用于训练语音识别模型的质量较高的语音数据，终端设备可以先采集用户的语音数据，再对采集到的用户的语音数据进行筛选，进而从采集到的用户的语音数据中筛选出质量较高的语音数据。其中，质量较高的语音数据指发音方式、咬字方式及特定情境下的情感表达等均与预设的标准官话(如普通话)一致的语音数据。

在实际应用中，在控制终端设备采集用户的语音数据之前，可以预先在终端设备中配置多条文本数据，并为每条文本数据配置其通过不同预设语音表达方式表达时对应的预设情感特征。其中，预设文本数据通过不同预设语音表达方式表达时对应的预设情感特征不同。预设语音表达方式可以包括但不限于歌唱、朗诵、独白等，预设情感特征包括但不限于高兴、厌恶、悲伤及愤怒。示例性的，某条预设文本数据通过歌唱方式表达时对应的预设情感特征可能是悲伤，而通过独白方式表达式对应的预设情感特征可能是愤怒。

终端设备将每条预设文本数据与其通过各个预设语音表达方式表达时对应的预设情感特征进行关联存储。

本发明实施例中，终端设备上设置有第一语音采集控件，第一语音采集控件用于控制终端设备以第一预设方式采集用户的语音数据。其中，第一预设方式指终端设备采集用户在其给定预设文本数据及预设语音表达方式下输入的语音数据。具体的，终端设备检测到用户触发第一语音采集控件时，输出预设文本数据及该预设文本数据的预设语音表达方式，以提示用户基于终端设备给定的预设文本数据及预设语音表达方式，以语音的形式表达预设文本数据。

作为本发明一实施例，终端设备可以通过如下方式输出预设文本数据及该预设文本数据的预设语音表达方式：在显示屏上显示预设文本数据及与预设语音表达方式相关的第一提示信息，第一提示信息用于提示用户以预设语音表达方式表达预设文本数据。作为本发明另一实施例，终端设备还可以通过语音播报的方式输出预设文本数据及该预设文本数据的预设语音表达方式，示例性的，语音播报的内容具体可以是“请以预设语音表达方式表达预设文本数据”。

终端设备输出预设文本数据及该预设文本数据的预设语音表达方式后，可以打开麦克风采集用户基于预设文本数据及该预设文本数据的预设语音表达方式输入的第一语音数据。

S2：对所述第一语音数据进行音转文处理，得到所述第一语音数据对应的第一文本数据，并将所述第一文本数据与所述预设文本数据进行文字匹配，得到文字匹配结果。

终端设备获取到用户输入的第一语音数据后，对第一语音数据进行音转文处理，得到第一语音数据对应的第一文本数据。在实际应用中，终端设备可以采用现有的音转文工具对第一语音数据进行音转文处理。

终端设备得到第一语音数据对应的第一文本数据后，将第一语音数据对应的第一文本数据与预设文本数据进行文字匹配，得到文字匹配结果。其中，文字匹配结果通过1和0表示，1表示匹配，0表示不匹配。

具体的，终端设备可以将第一文本数据包含的多个字分别与预设文本数据包含的多个字进行一一对比，统计第一文本数据与预设文本数据中所包含的相同字的总数，基于相同字的总数占预设文本数据的总字数的比值来确定文字匹配结果。示例性的，当相同字的总数占预设文本数据的总字数的比值大于或等于预设文字匹配度阈值时，确定文字匹配结果为1；当相同字的总数占预设文本数据的总字数的比值小于预设文字匹配度阈值时，确定文字匹配结果为0。

S3：确定所述第一语音数据的各个预设语音特征因子的值，并基于所有所述预设语音特征因子的值确定所述第一语音数据的情感特征，将所述第一语音数据的情感特征与所述预设文本数据通过所述预设语音表达方式表达时对应的预设情感特征进行情感特征匹配，得到情感特征匹配结果。

终端设备获取到用户输入的第一语音数据后，还确定第一语音数据的各个预设语音特征因子的值。本实施例中，预设语音特征因子包括：语速、平均基频及基频范围。基频指基音频率，其用于描述语音的韵律变化特征。

具体的，终端设备通过如下方式确定第一语音数据的语速值：终端设备确定第一语音数据的时长及发音音节数，将第一语音数据的时长与发音音节数的比值确定为第一语音数据的语速值。其中，第一语音数据的时长指第一语音数据的持续时间，发音音节数指第一语音数据包含的发音音节的额总数。

终端设备可以通过如下方式确定第一语音数据的平均基频及基频范围：

通过语音分析工具确定第一语音数据的基频，基于第一语音数据的基频，确定第一语音数据的平均基频及基频范围。示例性的，设第一语音数据的基频为P＝(p₁,p₂,...,p_k)，其中，k为第一语音数据存在基频的帧数，则第一语音数据的平均基频为第一语音数据的基频范围为p_range＝p_max-p_min，其中，p_max＝max(p₁,p₂,...,p_k)，p_min＝min(p₁,p₂,...,p_k)。

终端设备确定出第一语音数据的各个预设语音特征因子的值之后，基于第一语音数据的各个预设语音特征因子的值确定第一语音数据的情感特征。

具体的，由于不同预设情感特征对应的语速、平均基频及基频范围的值各不相同。因此，终端设备可以基于各个预设情感特征的语速、平均基频及基频范围，确定各个预设情感特征的特征画像，再基于第一语音数据的各个语音特征因子的值确定第一语音数据的特征画像，然后确定第一语音数据的特征画像与各个预设情感特征的特征画像的匹配度，将特征画像与第一语音数据的特征画像的匹配度最高的预设情感特征确定为第一语音数据的情感特征。也就是说，本实施例确定出的第一语音数据的情感特征为预设情感特征中的一种。

作为本发明一实施例，终端设备可以采用以下方式确定各个预设情感特征的特征画像：针对语速、平均基频及基频范围这三个语音特征分别绘制一个一维坐标轴，并将三个坐标轴纵向排列，将三个坐标轴的0点纵向对齐，基于各个预设情感特征的语速、平均基频及基频范围，分别在三个坐标轴上标记各个预设情感特征的坐标点，将同一个预设情感特征在三个不同坐标轴上的坐标点进行连线，构成一个三角形，该三角形即表示预设情感特征的特征画像。

相应的，终端设备可以基于第一语音数据的各个预设语音特征因子的值，在三个坐标轴上分别标记第一语音数据的坐标点，并将第一语音数据在三个不同坐标轴上的坐标点进行连线，构成一个三角形，该三角形即表示第一语音数据的特征画像。

终端设备可以计算第一语音数据对应的三角形与各个预设情感特征对应的三角形之间的重叠部分的面积，将与第一语音数据对应的三角形的重叠部分的面基最大的三角形对应的预设情感特征确定为第一语音数据的情感特征。

终端设备确定了第一语音数据的情感特征后，获取预先存储的预设文本数据通过预设语音表达方式表达时对应的情感特征，将第一语音数据的情感特征与预设文本数据通过预设语音表达方式表达时对应的情感特征进行匹配，得到情感特征匹配结果。其中，情感特征匹配结果通过1和0表示，1表示匹配，0表示不匹配。具体的，当第一语音数据的情感特征与预设文本数据通过预设语音表达方式表达时对应的情感特征相同时，则确定情感特征匹配结果为1；当第一语音数据的情感特征与预设文本数据通过预设语音表达方式表达时对应的情感特征不同时，确定情感特征匹配结果为0。

S4：基于所述文字匹配结果及所述情感特征匹配结果确定所述第一语音数据的总得分值，并将总得分值大于第一预设得分值阈值的所述第一语音数据确定为用于训练语音识别模型的第一目标样本数据。

终端设备确定了文字匹配结果及情感特征匹配结果后，基于文字匹配结果及情感特征匹配结果确定第一语音数据的总得分值。示例性的，作为本发明一实施例，可以将第一预设得分值阈值可以设置为1分。当文字匹配结果及情感特征匹配结果均为匹配时，终端设备可以将第一语音数据的总得分值确定为2分；当文字匹配结果及情感特征匹配结果中仅有一个为匹配时，终端设备可以将第一语音数据的总得分值确定为1分；当文字匹配结果及情感特征匹配结果均为不匹配时，终端设备可以将第一语音数据的总得分值确定为0分。

终端设备确定了第一语音数据的总得分值后，将第一语音数据的总得分值与第一预设得分值阈值进行对比，若第一语音数据的总得分值大于第一预设得分值阈值，则说明该第一语音数据与预设文本数据的文字匹配度及情感特征匹配度均较高，即说明第一语音数据的质量较高，终端设备将总得分值大于第一预设得分值阈值的第一语音数据确定为用于训练语音识别模型的第一目标样本数据。

以上可以看出，本实施例提供的一种基于语音识别模型的样本数据获取方法通过对用户输入的第一语音数据进行音转文处理，得到第一文本数据，将第一文本数据与预设文本数据进行文字匹配，得到文字匹配结果；确定第一语音数据的情感特征，将第一语音数据的情感特征与预设文本数据通过预设语音表达方式表达时对应的预设情感特征进行情感特征匹配，得到情感特征匹配结果；基于文字匹配结果及情感特征匹配结果确定第一语音数据的总得分值，将总得分值大于第一预设得分值阈值的第一语音数据确定为用于训练语音识别模型的第一目标样本数据，如此，采用与预设文本数据的文字匹配度及情感特征匹配度均较高的第一语音数据作为用于训练语音识别模型的第一目标样本数据，能够提高训练得到的语音识别模型的准确度。

请参阅图2，图2是本发明另一实施例提供的一种基于语音识别模型的样本数据获取方法的实现流程图。相对于图1对应的实施例，本实施例提供的样本数据获取方法还包括S5～S6。详述如下：

S5：获取用户基于预设语音数据输入的第二语音数据；所述预设语音数据基于所述用户当次输入所述第二语音数据的前一次所输入的第二语音数据匹配得到。

为了进一步增加语音识别模型对语音识别的准确度，本实施例基于训练用的样本语音数据的数量进行考虑，例如，终端设备可以通过问答的方式引导用户输入尽可能多的语音数据，进而增加用于训练语音模型的样本数据的数据量。

本实施例中，终端设备上还设置有第二语音采集控件，第二语音采集控件用于控制终端设备以问答方式采集用户的语音数据。具体的，终端设备检测到用户触发第二语音采集控件时，可以从预设语料库中随机抽取一条提问形式的预设语音数据，并输出该预设语音数据。用户接收到终端设备输出的预设语音数据后，可以通过语音形式来表达针对预设语音数据的答案，本实施例将用户通过语音形式所表达的针对预设语音数据的答案作为第二语音数据。

终端设备输出预设语音数据后，通过麦克风采集用户基于预设语音数据输入的第二语音数据，并对采集到的第二语音数据进行语义分析，基于语义分析结果，从预设语料库中再次获取与第二语音数据所表达的含义相匹配的提问形式的预设语音数据，并输出再次获取到的预设语音数据，且获取用户基于再次获取到的预设语音数据输入的第二语音数据，直至检测到用于控制停止采集语音数据的控件被触发为止。也就是，本实施例中，终端设备首次输入的预设语音数据是从语料库中随机抽取得到的，终端设备非首次输出的预设语音数据是基于用户当次输入第二语音数据的前一次所输入的第二语音数据匹配得到的。

S6：将所有所述第二语音数据确定为用于训练语音识别模型的基础样本数据。

终端设备获取到用户输入的第二语音数据后，将用户输入的所有第二语音数据均确定为用于训练语音识别模型的基础样本数据。

在实际应用中，在对语音识别模型进行训练时，可以先采用基础样本数据对语音模型进行训练，再采用第一目标样本数据对语音模型进行训练。

以上可以看出，本实施例提供的一种基于语音识别模型的样本数据获取方法通过采用问答的方式引导用户输入尽可能多的语音数据，进而增加了用于训练语音模型的样本数据的数据量，通过较多的样本数据对语音模型进行训练，进一步提高了语音识别模型的准确度。

请参阅图3，图3是本发明再一实施例提供的一种基于语音识别模型的样本数据获取方法的实现流程图。相对于图2对应的实施例，本实施例提供的样本数据获取方法在S4之后，还包括S7～S8。详述如下：

S7：提取各条所述基础样本数据的声纹特征以及提取各条所述第一目标样本数据的声纹特征。

在用于训练语音识别模型的样本数据较多的情况下，为了进一步获取更多质量较高的样本数据，终端设备可以从基础样本数据中进一步筛选出一些质量与第一目标样本数据的质量一致的样本数据。

而由于不同人的语音数据的声纹特征各不相同，因此，本实施例中，终端设备可以基于语音数据的声纹特征从基础样本数据中筛选出所属用户与第一目标样本数据中各条语音数据所属用户相同的语音数据。具体的，终端设备可以对各条基础样本数据及各条第一目标数据分别进行声纹识别，进而提取各条基础样本数据的声纹特征及各条第一目标数据的声纹特征。示例性的，在实际应用中，终端设备可以采用声纹特征提取模型提取各条基础样本数据的声纹特征及各条第一目标数据的声纹特征。

S8：将各条所述基础样本数据的声纹特征分别与各条所述第一目标样本数据的声纹特征进行声纹特征匹配，从所述基础样本数据中筛选声纹特征与所述第一目标样本数据的声纹特征一致的样本数据，将筛选出的所述样本数据确定为用于训练语音识别模型的第二目标样本数据。

本实施例中，终端设备提取出各条基础样本数据的声纹特征及各条第一目标数据的声纹特征后，将各条基础样本数据的声纹特征分别与各条第一目标样本数据的声纹特征进行声纹特征匹配，进而从基础样本数据中筛选出声纹特征与第一目标样本数据的声纹特征一致的样本数据，并将筛选出的样本数据确定为用于训练语音识别模型的第二目标样本数据。

以上可以看出，本实施例提供的一种基于语音识别模型的样本数据获取方法基于语音数据的声纹特征从基础样本数据中筛选声纹特征与第一目标样本数据的声纹特征一致的样本数据，从而可以得到更多质量较高的样本语音数据，通过较多质量较高的语音数据对语音识别模型进行训练，能够进一步提高语音识别模型的准确度。

请参阅图4，图4是本发明又一实施例提供的一种基于语音识别模型的样本数据获取方法的实现流程图。相对于图2对应的实施例，本实施例提供的样本数据获取方法在S4之后，还包括S9～S12。详述如下：

S9：基于各条所述第一目标样本数据的用户标识，确定所述第一目标样本数据对应的各个用户，并统计每个用户对应的所述第一目标样本数据的总数量。

本实施例为了进一步筛选出更加优质的语音数据，可以先基于第一目标样本数据确定能够提供优质语音数据的目标用户，再获取目标用户的语音数据，将目标用户的语音数据作为用于训练语音识别模型的优质语音数据。

具体的，本实施例中，终端设备在采集用户输入的第一语音数据时，还同时获取用户的用户标识，并将用户标识与用户输入的第一语音数据进行关联存储。其中，用户标识用于对用户的身份进行唯一标识，例如，用户标识可以是用户的唯一编号，也可以是用户的身份证号码等，此处不做限制。

终端设备确定了第一目标样本数据后，可以先基于各条第一目标样本数据的用户标识，确定第一目标样本数据对应的各个用户，再将用户标识相同的第一目标样本数据划分为一组，即同一组包含的第一目标样本数据对应同一个用户，进而得各个用户分别对应的第一目标样本数据。终端设备确定了各个用户对应的第一目标样本数据后，对每个用户对应的第一目标样本数据的总数量进行统计。

S10：确定每个用户对应的各条所述第一目标样本数据与预设情感特征的情感特征匹配度。

终端设备统计出每个用户对应的第一目标样本数据的总数量后，分别确定每个用户对应的各条第一目标样本数据与预设情感特征的情感特征匹配度。其中，预设情感特征可以根据实际需求设置，本实施例中，预设情感特征包括高兴、厌恶、悲伤及愤怒。

具体的，终端设备可以将在S1中确定出的每个用户的各条第一目标样本数据的情感特征与各个预设情感特征进行匹配，进而确定每个用户对应的各条第一目标样本数据的情感特征分别与各个预设情感特征的匹配结果。其中，匹配结果的取值可以包括1和0，其中，1表示匹配，0表示不匹配。更具体的，终端设备若检测到某用户对应的某条第一目标样本数据的情感特征与某预设情感特征一致，则确定该条第一目标样本数据的情感特征与该预设情感特征的匹配结果的取值为1；终端设备若检测到某用户对应的某条第一目标样本数据的情感特征与某预设情感特征不一致，则确定该条第一目标样本数据的情感特征与该预设情感特征的匹配结果的取值为0。

终端设备基于每个用户对应的各条第一目标样本数据的情感特征与各个预设情感特征的匹配结果，确定每个用户对应的各条第一目标样本数据与预设情感特征的情感特征匹配度。具体的，S10可以通过如下方式实现：

基于第一情感特征匹配度计算公式，计算每个用户对应的各条所述第一目标样本数据与预设情感特征的情感特征匹配度；所述第一情感特征匹配度计算公式为：

其中，EmoRate_n表示用户对应的第n条所述第一目标样本数据与预设情感特征的情感特征匹配度，M表示预设情感特征的总数量，Emofea_n,m表示用户对应的第n条所述第一目标样本数据与第m个情感特征的匹配结果，所述匹配结果的取值为1或0，1表示匹配，0表示不匹配，c_m表示第m个预设情感特征的权重系数。

需要说明的是，在实际应用中，各个预设情感特征的权重系数可根据实际情况设置，例如，可以为多数用户说话时出现较频繁的预设情感特征设置较高的权重系数，为多数用户说话时出现较少的预设情感特征设置较低的权重系数。

S11：确定每个用户对应的各条所述第一目标样本数据的第一文本数据与预设文本数据的文字匹配度。

本实施例中，终端设备统计出每个用户对应的第一目标样本数据的总数量后，还基于S1中确定出的每个用户对应的各条第一目标样本数据的第一文本数据与预设文本数据的文字匹配结果，确定每个用户对应的各条第一目标样本数据的第一文本数据与预设文本数据的文字匹配度。

具体的，作为本发明一实施例，S11可以通过如下方式实现：

基于第一文字匹配度计算公式，计算每个用户对应的各条所述第一目标样本数据的第一文本数据与预设文本数据的文字匹配度；所述第一文字匹配度计算公式为：

其中，WordRate_n表示用户对应的第n条所述第一目标样本数据的第一文本数据与预设文本数据的文字匹配度，MatchNum_n表示用户对应的第n条所述第一目标样本数据的第一文本数据与预设文本数据相匹配的字的总数量，TotalNum_n表示预设文本数据的总字数。

本实施例中，终端设备可以先统计每个用户对应的每条第一目标样本数据的第一文本数据与预设文本数据相匹配的字的总数量，并基于第一文字匹配度计算公式，计算每个用户对应的各条第一目标样本数据的第一文本数据与预设文本数据的文字匹配度。

S12：基于第一得分值计算公式计算各个所述用户的语音数据得分值；所述第一得分值计算公式为：

其中，TotalScore_i表示第i个用户的语音数据得分值，N表示第i个用户对应的所述第一目标样本数据的总数量，Time_n表示第i个用户对应的第n条第一目标样本数据的时长，AvgTime表示所有所述第一目标样本数据的平均时长，EmoRate_n表示第i个用户对应的第n条第一目标样本数据与预设情感特征的情感特征匹配度，WordRate_n表示第i个用户对应的第n条第一目标样本数据的第一文本数据与预设文本数据的文字匹配度，a为预先设置的情感特征匹配度的权重系数，b为预先设置的文字匹配度的权重系数。

本实施例中，终端设备确定出每个用户对应的各条第一目标样本数据与预设情感特征的情感特征匹配度以及每个用户对应的第一目标样本数据的第一文本数据分别与预设文本数据的文字匹配度后，基于上述第一得分值计算公式计算每个用户的语音数据得分值。需要说明的是，情感特征匹配度的权重系数a及文字匹配度的权重系数b可以根据实际需求进行调整。

可以理解的是，用户的语音数据得分值越大，说明该用户的语音数据的质量越高；用户的语音数据得分值越小，说明该用户的语音数据的质量越低。

S13：将语音数据得分值大于第二预设得分值阈值的用户确定为目标用户，并将所述目标用户的语音数据确定为用于训练语音识别模型的优质语音数据。

本实施例中，终端设备确定出各个用户的语音数据得分值后，将各个用户的语音数据得分值分别与第二预设得分值阈值进行比较，将语音数据得分值大于第二预设得分值阈值的用户确定为目标用户。目标用户为能够提供优质语音数据的用户。终端设备确定出目标用户后，采集目标用户的语音数据，并将采集到的目标用户的语音数据确定为用于训练语音识别模型的优质语音数据。

以上可以看出，本实施例提供的一种基于语音识别模型的样本数据获取方法基于第一目标样本数据确定能够提供优质语音数据的目标用户，再采集目标用户的语音数据作为用于训练语音识别模型的优质语音数据，采用优质语音数据对语音识别模型进行训练，能够进一步提高语音识别模型的准确度。

请参阅图5，图5是本发明实施例提供的一种终端设备的结构框图。本实施例中的终端设备可以是智能手机、平板电脑等终端设备。该终端设备包括的各单元用于执行图1至图4对应的实施例中的各步骤。具体请参阅图1至图4以及图1至图4所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图5，终端设备500包括：第一获取单元51、第一匹配单元52、第二匹配单元53及第一确定单元54。其中：

第一获取单元51用于获取用户基于预设文本数据及所述预设文本数据的预设语音表达方式输入的第一语音数据。

第一匹配单元52用于对所述第一语音数据进行音转文处理，得到所述第一语音数据对应的第一文本数据，并将所述第一文本数据与所述预设文本数据进行文字匹配，得到文字匹配结果。

第二匹配单元53用于确定所述第一语音数据的各个预设语音特征因子的值，并基于所有所述预设语音特征因子的值确定所述第一语音数据的情感特征，将所述第一语音数据的情感特征与所述预设文本数据通过所述预设语音表达方式表达时对应的预设情感特征进行情感特征匹配，得到情感特征匹配结果。

第一确定单元54用于基于所述文字匹配结果及所述情感特征匹配结果确定所述第一语音数据的总得分值，并将总得分值大于第一预设得分值阈值的所述第一语音数据确定为用于训练语音识别模型的第一目标样本数据。

作为本发明一实施例，终端设备还包括：第二获取单元及第二确定单元。其中：

第二获取单元用于获取用户基于预设语音数据输入的第二语音数据；所述预设语音数据基于所述用户当次输入所述第二语音数据的前一次所输入的第二语音数据匹配得到。

第二确定单元用于将所有所述第二语音数据确定为用于训练语音识别模型的基础样本数据。

作为本发明一实施例，终端设备还包括：第一提取单元及第三确定单元。其中：

第一提取单元用于提取各条所述基础样本数据的声纹特征以及提取各条所述第一目标样本数据的声纹特征。

第三确定单元用于将各条所述基础样本数据的声纹特征分别与各条所述第一目标样本数据的声纹特征进行声纹特征匹配，从所述基础样本数据中筛选声纹特征与所述第一目标样本数据的声纹特征一致的样本数据，将筛选出的所述样本数据确定为用于训练语音识别模型的第二目标样本数据。

作为本发明一实施例，终端设备还包括：第四确定单元、第五确定单元、第六确定单元、第一计算单元及第七确定单元。其中：

第四确定单元用于基于各条所述第一目标样本数据的用户标识，确定所述第一目标样本数据对应的各个用户，并统计每个用户对应的所述第一目标样本数据的总数量。

第五确定单元用于确定每个用户对应的各条所述第一目标样本数据与预设情感特征的情感特征匹配度。

第六确定单元用于确定每个用户对应的各条所述第一目标样本数据的第一文本数据与预设文本数据的文字匹配度。

第一计算单元用于基于第一得分值计算公式计算各个所述用户的语音数据得分值；所述第一得分值计算公式为：

第七确定单元用于将语音数据得分值大于第二预设得分值阈值的用户确定为目标用户，并将所述目标用户的语音数据确定为用于训练语音识别模型的优质语音数据。

作为本发明一实施例，第五确定单元具体用于：

作为本发明一实施例，第六确定单元具体用于：

以上可以看出，本实施例提供的终端设备通过对用户输入的第一语音数据进行音转文处理，得到第一文本数据，将第一文本数据与预设文本数据进行文字匹配，得到文字匹配结果；确定第一语音数据的情感特征，将第一语音数据的情感特征与预设文本数据通过预设语音表达方式表达时对应的预设情感特征进行情感特征匹配，得到情感特征匹配结果；基于文字匹配结果及情感特征匹配结果确定第一语音数据的总得分值，将总得分值大于第一预设得分值阈值的第一语音数据确定为用于训练语音识别模型的第一目标样本数据，如此，采用与预设文本数据的文字匹配度及情感特征匹配度均较高的第一语音数据作为用于训练语音识别模型的第一目标样本数据，能够提高训练得到的语音识别模型的准确度。

图6是本发明另一实施例提供的一种终端设备的结构框图。如图6所示，该实施例的终端设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62，例如基于语音识别模型的样本数据获取方法的程序。处理器60执行所述计算机程序62时实现上述各个基于语音识别模型的样本数据获取方法各实施例中的步骤，例如图1所示的S1至S4。或者，所述处理器60执行所述计算机程序62时实现上述图5对应的实施例中各单元的功能，例如，图5所示的单元51至54的功能，具体请参阅图5对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序62可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器61中，并由所述处理器60执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。例如，所述计算机程序62可以被分割成第一获取单元、第一匹配单元、第二匹配单元及第一确定单元，各单元具体功能如上所述。

所述终端设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音识别模型的样本数据获取方法，其特征在于，包括：

基于所述文字匹配结果及所述情感特征匹配结果确定所述第一语音数据的总得分值，并将总得分值大于第一预设得分值阈值的所述第一语音数据确定为用于训练语音识别模型的第一目标样本数据；

所述将总得分值大于第一预设得分值阈值的所述第一语音数据确定为用于训练语音识别模型的第一目标样本数据之后，还包括：

基于各条所述第一目标样本数据的用户标识，确定所述第一目标样本数据对应的各个用户，并统计每个用户对应的所述第一目标样本数据的总数量；

确定每个用户对应的各条所述第一目标样本数据与预设情感特征的情感特征匹配度；

确定每个用户对应的各条所述第一目标样本数据的第一文本数据与预设文本数据的文字匹配度；

基于第一得分值计算公式计算各个所述用户的语音数据得分值；所述第一得分值计算公式为：

其中，TotalScore_i表示第i个用户的语音数据得分值，N表示第i个用户对应的所述第一目标样本数据的总数量，Time_n表示第i个用户对应的第n条第一目标样本数据的时长，AvgTime表示所有所述第一目标样本数据的平均时长，EmoRate_n表示第i个用户对应的第n条第一目标样本数据与预设情感特征的情感特征匹配度，WordRate_n表示第i个用户对应的第n条第一目标样本数据的第一文本数据与预设文本数据的文字匹配度，a为预先设置的情感特征匹配度的权重系数，b为预先设置的文字匹配度的权重系数；

将语音数据得分值大于第二预设得分值阈值的用户确定为目标用户，并将所述目标用户的语音数据确定为用于训练语音识别模型的优质语音数据。

2.根据权利要求1所述的样本数据获取方法，其特征在于，还包括：

获取用户基于预设语音数据输入的第二语音数据；所述预设语音数据基于所述用户当次输入所述第二语音数据的前一次所输入的第二语音数据匹配得到；

将所有所述第二语音数据确定为用于训练语音识别模型的基础样本数据。

3.根据权利要求2所述的样本数据获取方法，其特征在于，所述将总得分值大于第一预设得分值阈值的所述第一语音数据确定为用于训练语音识别模型的第一目标样本数据之后，还包括：

提取各条所述基础样本数据的声纹特征以及提取各条所述第一目标样本数据的声纹特征；

将各条所述基础样本数据的声纹特征分别与各条所述第一目标样本数据的声纹特征进行声纹特征匹配，从所述基础样本数据中筛选声纹特征与所述第一目标样本数据的声纹特征一致的样本数据，将筛选出的所述样本数据确定为用于训练语音识别模型的第二目标样本数据。

4.根据权利要求1所述的样本数据获取方法，其特征在于，所述确定每个用户对应的各条所述第一目标样本数据与预设情感特征的情感特征匹配度，包括：

5.根据权利要求1所述的样本数据获取方法，其特征在于，所述确定每个用户对应的各条所述第一目标样本数据的第一文本数据与预设文本数据的文字匹配度，包括：

6.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

7.根据权利要求6所述的终端设备，其特征在于，还包括：

8.一种终端设备，其特征在于，包括：

第一确定单元，用于基于所述文字匹配结果及所述情感特征匹配结果确定所述第一语音数据的总得分值，并将总得分值大于第一预设得分值阈值的所述第一语音数据确定为用于训练语音识别模型的第一目标样本数据；

所述终端设备还包括：第四确定单元、第五确定单元、第六确定单元、第一计算单元及第七确定单元，其中：

第四确定单元，用于基于各条所述第一目标样本数据的用户标识，确定所述第一目标样本数据对应的各个用户，并统计每个用户对应的所述第一目标样本数据的总数量；

第五确定单元，用于确定每个用户对应的各条所述第一目标样本数据与预设情感特征的情感特征匹配度；

第六确定单元，用于确定每个用户对应的各条所述第一目标样本数据的第一文本数据与预设文本数据的文字匹配度；

第一计算单元，用于基于第一得分值计算公式计算各个所述用户的语音数据得分值；所述第一得分值计算公式为：

第七确定单元，用于将语音数据得分值大于第二预设得分值阈值的用户确定为目标用户，并将所述目标用户的语音数据确定为用于训练语音识别模型的优质语音数据。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。