CN109473106A

CN109473106A - 声纹样本采集方法、装置、计算机设备及存储介质

Info

Publication number: CN109473106A
Application number: CN201811339705.0A
Authority: CN
Inventors: 朱文和
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2019-03-15
Anticipated expiration: 2038-11-12
Also published as: CN109473106B

Abstract

本发明公开了一种声纹样本采集方法、装置、计算机设备及存储介质。所述方法包括：获取声纹采集请求中包含的台词情绪标签；从预设的台词数据库中选取台词情绪标签对应的台词文本，并将台词文本发送到客户端；接收客户端返回的采集用户朗读台词文本的语音数据；对语音数据进行有效性校验，若有效性校验通过，则将语音数据转换为语音文本；对语音文本和台词文本进行文本相似度匹配；若匹配结果为匹配成功，则提取所述语音数据的声纹特征，将声纹特征、台词情绪标签和台词文本作为声纹样本，并关联保存到声纹情绪识别模型对应的样本库中。本发明的技术方案通过台词情绪标签有针对性的采集声纹情绪识别模型的声纹样本，降低采集成本，提高采集效率。

Description

声纹样本采集方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种声纹样本采集方法、装置、计算机设备及存储介质。

背景技术

目前，随着机器智能化的不断发展，越来越多的关于情绪识别的模型和方法被分析研究，现有的情绪识别主要基于对人脸图片的表情识别。

声纹(Voiceprint)是指说话人语音频谱的信息图。由于每个人的发音器官不同，所发出来的声音及其音调各不相同，声纹能够携带言语信息的声波频谱，不仅具有特定性，而且有相对稳定性的特点。

当将声纹应用于情绪识别时，基于声纹的情绪识别模型需要大量的声纹样本进行模型训练和验证。

常见的声纹样本采集方法主要是通过人工方式从各种录音文件中的提取声音样本及其声纹特征，并通过人工标注的方式对声音样本进行情绪标注，这种人工采集方式操作繁琐，不具有针对性，导致采集成本高，采集效率低，并且采集效果不理想。

发明内容

本发明实施例提供一种声纹样本采集方法、装置、计算机设备及存储介质，以解决目前用于情绪识别的声纹样本采集成本高，且采集效率低的问题。

一种声纹样本采集方法，包括：

若接收到客户端发送的声纹采集请求，则获取所述声纹采集请求中包含的台词情绪标签；

按照预设的选取方式，从预设的台词数据库中选取所述台词情绪标签对应的台词文本，并将所述台词文本发送到所述客户端，以使所述客户端的采集用户按照所述台词情绪标签的要求朗读所述台词文本；

接收所述客户端返回的所述采集用户朗读所述台词文本的语音数据；

对所述语音数据进行有效性校验，得到有效性校验结果；

若所述有效性校验结果为校验通过，则使用语音转换工具将所述语音数据转换为语音文本；

对所述语音文本和所述台词文本进行文本相似度匹配，得到匹配结果；

若所述匹配结果为匹配成功，则提取所述语音数据的声纹特征，将所述声纹特征、所述台词情绪标签和所述台词文本作为声纹样本，并关联保存到声纹情绪识别模型对应的样本库中。

一种声纹样本采集装置，包括：

标签获取模块，用于若接收到客户端发送的声纹采集请求，则获取所述声纹采集请求中包含的台词情绪标签；

台词选择模块，用于按照预设的选取方式，从预设的台词数据库中选取所述台词情绪标签对应的台词文本，并将所述台词文本发送到所述客户端，以使所述客户端的采集用户按照所述台词情绪标签的要求朗读所述台词文本；

数据接收模块，用于接收所述客户端返回的所述采集用户朗读所述台词文本的语音数据；

校验模块，用于对所述语音数据进行有效性校验，得到有效性校验结果；

语音转换模块，用于若所述有效性校验结果为校验通过，则使用语音转换工具将所述语音数据转换为语音文本；

匹配模块，用于对所述语音文本和所述台词文本进行文本相似度匹配，得到匹配结果；

样本生成模块，用于若所述匹配结果为匹配成功，则提取所述语音数据的声纹特征，将所述声纹特征、所述台词情绪标签和所述台词文本作为声纹样本，并关联保存到声纹情绪识别模型对应的样本库中。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述声纹样本采集方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述声纹样本采集方法的步骤。

上述声纹样本采集方法、装置、计算机设备及存储介质中，根据客户端发送的声纹采集请求中包含的台词情绪标签，从台词数据库中选取该台词情绪标签对应的台词文本，将台词文本发送到客户端，并接收客户端返回的该台词文本对应的语音数据，若对语音数据的有效性校验通过，则将语音数据转换为语音文本，并在根据语音文本与台词文本之间的文本相似度匹配成功后，提取语音数据的声纹特征，并将声纹特征、台词情绪标签和台词文本关联保存为声纹情绪识别模型的声纹样本，从而实现了通过台词情绪标签有针对性的采集声纹情绪识别模型的声纹样本，无需人工分析和标注，降低了采集成本，并有效提高采集效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中声纹样本采集方法的一应用环境示意图；

图2是本发明一实施例中声纹样本采集方法的一流程图；

图3是本发明一实施例中声纹样本采集方法中步骤S4的一流程图；

图4是本发明一实施例中声纹样本采集方法的步骤S4中计算语音数据的信号累积能量的一流程图；

图5是本发明一实施例中声纹样本采集方法中步骤S6的一流程图；

图6是本发明一实施例中声纹样本采集方法中步骤S63的一流程图；

图7是本发明一实施例中声纹样本采集装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的声纹样本采集方法，可应用在如图1所示的应用环境中，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，该网络可以是有线网络或者无线网络，客户端具体包括但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑和便携式可穿戴设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。客户端将采集用户按照台词情绪标签的要求朗读的台词文本对应的语音数据发送到服务端，服务端对该语音数据进行有效性校验、文本匹配和声纹特征提取，得到用于声纹情绪识别模型的模型训练和测试的声纹样本。

在一实施例中，如图2所示，提供一种声纹样本采集方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S1：若接收到客户端发送的声纹采集请求，则获取该声纹采集请求中包含的台词情绪标签。

具体地，采集用户可以在客户端的采集界面提供的可选情绪标签中点选想要采集的台词情绪标签，并进行提交操作，当客户端检测到采集用户在采集界面中的提交操作时，获取采集用户点选的台词情绪标签，并将该台词情绪标签的声纹采集请求发送到服务端。

其中，可选情绪标签被预先设置在采集界面上供采集用户选择，可选情绪标签具体可以按照七种基本情绪进行设置，七种基本情绪包括高兴、惊讶、生气、害怕、轻视、厌恶以及悲伤。

进一步地，采集用户在进行提交操作时，也可以不点选台词情绪标签，即声纹采集请求中的台词情绪标签为空。服务端接收到该声纹采集请求后，若判断获取到的台词情绪标签为空，则可以从预设的可选情绪标签中随机选择一种可选情绪标签作为台词情绪标签。

S2：按照预设的选取方式，从预设的台词数据库中选取台词情绪标签对应的台词文本，并将该台词文本发送到客户端，以使客户端的采集用户按照台词情绪标签的要求朗读该台词文本。

具体的，服务端根据步骤S1得到的台词情绪标签，在预设的台词数据库中进行台词文本的选取。

其中，预设的台词数据库预选存储有每种可选情绪标签及其对应的可选台词文本的集合，在该集合中，可选台词文本可以选自名著、小说或者电视剧本等，例如，对“悲伤”这一可选情绪标签，在该可选情绪标签对应的可选台词文本的集合中，可以包括《忠犬八公》中的“别等了，他不会回来的”这句可选台词文本。

需要说明的是，预设的选取方式可以是随机选取的方式，也可以是按照顺序循环选取的方式，可以是选取一条台词文本，也可以是选取多条台词文本，其具体可以根据实际应用的需要进行设置，此处不做限制。

服务端在选取到台词情绪标签对应的台词文本后，将该台词文本发送到客户端，客户端将该台词文本显示在采集界面，使得采集用户能够按照台词情绪标签的要求朗读该台词文本，即采集用户在朗读该台词文本时需按照该台词情绪标签表达对应的情绪，同时，客户端启动麦克风设备采集语音数据。

当采集用户朗读完成后，可以点击录制完成图标，当客户端检测到采集用户点击路录制完成图标的操作时，关闭麦克风设备，并将采集到的语音数据通过录制完成消息发送给服务端。

S3：接收客户端返回的采集用户朗读台词文本的语音数据。

具体地，服务端接收客户端发送的录制完成消息，并从该录制完成消息中获取采集用户朗读台词文本的语音数据。

S4：对语音数据进行有效性校验，得到有效性校验结果。

具体地，服务端对步骤S3获取到的语音数据进行有效性校验，有效性校验用于对语音数据进行初步检查，以确保录制的语音数据满足样本采集的基本要求，有效性校验的内容具体可以包括对语音数据的时长、语音数据的信号能量等的校验。

当语音数据的时长和信号能量均满足样本采集的基本要求时，才确认有效性校验结果为校验通过，否则确认有效性校验结果为校验未通过。

若有效性校验结果为校验通过，则继续执行步骤S5。

若有效性校验结果为校验未通过，则服务端直接丢弃该语音数据，并向客户端发送重新采集的指令。

S5：若有效性校验结果为校验通过，则使用语音转换工具将语音数据转换为语音文本。

具体地，如步骤S4得到的有效性校验结果为校验通过，则进一步使用语音转换工具将语音数据转换为语音文本。

其中，语音转换工具具体可以是第三方软件供应商提供的各种语音转文字的应用接口，通过调用该应用接口直接将语音数据转换为语音文本。

S6：对语音文本和台词文本进行文本相似度匹配，得到匹配结果。

具体地，采用预设的相似度匹配方式，对步骤S5得到的语音文本和步骤S2中服务端选取的台词文本之间进行文本相似度匹配。

预设的相似度匹配方式具体可以是通过字符逐一比较的方式进行匹配，或者可以是采用动态规划算法计算相似度的方式进行匹配，还可以是采用其他相似度匹配算法进行匹配，其具体可以根据实际应用的需要进行选择，此处不做限制。

文本相似度匹配的匹配结果包括匹配成功和匹配失败，当语音文本和台词文本之间文本内容相同或者接近时，可以认定匹配结果为匹配成功，当语音文本和台词文本之间的文本内容差别较大时，可以认定匹配结果为匹配失败。

若匹配结果为匹配成功，则继续执行步骤S7。

若匹配结果为匹配失败，则确认本次样本采集失败，服务端直接丢弃该语音数据和语音文本，并向客户端发送重新采集的指令。

S7：若匹配结果为匹配成功，则提取语音数据的声纹特征，将该声纹特征、台词情绪标签和台词文本作为声纹样本，并关联保存到声纹情绪识别模型对应的样本库中。

具体地，若步骤S6得到的匹配结果为匹配成功，则服务端确认本次样本采集结果有效，从语音数据中提取用于情绪识别的声纹特征，例如，声学特征、韵律特征等，其中，声学特征包括频谱、倒频谱、共振峰、基音、反射系数等，韵律特征包括节奏、速度、语调、音量等。

服务端将提取到语音数据的声纹特征与该语音数据对应的台词情绪标签和台词文本进行关联，作为一个声纹样本，保存在样本库中，用于对声纹情绪识别模型进行模型训练和测试。

本实施例中，根据客户端发送的声纹采集请求中包含的台词情绪标签，从台词数据库中选取该台词情绪标签对应的台词文本，将台词文本发送到客户端，并接收客户端返回的该台词文本对应的语音数据，若对语音数据的有效性校验通过，则将语音数据转换为语音文本，并在根据语音文本与台词文本之间的文本相似度匹配成功后，提取语音数据的声纹特征，并将声纹特征、台词情绪标签和台词文本关联保存为声纹情绪识别模型的声纹样本，从而实现了通过台词情绪标签有针对性的采集声纹情绪识别模型的声纹样本，无需人工分析和标注，降低了采集成本，并有效提高采集效率。

在一实施例中，如图3所示，在步骤S4中，对语音数据进行有效性校验，得到有效性校验结果，具体包括如下步骤：

S41：获取语音数据的录音时长。

具体地，根据语音数据的起始时间点和结束时间点，计算该结束时间点和该起始时间点之间的时间差值，得到的该时间差值即为录音时长。

S42：若语音数据的录音时长满足台词文本对应的语音时长的预设范围要求，则计算语音数据的信号累积能量。

在本实施例中，台词文本对应的语音时长的预设范围要求定义了台词文本的朗读时长的合理范围，不同的台词文本对应的语音时长的预设范围要求不同，每个台词文本对应的语音时长的预设范围要求由该台词文本的内容长度确定，台词文本的内容长度越长，则其对应的语音时长的预设范围要求中的语音时长越长，反之，台词文本的内容长度越短，则其对应的语音时长的预设范围要求中的语音时长越短。例如，台词文本“别等了，他不会回来的”对应的语音时长的预设范围要求可以为语音时长在3秒至6秒之间。

需要说明的是，台词文本对应的语音时长的预设范围要求与该台词文本对应保存在预设的台词数据库。

具体地，服务端从台词数据库中获取台词文本对应的语音时长的预设范围要求，根据步骤S41得到的录音时长，判断该录音时长是否满足该预设范围要求，若满足，则计算语音数据的信号累积能量，若不满足，则流程跳转到步骤S44继续执行。

例如，以台词文本“别等了，他不会回来的”为例，该台词文本对应的录音时长为5秒，若其预设范围要求为语音时长在3秒至6秒之间，则可以确认录音时长满足该预设范围要求，因此，服务端进一步计算语音数据的信号累积能量。

语音数据的信号累积能量是语音数据的语音信号的能量总和，通过对语音数据进行分帧，并对每一帧数据进行语音信号采样，根据采样得到的语音信号采样值，累加计算语音数据的信号累积能量。

S43：若语音数据的信号累积能量大于或等于预设能量阈值，则确认有效性校验结果为校验通过。

具体地，通过对信号累积能量与预设能量阈值之间的比较，能够识别出语音数据是否为非语音信号或者未静默语音信号，从而将不满足采集要求的语音数据剔除。

若语音数据的信号累积能量大于或等于预设能量阈值，则确认该语音数据不属于非语音信号，并且也不属于静默语音信号，即有效性校验结果为校验通过。

若语音数据的信号累积能量小于预设能量阈值，则继续执行步骤S44。

S44：若语音数据的录音时长不满足台词文本对应的语音时长的预设范围要求，或者语音数据的信号累积能量小于预设能量阈值，则确认有效性校验结果为校验未通过。

具体地，若根据步骤S42得到录音时长不满足预设范围要求，或者根据步骤S44得到信号累积能量小于预设能量阈值，则服务端认定本次采集到的语音数据不满足样本采集的基本要求，即确认有效性校验结果为校验未通过。

本实施例中，通过判断语音数据的录音时长是否满足台词文本对应的语音时长的预设范围要求，以及通过对语音数据的信号累积能量与预设能量阈值之间的比较，完成对语音数据的有效性校验，以确认采集到的语音数据是否满足样本采集的基本要求，得到有效性校验结果，实现了对语音数据的预筛选，确保样本数据的准确，提高了样本采集质量和准确率。

在一实施例中，如图4所示，在步骤S42中，计算语音数据的信号累积能量，具体包括如下步骤：

S421：按照预设的帧长对语音数据进行分帧处理，得到K个语音帧，并按照预设的采样频率对每个语音帧进行语音信号采样，得到每个语音帧中的每个采样点的语音信号采样值，其中，K为正整数。

具体地，按照预设的帧长对语音数据进行帧间不重叠的分帧处理，得到K个语音帧，其中，K为语音帧的数量，即语音数据的时长与预设的帧长之间的商。然后，按照预设的采样频率对每个语音帧进行语音信号采样，获取语音帧中的每个采样点的语音信号采样值。

例如，预设的帧长可以设置为0.01s，预设的采样频率可以设置为8000Hz，即每秒采集8000个语音信号采样值，则可以将语音数据按照80个语音信号采样值确定为一帧语音帧进行分帧处理，若最后一帧语音帧的语音信号采样值的数量不足80个，则对最后一帧语音帧进行添加语音信号采样值为0的信息数据，使得每个语音帧均包括80个语音信号采样值。

S422：按照公式(1)计算每个语音帧的帧能量：

其中，P为每个语音帧的帧能量，N为每个语音帧中的采样点的数量，X_i为每个语音帧中第i个采样点的语音信号采样值，X_max为每个语音帧的N个采样点的语音信号采样值中的最大值。

具体地，每个语音帧中的采样点的数量N由预设的采样频率和预设的帧长确定，例如，若预设的帧长为0.01s，预设的采样频率为8000Hz，则N为80。

针对每个语音帧，根据步骤S421得到的该语音帧中的每个采样点的语音信号采样值，获取N个语音信号采样值中的最大值X_max，并计算每个语音信号采样值与该最大值之间的比值，并将N个比值累加的和作为该语音帧的帧能量。

S423：按照公式(2)计算语音数据的信号累积能量：

其中，E为语音数据的信号累积能量，P_j为第j个语音帧的帧能量，K为语音帧的数量。

具体地，将步骤S422得到的每个语音帧的帧能量累加求和，得到语音数据的信号累积能量。

本实施例中，通过对语音数据进行分帧和语音信号采样，得到每个语音帧及其采样点的语音信号采样值，并按照公式(1)计算每个语音帧的帧能量，并按照公式(2)对每个语音帧的帧能量进行累加，得到语音数据的信号累积能量，计算简便且结果准确，实现了通过信号累积能量准确识别出语音数据中的非语音信号或者未静默语音信号，从而将不满足采集要求的语音数据剔除，确保样本数据的准确，提高了样本采集质量和准确率。

在一实施例中，如图5所示，在步骤S6中，对语音文本和台词文本进行文本相似度匹配，得到匹配结果，具体包括如下步骤：

S61：根据预设的正则表达式，获取台词文本中的非文字字符。

在本实施例中，当台词文本中包含有标点符号、引号等非文字字符时，由于采集用户在朗读时不会朗读这些非文字字符，因而在语音文本中不会包含非文字字符，因此为了确保语音文本和台词文本在进行文本相似度匹配时，不因非文字字符影响匹配结果，需要对台词文本中的非文字字符进行识别和删除处理。

具体地，通过预设的正则表达式，对台词文本进行正则匹配，确定台词文本中包含的非文字字符。

其中，预设的正则表达式具体可以为：“\p{P|M|Z|S|C}”，小写的p表示统一码(Unicode)属性，用于Unicode正则表达式的前缀，Unicode字符集包含7个属性，分别是：P(标点字符)、L(字母)、M(标记符号)、Z(分隔符，比如空格符、换行符等)、S(符号，比如数学符号、货币等)、N(数字，比如阿拉伯数字和罗马数字等)和C(其他字符)，{P|M|Z|S|C}表示在对一个字符进行匹配时，若匹配到P、M、Z、S或C中的任一种属性，即确定正则匹配成功，匹配成功的字符即为非文字字符。

S62：对台词文本中的非文字字符进行删除处理，得到台词文本对应的目标语料。

具体地，将步骤S62获取到的非文字字符从台词文本中删除，得到只包含文字字符的目标语料。

S63：采用文本字符匹配的方式，计算语音文本和目标语料之间的文本相似度。

具体地，对语音文本和步骤S62得到的目标语料进行文本字符匹配，查询语音文本与目标预料之间相同的文字字符，并将相同的文字字符的数量占目标语料的文字字符总数的比重确定为语音文本和目标语料之间的文本相似度。

S64：若文本相似度大于或者等于预设的相似度阈值，则确认匹配结果为匹配成功。

具体地，若步骤S63得到的文本相似度大于或者等于预设的相似度阈值，则确认语音文本和目标语料之间的文本相似度匹配结果为匹配成功，即服务端认为采集用户朗读的语音文本和服务端提供的台词文本的内容一致，满足采集要求。

S65：若文本相似度小于预设的相似度阈值，则确认匹配结果为匹配失败。

具体地，若步骤S63得到的文本相似度小于预设的相似度阈值，则确认语音文本和目标语料之间的文本相似度匹配结果为匹配失败，即服务端认为采集用户朗读的语音文本和服务端提供的台词文本的内容不一致，不满足采集要求。

在本实施例中，使用预设的正则表达式识别台词文本中的非文字字符，并将非文字字符从台词文本中删除，得到仅包含文字字符的目标语料，使得在根据语音文本和目标语料的文本相似度确定语音文本和目标语料是否匹配时，不因非文字字符影响匹配结果，从而提高匹配结果的准确性，同时，采用文本字符匹配的方式计算之间的文本相似度，其计算方式简便快速，能够提高匹配效率。

在一实施例中，如图6所示，在步骤S63中，采用文本字符匹配的方式，计算语音文本和目标语料之间的文本相似度，具体包括如下步骤：

S631：将语音文本中的文字字符依序存入预设的第一数组中，并将目标语料中的文字字符依序存入预设的第二数组，其中，第一数组和第二数组均为一维数组。

具体地，使用一维数组保存语音文本中的文字字符和目标语料中的文字字符，其中，第一数组用于保存语音文本中的文字字符，第二数组用于保存目标语料中的文字字符，并且数组的每个数组元素均只保存一个文字字符。

S632：对第一数组和第二数组进行数组元素比较，并根据比较结果统计第一数组和第二数组之间相同文字字符的数量。

具体地，对第一数组的每个数组元素进行遍历，查询第一数组的每个数组元素的值是否在第二数组中存在，若存在，则将该数组元素标记为有效元素，在遍历完成后，统计第一数组中有效元素的数量，该数量即为第一数组和第二数组之间相同文字字符的数量。

例如，若目标语料为“别等了他不会回来的”，语音文本为“别等他不回来啦”，则第一数组A[]中每个数组元素分别为：A[0]＝别，A[1]＝等，A[2]＝他，A[3]＝不，A[4]＝回，A[5]＝来，A[6]＝啦，第二数组B[]中每个数组元素分别为：B[0]＝别，B[1]＝等，B[2]＝了，B[3]＝他，B[4]＝不，B[5]＝会，B[6]＝回，B[7]＝来，B[8]＝的，通过对第一数组A[]中每个数组元素进行遍历，查询第二数组B[]中是否存在第一数组A[]中每个数组元素的值确定第一数组A[]中的有效元素，可以得到第一数组A[]中A[0]至A[5]均为有效元素，有效元素的数量为6，即第一数组A[]和第二数组B[]之间相同文字字符的数量为6。

S633：计算相同文字字符的数量与目标语料的文字字符总数之间的比值，并将得到的比值为文本相似度。

具体地，根据步骤S632得到的第一数组和第二数组之间相同文字字符的数量，计算该数量与目标语料中包含的文字字符总数之间的比值，该比值即为文本相似度。

继续以步骤S632中的例子加以说明，第一数组A[]和第二数组B[]之间相同文字字符的数量为6，第二数组B[]包含的文字字符总数为9，则文本相似度为6/9＝66.7％。

本实施例中，使用两个一维数组分别存储语音文本中的文字字符和目标语料中的文字字符，通过对第一数组和第二数组进行数组元素比较，统计第一数组和第二数组之间相同文字字符的数量，并将该数量与目标语料的文字字符总数之间的比值作为文本相似度，实现了通过文本字符匹配的方式，简便快速地计算语音文本和目标语料之间的文本相似度，提高匹配效率，在大数据量的样本采集过程中能够提高采集效率。

在一实施例中，在步骤S6之后，还包括如下步骤：

S8：若匹配结果为匹配失败，则向客户端发送采集失败的提示信息，以使客户端引导采集用户进行重新采集。

具体地，若根据步骤S6中文本相似度匹配的匹配结果为匹配失败，则确认本次样本采集失败，服务端直接丢弃语音数据和语音文本，并向客户端发送采集失败的提示信息，客户端将该提示信息显示给采集用户，并引导采集用户重新进行声纹样本采集。

本实施例中，当语音文本和台词文本之间的文本相似度匹配失败时，服务端认定本次样本采集得到的语音数据不能满足样本采集要求，并向客户端发送采集失败的消息，以便重新进行采集，使得客户端的采集用户能够及时了解采集失败的情况并能及时进行重新采集。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种声纹样本采集装置，该声纹样本采集装置与上述实施例中声纹样本采集方法一一对应。如图7所示，该声纹样本采集装置包括标签获取模块71、台词选择模块72、数据接收模块73、校验模块74、语音转换模块75、匹配模块76和样本生成模块77。各功能模块详细说明如下：

标签获取模块71，用于若接收到客户端发送的声纹采集请求，则获取该声纹采集请求中包含的台词情绪标签；

台词选择模块72，用于按照预设的选取方式，从预设的台词数据库中选取台词情绪标签对应的台词文本，并将该台词文本发送到客户端，以使客户端的采集用户按照台词情绪标签的要求朗读该台词文本；

数据接收模块73，用于接收客户端返回的采集用户朗读台词文本的语音数据；

校验模块74，用于对语音数据进行有效性校验，得到有效性校验结果；

语音转换模块75，用于若有效性校验结果为校验通过，则使用语音转换工具将语音数据转换为语音文本；

匹配模块76，用于对语音文本和台词文本进行文本相似度匹配，得到匹配结果；

样本生成模块77，用于若匹配结果为匹配成功，则提取语音数据的声纹特征，将声纹特征、台词情绪标签和台词文本作为声纹样本，并关联保存到声纹情绪识别模型对应的样本库中。

进一步地，校验模块74包括：

时长获取子模块741，用于获取语音数据的录音时长；

能量计算子模块742，用于若语音数据的录音时长满足台词文本对应的语音时长的预设范围要求，则计算语音数据的信号累积能量；

校验成功子模块743，用于若信号累积能量大于或等于预设能量阈值，则确认有效性校验结果为校验通过；

校验失败子模块744，用于若语音数据的录音时长不满足预设范围要求，或者信号累积能量小于预设能量阈值，则确认有效性校验结果为校验未通过。

进一步地，能量计算子模块742包括：

分帧单元7421，用于按照预设的帧长对语音数据进行分帧处理，得到K个语音帧，并按照预设的采样频率对每个语音帧进行语音信号采样，得到每个语音帧中的每个采样点的语音信号采样值，其中，K为正整数；

第一计算单元7422，用于按照如下公式计算每个语音帧的帧能量：

其中，P为每个语音帧的帧能量，N为每个语音帧中的采样点的数量，X_i为每个语音帧中第i个采样点的语音信号采样值，X_max为每个语音帧的N个采样点的语音信号采样值中的最大值；

第二计算单元7423，用于按照如下公式计算语音数据的信号累积能量：

进一步地，匹配模块76包括：

正则匹配子模块761，用于根据预设的正则表达式，获取台词文本中的非文字字符；

删除子模块762，用于对台词文本中的非文字字符进行删除处理，得到台词文本对应的目标语料；

相似度计算子模块763，用于采用文本字符匹配的方式，计算语音文本和目标语料之间的文本相似度；

匹配成功子模块764，用于若文本相似度大于或者等于预设的相似度阈值，则确认匹配结果为匹配成功；

匹配失败子模块765，用于若文本相似度小于预设的相似度阈值，则确认匹配结果为匹配失败。

进一步地，相似度计算子模块763包括：

数组转存单元7631，用于将语音文本中的文字字符依序存入预设的第一数组中，并将目标语料中的文字字符依序存入预设的第二数组，其中，第一数组和第二数组均为一维数组；

统计单元7632，用于对第一数组和第二数组进行数组元素比较，并根据比较结果统计第一数组和第二数组之间相同文字字符的数量；

比值计算单元7633，用于计算相同文字字符的数量与目标语料的文字字符总数之间的比值，并将得到的比值为文本相似度。

进一步地，声纹样本采集装置还包括：

重新采集模块78，用于若匹配结果为匹配失败，则向客户端发送采集失败的提示信息，以使客户端引导采集用户进行重新采集。

关于声纹样本采集装置的具体限定可以参见上文中对于声纹样本采集方法的限定，在此不再赘述。上述声纹样本采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹样本采集方法。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中声纹样本采集方法的步骤，例如图2所示的步骤S1至步骤S7。或者，处理器执行计算机程序时实现上述实施例中声纹样本采集装置的各模块/单元的功能，例如图7所示模块71至模块77的功能。为避免重复，此处不再赘述。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中声纹样本采集方法，或者，该计算机程序被处理器执行时实现上述装置实施例中声纹样本采集装置中各模块/单元的功能。为避免重复，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种声纹样本采集方法，其特征在于，所述声纹样本采集方法包括：

对所述语音数据进行有效性校验，得到有效性校验结果；

2.如权利要求1所述的声纹样本采集方法，其特征在于，所述对所述语音数据进行有效性校验，得到有效性校验结果包括：

获取所述语音数据的录音时长；

若所述语音数据的录音时长满足所述台词文本对应的语音时长的预设范围要求，则计算所述语音数据的信号累积能量；

若所述信号累积能量大于或等于预设能量阈值，则确认所述有效性校验结果为校验通过；

若所述语音数据的录音时长不满足所述预设范围要求，或者所述信号累积能量小于所述预设能量阈值，则确认所述有效性校验结果为校验未通过。

3.如权利要求2所述的声纹样本采集方法，其特征在于，所述计算所述语音数据的信号累积能量包括：

按照预设的帧长对所述语音数据进行分帧处理，得到K个语音帧，并按照预设的采样频率对每个所述语音帧进行语音信号采样，得到每个所述语音帧中的每个采样点的语音信号采样值，其中，K为正整数；

按照如下公式计算每个所述语音帧的帧能量：

其中，P为每个所述语音帧的帧能量，N为每个所述语音帧中的采样点的数量，X_i为每个所述语音帧中第i个所述采样点的语音信号采样值，X_max为每个所述语音帧的N个所述采样点的语音信号采样值中的最大值；

按照如下公式计算所述语音数据的信号累积能量：

其中，E为所述语音数据的信号累积能量，P_j为第j个所述语音帧的帧能量，K为所述语音帧的数量。

4.如权利要求1所述的声纹样本采集方法，其特征在于，所述对所述语音文本和所述台词文本进行文本相似度匹配，得到匹配结果包括：

根据预设的正则表达式，获取所述台词文本中的非文字字符；

对所述台词文本中的所述非文字字符进行删除处理，得到所述台词文本对应的目标语料；

采用文本字符匹配的方式，计算所述语音文本和所述目标语料之间的文本相似度；

若所述文本相似度大于或者等于预设的相似度阈值，则确认所述匹配结果为匹配成功；

若所述文本相似度小于所述预设的相似度阈值，则确认所述匹配结果为匹配失败。

5.如权利要求4所述的声纹样本采集方法，其特征在于，所述采用文本字符匹配的方式，计算所述语音文本和所述目标语料之间的文本相似度包括：

将所述语音文本中的文字字符依序存入预设的第一数组中，并将所述目标语料中的文字字符依序存入预设的第二数组，其中，所述第一数组和所述第二数组均为一维数组；

对所述第一数组和所述第二数组进行数组元素比较，并根据比较结果统计所述第一数组和所述第二数组之间相同文字字符的数量；

计算所述相同文字字符的数量与所述目标语料的文字字符总数之间的比值，并将得到的所述比值为所述文本相似度。

6.如权利要求1至5任一项所述的声纹样本采集方法，其特征在于，所述对所述语音文本和所述台词文本进行文本相似度匹配，得到匹配结果之后，所述声纹样本采集方法还包括：

若所述匹配结果为匹配失败，则向所述客户端发送采集失败的提示信息，以使所述客户端引导所述采集用户进行重新采集。

7.一种声纹样本采集装置，其特征在于，所述声纹样本采集装置包括：

8.如权利要求7所述的声纹样本采集装置，其特征在于，所述校验模块包括：

时长获取子模块，用于获取所述语音数据的录音时长；

能量计算子模块，用于若所述语音数据的录音时长满足所述台词文本对应的语音时长的预设范围要求，则计算所述语音数据的信号累积能量；

校验成功子模块，用于若所述信号累积能量大于或等于预设能量阈值，则确认所述有效性校验结果为校验通过；

校验失败子模块，用于若所述语音数据的录音时长不满足所述预设范围要求，或者所述信号累积能量小于所述预设能量阈值，则确认所述有效性校验结果为校验未通过。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的声纹样本采集方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的声纹样本采集方法的步骤。