CN116844523B - 语音数据生成方法、装置、电子设备及可读存储介质 - Google Patents
语音数据生成方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116844523B CN116844523B CN202311115711.9A CN202311115711A CN116844523B CN 116844523 B CN116844523 B CN 116844523B CN 202311115711 A CN202311115711 A CN 202311115711A CN 116844523 B CN116844523 B CN 116844523B
- Authority
- CN
- China
- Prior art keywords
- voice data
- specified
- initial
- language
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000001914 filtration Methods 0.000 claims description 63
- 230000000717 retained effect Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 125000001475 halogen functional group Chemical group 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音数据生成方法、装置、电子设备及可读存储介质,涉及数据技术领域,应用于电子设备,所述方法包括:获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据;从所述初始语音数据中选择满足指定条件的部分语音数据作为指定语音数据;将所述指定语音数据转换为第二语种的目标语音数据;将所述目标语音数据作为所述第二语种的语音模型的样本数据。可以通过获取第一语种的初始语音数据,将该初始语音数据转换为第二语种的目标语音数据,从而将目标语音数据作为第二语种的语音模型的样本数据,可以较为简单的满足第二语种的语音模型对样本数据的数量的需求。
Description
技术领域
本申请涉及数据技术领域,更具体地,涉及一种语音数据生成方法、装置、电子设备及可读存储介质。
背景技术
目前,随着电子信息技术的发展,可以通过相应语种的样本数据对该语种的语音模型进行训练。然而,对于一些语种,获取满足该语种的语音模型进行训练所需要的数量的样本数据较为困难。
发明内容
本申请提出了一种语音数据生成方法、装置、电子设备及可读存储介质。
第一方面,本申请提供了一种语音数据生成方法,应用于电子设备,所述方法包括:获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据;从所述初始语音数据中选择满足指定条件的部分语音数据作为指定语音数据;将所述指定语音数据转换为第二语种的目标语音数据;将所述目标语音数据作为所述第二语种的语音模型的样本数据。
第二方面,本申请还提供了一种语音数据生成装置,应用于电子设备,所述装置包括:获取单元、确定单元、转换单元以及样本数据获取单元。其中,获取单元,用于获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据;确定单元,用于从所述初始语音数据中选择满足指定条件的部分语音数据作为指定语音数据;转换单元,用于将所述指定语音数据转换为第二语种的目标语音数据;样本数据获取单元,用于将所述目标语音数据作为所述第二语种的语音模型的样本数据。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面所述的方法。
本申请提供的语音数据生成方法、装置、电子设备及可读存储介质,首先获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据;然后从所述初始语音数据中选择满足指定条件的部分语音数据作为指定语音数据;再将所述指定语音数据转换为第二语种的目标语音数据;从而将所述目标语音数据作为所述第二语种的语音模型的样本数据。若直接获取第二语种的语音模型所需要的样本数据,可能该样本数据的数量不能满足训练条件。从而,可以通过获取第一语种的初始语音数据,将该初始语音数据转换为第二语种的目标语音数据,从而将目标语音数据作为第二语种的语音模型的样本数据,可以较为简单的满足第二语种的语音模型对样本数据的数量的需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的语音数据生成方法的应用场景图;
图2示出了本申请实施例提供的语音数据生成方法的方法流程图;
图3示出了本申请另一实施例提供的语音数据生成方法的方法流程图;
图4示出了本申请实施例提供的步骤S221至步骤S224的实施方式图;
图5示出了本申请另一实施例提供的步骤S221至步骤S224的实施方式图;
图6示出了本申请又一实施例提供的步骤S221至步骤S224的实施方式图;
图7示出了本申请再一实施例提供的步骤S221至步骤S224的实施方式图;
图8示出了本申请还一实施例提供的步骤S221至步骤S224的实施方式图;
图9示出了本申请还一实施例提供的步骤S221至步骤S224的实施方式图;
图10示出了本申请还一实施例提供的步骤S221至步骤S224的实施方式图框图;
图11示出了本申请另一实施例提供的语音数据生成装置的结构框图;
图12示出了本申请实施例提供的电子设备的结构框图;
图13示出了本申请实施例提供的计算机可读存储介质的结构框图;
图14示出了本申请实施例提供的计算机程序产品的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
目前,随着电子信息技术的发展,可以通过相应语种的样本数据对该语种的语音模型进行训练。然而,对于一些语种,获取满足该语种的语音模型进行训练所需要的数量的样本数据较为困难。如何较为简单的获取到满足该语种的语音模型进行训练所需要的数量的样本数据,是一个亟待解决的问题。
目前,若要对特定语种的语音模型进行训练,可以首先获取该特定语种的语音数据,将该语音数据作为样本数据,然后基于样本数据对该特定语种的语音模型进行训练。例如,若该特定语种为英语,则可以获取英语的语音数据作为样本数据,然后基于英语的语音数据对英语的语音模型进行训练。
然而,发明人在研究中发现,对于一些语种,获取到该语种的语音数据的难度较大,从而无法满足该语种的语音模型在训练时对样本数据的数量需求。
因此,为了克服或部分克服上述缺陷,本申请提供了一种语音数据生成方法、装置、电子设备及可读存储介质。
请参阅图1,图1示出了本申请实施例提供的一种语音数据生成方法的应用场景图,即语音数据生成场景100,该语音数据生成100中包括有电子设备110以及服务器120,其中电子设备110与服务器120相连接。
电子设备110可以通过接入互联网,从而和同样接入了互联网的服务器120建立连接。其中,电子设备110可以通过无线的方式接入互联网,例如通过无线通信技术Wi-Fi、蓝牙Bluetooth等接入互联网;电子设备110还可以通过有线的方式接入互联网,例如通过Rj45网线或光纤接入互联网。
用户可以控制电子设备110从而使电子设备执行语音数据生成方法,具体的介绍可以参阅后续实施例。例如,用户可以直接对电子设备110进行操作,从而控制电子设备执行语音数据生成方法;用户还可以操作与电子设备110建立了通信连接的服务器120,从而通过服务器120控制电子设备110执行语音数据生成方法。其中,服务器120可以为一种云端的服务器,也可以为本地服务器。
请参阅图2,图2示出了本申请实施例提供的一种语音数据生成方法的方法流程图。该语音数据生成方法可以应用于图1中示出的电子设备中,具体的可以以电子设备的处理器作为执行主体。该语音数据生成方法具体包括步骤S110至步骤S130。
步骤S110:获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据。
在一些实施方式中,可以通过样本数据对第二语种的语音模型进行训练。由于需要的语音模型为第二语种的语音模型,因此样本数据需要为第二语种的语音数据。不难理解的是,对语音模型进行训练所需求的样本数据的数量一般较大,因此,若第二语种的语音模型的样本数据数量较少,可能无法满足训练条件。其中,第二语种的语音模型可以是用于对第二语种的语音数据进行识别的模型,本申请实施例不做具体限定。
其中,训练条件可以是指用于训练第二语种的语音模型所需要的样本数据的数量,例如该数量可以为1000个、2000个或4000个等,本申请实施例并不做具体限定。而第二语种的语音模型的样本数据的数量不满足训练条件,可以是指第二语种的语音数据作为样本数据,该样本数据的数量小于对第二语种的语音模型进行训练所需要的数量。
若直接获取第二语种的语音数据,可能获取难度较大。例如在第二语种为小众语种时,该小众语种的语音数据可能较少,从而较难直接获取到小众语种的语音数据。因此,在一些实施方式中,在第二语种的语音模型的样本数据的数量不满足训练条件的情况下,可以首先获取第一语种的初始语音数据,进而通过第一语种的初始语音数据得到用于训练第二语种的语音模型的样本数据。具体的,请参数后续介绍。其中,可以通过网络抓取或下载等方式,收集获取第一语种的初始语音数据。
而在另一些实施方式中,即使第二语种的语音模型的样本数据的数量能够满足训练条件,同样可以首先获取第一语种的初始语音数据,进而通过第一语种的初始语音数据得到用于训练第二语种的语音模型的样本数据。从而可以降低直接获取第二语种的语音数据的需求,也可以将直接获取到的第二语种的语音数据以及通过第一语种转换得到的第二语种的目标语音数据一并作为第二语种的语音模型的样本数据,从而可以提高对第二语种语音模型训练的效果。
其中,所述初始语音数据中包括至少一条语音数据,例如,初始语音数据中可以包括一条第一语种的语音数据,也可以包括多条第一语种的语音数据,本申请实施例并不做具体限定。
示例性的,第二语种可以为阿拉伯语、俄语、德语等,第一语种可以为英语、中文等。需要说明的是,上述对第二语种和第一语种的具体描述仅为一种示例,并不作为对本申请实施例的限定,实际应用中可以根据需要灵活调整。
步骤S120:从所述初始语音数据中选择满足指定条件的部分语音数据作为指定语音数据。
若直接将所有获取到的初始语音数据全部转换为第二语种的目标语音数据,并将所有得到的目标语音数据都作为样本数据,则无法保证转换得到的第二语种的目标语音数据的准确率,从而可能造成目标语音数据作为的样本数据的质量较差,进而降低了基于样本数据对第二语种的目标语音数据进行训练得到的训练后的语音模型的可靠程度。
因此,在一些实施方式中,可以首先对初始语音数据进行过滤,得到指定语音数据。其中,初始语音数据中可以包括至少一条语音数据。例如,初始语音数据中可以包括一条第一语种的语音数据,也可以包括多条第一语种的语音数据,本申请实施例并不做具体限定。可以将初始语音数据中至少部分的语音数据满足指定条件的作为指定语音数据。例如,初始语音数据包括第一条语音数据和第二条语音数据,若第一条语音数据满足指定条件,而第二条语音数据不满足指定条件,则可以将第一条语音数据确定为指定语音数据。
步骤S130:将所述指定语音数据转换为第二语种的目标语音数据。
在获取到第一语种的指定语音数据后,可以将指定语音数据转换为第二语种的目标语音数据。其中,第一语种可以为较为大众的语种的语音数据。从而,为了使第二语种的语音模型的样本数据的数量满足训练条件,可以通过获取第一语种的指定语音数据,并将指定语音数据转换为第二语种的目标语音数据,以增加用于训练第二语种的语音模型的样本数据的数量。
示例性的,可以获取第一语种的指定语音数据对应于第二语种的文本内容,从而可以基于该文本内容生成第二语种的目标语音数据。
指定语音数据指定语音数据可选的,为了使得基于第一语种的指定语音数据转换得到得第二语种得目标语音数据更加符合第一语种的指定语音数据的声纹特征,还可以使目标语音数据具有和指定语音数据相同或相似的声纹特征。
步骤S140:将所述目标语音数据作为所述第二语种的语音模型的样本数据。
基于第一语种的初始语音数据转换得到的第二语种的目标语音数据,和第二语种的语音模型训练所需的样本数据都是第二语种的。因此,可以将该目标语音数据作为第二语种的语音模型的样本数据。
在一些实施方式中,可以灵活控制获取到的初始语音数据中包括的语音数据的数量,从而将初始语音数据转换为目标语音数据之后,目标语音数据作为样本数据,使得样本数据的数量可以满足训练第二语种的语音模型的训练条件。
本申请提供的语音数据生成方法,若直接获取第二语种的语音模型所需要的样本数据,可能该样本数据的数量不能满足训练条件。从而,可以通过获取第一语种的初始语音数据,将该初始语音数据转换为第二语种的目标语音数据,从而将目标语音数据作为第二语种的语音模型的样本数据,可以较为简单的满足第二语种的语音模型对样本数据的数量的需求。
请参阅图3,图3示出了本申请实施例提供的一种语音数据生成方法的方法流程图。该语音数据生成方法可以应用于图1中示出的电子设备中,具体的可以以电子设备的处理器作为执行主体。该语音数据生成方法具体包括步骤S210至步骤S250。
步骤S210:获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据。
其中,步骤S210在前述实施例中已经详细介绍,此处就不再赘述。
步骤S220:基于目标参数对所述初始语音数据过滤,得到所述指定语音数据,所述目标参数包括所述语音数据的质量指标、所述语音数据对应的第一语种的第二文本内容、所述语音数据对应的声纹特征以及所述语音数据对应的第二语种的第三文本内容中至少一个。
可选的,可以基于目标参数对初始语音数据进行过滤,得到指定语音数据。其中,目标参数可以包括所述语音数据的质量指标、所述语音数据对应的第一语种的第二文本内容、所述语音数据对应的声纹特征以及所述语音数据对应的第二语种的第三文本内容中至少一个。
可选的,对于一些实施方式,目标参数可以仅为一个,此时可以通过一个目标参数对初始语音数据进行过滤,得到指定语音数据。具体的,在执行步骤S220时可以包括步骤S221至步骤S224。
步骤S221:获取所述初始语音数据对应于所述目标参数的特征参数,其中,所述初始语音数据中语音数据的第一数量大于或等于第一阈值数量,所述特征参数包括初始质量指标、第一置信度、初始声纹特征以及第二置信度中至少一种。
步骤S222:基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,所述指定内容包括语音数据或音频分类。
步骤S223:确定保留的指定内容对应的指定参数,所述指定参数包括准确率、通过率以及数量中至少一种。
步骤S224:基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据。
由于获取到的初始语音数据是用于转换得到第二语种的目标语音数据的,而得到第二语种的目标数据可以作为样本数据,以满足第二语种的语音模型进行训练所需要的样本数据的数量。因此,若获取到的初始语音数据的数量较小,则基于初始语音数据过滤得到的指定语音数据也会较少,进而导致转换得到的目标语音数据减少,可能无法满足语音模型进行训练所需要的样本数据的数量,即不满足第二语种的语音模型的训练条件因此,基于目标参数对所述初始语音数据过滤,得到指定语音数据,可以使初始语音数据中语音数据的第一数量大于或等于第一阈值数量。
若在基于目标参数对所述初始语音数据过滤时,检测到初始语音数据中语音数据的第一数量小于第一阈值数量,则可以重新获取初始语音数据,直至获取到的初始语音数据中语音数据的第一数量大于或等于第一阈值数量。
在一些实施方式中,若目标参数为一个,此时可以首先获取初始语音数据对应于所述目标参数的特征参数,其中,特征参数包括初始质量指标、第一置信度、初始声纹特征以及第二置信度中至少一种。
在确定得到特征参数后,可以基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,其中所述指定内容可以包括语音数据或音频分类。从而可以基于保留的指定内容,来确定指定语音数据。
具体的,可以确定保留的指定内容对应的指定参数,所述指定参数包括准确率、通过率以及数量中至少一种。基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据。例如,可以将满足阈值参数的指定参数保留作为指定语音数据。
对于一些实施方式,若目标参数为一个,目标参数包括所述语音数据的质量指标时,可以基于该语音数据的质量指标对初始语音数据进行过滤。具体的,请参阅图4,图4示出了步骤S221至步骤S224的一种实施方式图。可以包括步骤S2211至步骤S2216。
步骤S2211:获取所述初始语音数据中每条语音数据的初始质量指标。
为了保证后续得到的指定语音数据的数据质量,在获取到初始语音数据后,可以获取初始语音数据中每条语音数据的初始质量指标。其中,初始质量指标可以用于表征语音数据的质量,示例性的,初始质量指标具体可以包括有效时长、信噪比以及截幅比等指标。也就是说,特征参数可以包括初始质量指标。
需要说明的是,初始质量指标还可以包括其他用于表征语音数据的质量的指标,上述仅为一种示例,并不构成对本申请实施例的具体限定。
步骤S2212:遍历所述初始语音数据中的每条语音数据,将所述初始质量指标满足目标质量指标的语音数据保留。
从而,可以遍历初始语音数据中的每条语音数据,将所述初始质量指标满足目标质量指标的语音数据保留;而对于初始质量指标不满足目标质量指标的语音数据则丢弃。
其中,对于一些实施方式,初始质量指标满足目标质量可以为初始质量指标中的每一个指标,都需要满足该指标对应的目标质量指标,才判定该语音数据的初始质量指标满足目标质量指标。例如,初始质量指标包括有效时长、信噪比以及截幅比,则目标质量指标可以包括目标有效时长、目标信噪比以及目标截幅比,从而语音数据的有效时长满足目标有效时长,语音数据的信噪比满足目标信噪比,语音数据的截幅比满足目标截幅比,判定该语音数据的初始质量指标满足目标质量指标。
对应另一些实施方式,初始质量指标满足目标质量指标可以为初始质量指标中有不小于N种指标满足目标质量指标,则判定该语音数据的初始质量指标满足目标质量指标。继续参阅上述关于初始质量指标和目标质量指标的示例,若N为2,此时语音数据的有效时长满足目标有效时长,语音数据的信噪比满足目标信噪比,语音数据的截幅比不满足目标截幅比,可以判定该语音数据的初始质量指标满足目标质量指标。其中N可以为任何0至目标质量包括的指标种类数量之间的整数,本申请实施例不做具体限定。
步骤S2213:获取保留的语音数据的第二数量与所述初始语音数据中的语音数据的第三数量的比值,作为第一音频通过率。
其中,指定内容为语音数据,指定参数可以为通过率。而在本申请提供的实施方式中,通过率可以为第一音频通过率。具体的,通过上述步骤后,对初始语音数据进行了一定程度的过滤,保留下了至少部分语音数据,此时可以确定第一音频通过率。容易理解的是,第一音频通过率越高,则保留的语音数据的第二数量则越多;反之,若第一音频通过率越低,则保留的语音数据的第二数量则越少。第一音频通过率具体可以为第二数量与第三数量的比值。其中,第二数量为保留的语音数据的数量,而第三数量为初始语音数据中语音数据的数量。
示例性的,第二数量为800,第三数量为1000,则第一音频通过率为80%。
步骤S2214:第一音频通过率是否小于第一阈值通过率。
指定参数为通过率,则指定参数对应的阈值参数可以为阈值通过率。在本申请提供的实施例中,通过率为第一音频通过率,则阈值通过率可以为第一阈值通过率。若第一音频通过率过小,则被保留的语音数据的数量可能较少,从而影响后续得到的样本数据的数量。因此,还可以判断第一音频通过率是否小于第一阈值通过率,若小于,则可以跳转执行步骤S2215;若未小于,则可以跳转执行步骤S2216。示例性的,第一阈值通过率可以通过PB来表征,该PB可以为例如75%、60%等。需要说明的是,第一阈值通过率可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S2215:若所述第一音频通过率小于第一阈值通过率,则降低所述目标初始质量指标得到新的目标初始质量指标,并返回遍历所述初始语音数据中的每条语音数据,将所述初始质量指标满足新的目标初始质量指标的语音数据保留,直至所述第一音频通过率大于或等于第一阈值通过率。
若所述第一音频通过率小于第一阈值通过率,此时表征保留的语音数据的数量过少,则可以降低目标初始质量指标来得到新的目标初始质量指标,并返回遍历所述初始语音数据中的每条语音数据,将所述初始质量指标满足新的目标初始质量指标的语音数据保留。也就是说,可以在确定新的目标初始质量指标后,返回执行步骤S2212,直至第一音频通过率大于或等于第一阈值通过率。
步骤S2216:若第一音频通过率大于或等于第一阈值通过率,则将保留的语音数据作为指定语音数据。
若第一音频通过率大于或等于第一阈值通过率,此时表征保留的语音数据的数量已经满足需求,则可以将保留的语音数据作为指定语音数据。
对于另一些实施方式,若目标参数为一个,目标参数包括语音数据对应的第一语种的第二文本内容时,可以基于该语音数据对应的第一语种的第二文本内容对初始语音数据进行过滤。具体的,请参阅图5,图5示出了步骤S221至步骤S224的一种实施方式图。可以包括步骤S2217至步骤S22112。
步骤S2217:基于语音识别模型获取所述初始语音数据中每条语音数据对应的第一语种的第二文本内容以及与每个所述第二文本内容匹配的第一置信度。
在获取到初始语音数据后,可以获取初始语音数据中每条语音数据对应的第一语种的第二文本内容。具体的,可以通过语音识别模型来获取初始语音数据中每条语音数据对应的第一语种的第二文本内容。例如,可以直接将初始语音数据中每条语音数据输入至语音识别模型,从而得到该语音识别模型的输出,作为每条语音数据对应的第一语种的第二文本内容。进一步的,该语音识别模型还可以输出与每个所述第二文本内容匹配的第一置信度。该第一置信度可以用于表征通过该语音识别模型得到的第一语种的第二文本内容的可靠程度。也就是说,此时特征参数可以包括第一置信度。
示例性的,语音识别模型可能输出[“你”:0.8542,“好”:0.9317],那么“你好”就是输出的该语音数据对应的第二文本内容,而0.85422+0.93172就是该语音数据对应的第一置信度。
步骤S2218:遍历每个所述第二文本内容,将大于或等于第一指定置信度的所述第一置信度对应的语音数据保留。
从而,可以遍历初始语音数据中的每条语音数据,将大于或等于第一指定置信度的第一置信度对应的语音数据保留;而小于第一指定置信度的第一置信度对应的语音数则丢弃。示例性的,第一指定置信度可以通过TC来表征,该TC可以为例如0.5、0.6等。需要说明的是,第一指定置信度可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S2219:获取保留的语音数据的第四数量与所述初始语音数据中语音数据的第五数量的比值,作为第二音频通过率。
其中,指定内容为语音数据,指定参数可以为通过率。而在本申请提供的实施方式中,通过率可以为第二音频通过率。具体的,通过上述步骤后,对初始语音数据进行了一定程度的过滤,保留下了至少部分语音数据,此时可以确定第二音频通过率。容易理解的是,第二音频通过率越高,则保留的语音数据的第四数量则越多;反之,若第二音频通过率越低,则保留的语音数据的第四数量则越少。第二音频通过率具体可以为第四数量与第五数量的比值。其中,第四数量为保留的语音数据的数量,而第五数量为初始语音数据中语音数据的数量。
示例性的,第四数量为800,第五数量为1000,则第二音频通过率为80%。
步骤S22110:第二音频通过率是否小于第二阈值通过率。
指定参数为通过率,则指定参数对应的阈值参数可以为阈值通过率。在本申请提供的实施例中,通过率为第二音频通过率,则阈值通过率可以为第二阈值通过率。若第二音频通过率过小,则被保留的语音数据的数量可能较少,从而影响后续得到的样本数据的数量。因此,还可以判断第二音频通过率是否小于第二阈值通过率,若小于,则可以跳转执行步骤S22111;若未小于,则可以跳转执行步骤S22112。示例性的,第二阈值通过率可以通过PC来表征,该PC可以为例如75%、60%等。需要说明的是,第二阈值通过率可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S22111:若所述第二音频通过率小于第二阈值通过率,则减少所述第一指定置信度得到新的第一指定置信度,并返回遍历每个所述第二文本内容,将大于或等于新的第一指定置信度的所述第一置信度对应的语音数据保留,直至所述第二音频通过率大于或等于第二阈值通过率。
若第二音频通过率小于第二阈值通过率,此时表征保留的语音数据的数量过少,则可以减少所述第一指定置信度得到新的第一指定置信度,并返回遍历每个所述第二文本内容,将大于或等于新的第一指定置信度的所述第一置信度对应的语音数据保留。也就是说,可以在确定新的第一指定置信度后,返回执行步骤S2218,直至第二音频通过率大于或等于第二阈值通过率。
步骤S22112:若所述第二音频通过率大于或等于第二阈值通过率,则将保留的语音数据作为指定语音数据。
若第二音频通过率大于或等于第二阈值通过率,此时表征保留的语音数据的数量已经满足需求,则可以将保留的语音数据作为指定语音数据。
对于再一些实施方式,若目标参数为一个,目标参数包括语音数据对应的第一语种的第二文本内容,进一步的,所述初始语音数据中包括部分预先获取的第一语种的标准语音数据以及所述标准语音数据对应的标准文本内容。此时可以基于该语音数据对应的第一语种的第二文本内容对初始语音数据进行过滤。具体的,请参阅图6,图6示出了步骤S221至步骤S224的一种实施方式图。可以包括步骤S22113至步骤S22119。
步骤S22113:基于语音识别模型获取所述初始语音数据中每条语音数据对应的第一语种的第二文本内容以及与每个所述第二文本内容匹配的第一置信度。
步骤S22114:遍历每个所述第二文本内容,将大于或等于第一指定置信度的所述第一置信度对应的语音数据保留。
其中,步骤S22113和步骤S22114在前述实施例中已经详细介绍,具体可以参阅步骤S2217以及步骤S2218,此处就不再赘述。
步骤S22115:获取被保留的语音数据对应的所述第二文本内容中与所述标准语音数据对应的部分第二文本内容。
步骤S22116:基于所述部分第二文本内容与所述标准文本内容,确定第一准确率。
其中,指定内容可以为语音数据,指定参数可以为准确率。而在本申请提供的实施方式中,准确率可以为第一准确率。具体的,可以获取每个被保留的语音数据对应的第二文本内容中与标准语音数据对应的部分第二文本内容。也就是说,部分第二文本内容实质是基于语音识别模型获取到的标准语音数据对应的第一语种的文本内容。
由于初始文本中预先获取有第一语种的标准语音数据以及所述标准语音数据对应的标准文本内容。从而,可以基于部分第二文本内容与标准文本内容,来确定第一准确率。其中,该第一准确率可以用于表征该语音识别模型对语音数据进行识别得到的第二文本内容的准确程度。
步骤S22117:第一准确率是否小于第一阈值准确率。
指定参数为准确率,则指定参数对应的阈值参数可以为阈值准确率。在本申请提供的实施例中,准确率为第一准确率,则阈值准确率可以为第一阈值准确率。若第一准确率过小,则被保留的语音数据的可靠性可能较低,从而影响后续得到的样本数据的准确度,造成训练得到的语音模型可靠性较低。因此,还可以判断第一准确率是否小于第一阈值准确率,若小于,则可以跳转执行步骤S22118;若未小于,则可以跳转执行步骤S22119。示例性的,第一阈值准确率可以通过AC来表征,该AC可以为例如75%、60%等。需要说明的是,第一阈值准确率可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S22118:若所述第一准确率小于第一阈值准确率,则增加所述第一指定置信度得到新的第一指定置信度,并返回遍历所述初始语音数据中的每条语音数据,将大于或等于新的第一指定置信度的所述第一置信度对应的语音数据保留,直至所述第一准确率大于或等于第一阈值准确率。
若第一准确率小于第一阈值准确率,则被保留的语音数据的可靠性可能较低,此时可以增加所述第一指定置信度得到新的第一指定置信度,并返回遍历所述初始语音数据中的每条语音数据,将大于或等于新的第一指定置信度的所述第一置信度对应的语音数据保留。也就是说,可以在确定新的第一指定置信度之后,返回执行步骤S22114,直至所述第一准确率大于或等于第一阈值准确率。
步骤S22119:若所述第一准确率大于或等于第一阈值准确率,则将保留的语音数据作为指定语音数据。
若第一准确率大于或等于第一阈值准确率,此时表征保留的语音数据的可靠性已经满足需求,则可以将保留的语音数据作为指定语音数据。
可选的,在本申请提供的实施方式中,还可以一并考虑通过率,也就是说指定参数可以包括准确率以及通过率。则同时基于第一准确率与第一准确率对应的第一阈值准确率,以及通过第二音频通过率以及第二音频通过率对应的第二阈值通过率,来确定需要保留的所述指定内容。
若第二音频通过率小于第二阈值通过率且第一准确率小于第一阈值准确率,则此时可以对语音识别模型进行参数微调,并返回重复执行步骤S22113及后续步骤,以提高第一准确率,从而调整保留的指定内容。
可选的,在本申请提供的实施方式中,指定参数还可以包括准确率、通过率以及数量,该数量可以对应的阈值参数可以为第五阈值数量。从而可以在前述步骤的基础上,再通过指定参数包括数量,来进一步的确定需要保留的指定内容。
具体的,若返回重复执行步骤S22113的次数超过第五阈值数量MC,则此时可以减小第一阈值准确率,并重新返回执行步骤S22117及后续步骤,从而调整保留的指定内容。
对于还一些实施方式,若目标参数为一个,目标参数包括语音数据对应的声纹特征时,可以基于该语音数据对应的声纹特征对初始语音数据进行过滤。具体的,请参阅图7,图7示出了步骤S221至步骤S224的一种实施方式图。可以包括步骤S22120至步骤S22127。
步骤S22120:基于声纹识别模型获取所述初始语音数据中每条语音数据的声纹特征。
在获取到初始语音数据后,可以获取初始语音数据中每条语音数据的声纹特征。具体的,可以通过声纹识别模型来获取初始语音数据中每条语音数据的初始声纹特征。例如,可以直接将初始语音数据中每条语音数据输入至声纹识别模型,从而得到该声纹识别模型的输出,作为每条语音数据的初始声纹特征。也就是说,特征参数可以包括初始声纹特征。
步骤S22121:基于每个所述初始声纹特征对每条所述语音数据进行聚类,得到至少一个音频分类。
进一步的,还可以基于每个所述初始声纹特征对每条所述语音数据进行聚类,得到至少一个音频分类。示例性的,可以基于该声纹识别模型对多个初始声纹特征之间进行评分,例如具有相同或相近的初始声纹特征的多个语音数据之间的评分应该较高,而具有不同的初始声纹特征的多个语音数据之间的评分应该较低,从而可以将相互之间评分较高的多个语音数据进行聚类作为一个音频分类。
步骤S22122:获取每个所述音频分类中语音数据的第六数量。
步骤S22123:遍历每个所述音频分类,将大于或等于第二阈值数量的所述第六数量对应的音频分类保留。
进一步的可以获取每个音频分类中包括的语音数据的第六数量。然后遍历每个音频分类,将大于或等于第二阈值数量的所述第六数量对应的音频分类保留;而将小于第二阈值数量的第六数量对应的音频分类丢弃。示例性的,第二阈值数量可以通过TD来表征,该TD可以为例如10或20等。需要说明的是,第二阈值数量可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S22124:获取保留的音频分类的第七数量。
其中,指定内容为音频分类,指定参数可以为数量。而在本申请提供的实施方式中,数量可以为第七数量。具体的,通过上述步骤后,对初始语音数据进行了一定程度的过滤,保留下了至少部分语音数据,此时可以确定保留的音频分类的第七数量。
步骤S22125:第七数量是否小于第三阈值数量。
指定参数为数量,则指定参数对应的阈值参数可以为阈值数量。在本申请提供的实施例中,数量为第七数量,则阈值数量可以为第三阈值数量。若第七数量过小,则被保留的语音数据的数量可能较少,从而影响后续得到的样本数据的数量。因此,还可以判断第七数量是否小于第三阈值数量,若小于,则可以跳转执行步骤S22126;若未小于,则可以跳转执行步骤S22127。示例性的,第三阈值数量可以通过PD来表征,该PD可以为例如5或8等。需要说明的是,第三阈值数量可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S22126:若所述第七数量小于第三阈值数量,则减小所述第二阈值数量得到新的第二阈值数量,并返回遍历每个所述音频分类,将大于或等于新的第二阈值数量的所述第六数量对应的音频分类保留,直至所述第七数量大于或等于第三阈值数量。
若第七数量小于第三阈值数量,此时表征保留的语音数据的数量可能过少,则可以减小所述第二阈值数量得到新的第二阈值数量,并返回遍历每个所述音频分类,将大于或等于新的第二阈值数量的所述第六数量对应的音频分类保留。也就是说,可以在确定新的第二阈值数量后,返回执行步骤S22123,直至第二音频通过率大于或等于第二阈值通过率。
步骤S22127:若所述第七数量大于或等于第三阈值数量,则将保留的所述音频分类中的每条语音数据作为指定语音数据。
若第七数量大于或等于第三阈值数量,此时表征保留的语音数据的数量已经满足需求,则可以将保留的语音数据作为指定语音数据。
对于还一些实施方式,若目标参数为一个,目标参数包括语音数据对应的声纹特征,进一步的,所述初始语音数据中包括部分预先获取的第一语种的标准语音数据以及所述标准语音数对应的标准音频分类。此时可以基于该语音数据对应的声纹特征对初始语音数据进行过滤。具体的,请参阅图8,图8示出了步骤S221至步骤S224的一种实施方式图。可以包括步骤S22128至步骤S22136。
步骤S22128:基于声纹识别模型获取所述初始语音数据中每条语音数据的初始声纹特征。
步骤S22129:基于每个所述初始声纹特征对每条所述语音数据进行聚类,得到至少一个音频分类。
步骤S22130:获取每个所述音频分类中语音数据的第六数量。
步骤S22131:遍历每个所述音频分类,将大于或等于第二阈值数量的所述第六数量对应的音频分类保留。
其中,步骤S22128至步骤S22131在前述实施例中已经详细介绍,具体可以参阅步骤S22120至步骤S22123,此处就不再赘述。
步骤S22132:获取被保留的音频分类中与所述标准语音数据对应的部分音频分类。
步骤S22133:基于所述部分音频分类与所述标准音频分类,确定第二准确率。
其中,指定内容为音频分类,指定参数可以为准确率。而在本申请提供的实施方式中,准确率可以为第二准确率。具体的,可以获取每个被保留的音频分类中与所述标准语音数据对应的部分音频分类。也就是说,部分音频分类实质是基于声纹识别模型获取到的标准语音数据对应的音频分类。
由于初始文本中预先获取的第一语种的标准语音数据以及所述标准语音数对应的标准音频分类。从而,可以基于部分音频分类与标准音频分类,来确定第二准确率。其中,该第二准确率可以用于表征该声纹识别模型对语音数据的初始声纹特征进行识并进行聚类别得到音频分类的准确程度。
示例性的,若第一语种的标准语音数据包括初始声纹特征A对应的A0、A1以及A2三条语音数据,以及初始声纹特征B对应的B0和B1两条语音数据;标准语音数对应的标准音频分类为A0、A1以及A2三条语音数据为一个音频分类,B0和B1两条语音数据为一个音频分类。通过声纹识别模型得到的部分音频分类为语音数据A0、A1分为一个音频分类,语音数据A2、B0以及B1分为一个音频分类。则此时可以得到第二准确率为(2+2)/5=0.8。需要说明的是,还有其他的第二准确率的计算方式,此处仅为一种示例,并不作为对本申请实施例的限定,实际应用中可以根据需要灵活设定。
步骤S22134:第二准确率是否小于第二阈值准确率。
指定参数为准确率,则指定参数对应的阈值参数可以为阈值准确率。在本申请提供的实施例中,准确率为第二准确率,则阈值准确率可以为第二阈值准确率。若第二准确率过小,则被保留的音频分类的可靠性可能较低,从而影响后续得到的样本数据的准确度,造成训练得到的语音模型可靠性较低。因此,还可以判断第二准确率是否小于第二阈值准确率,若小于,则可以跳转执行步骤S22135;若未小于,则可以跳转执行步骤S22136。示例性的,第二阈值准确率可以通过AD来表征,该AD可以为例如75%、60%等。需要说明的是,第二阈值准确率可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S22135:若所述第二准确率小于第二阈值准确率,则对所述声纹识别模型进行参数微调,并返回重新执行基于声纹识别模型获取所述初始语音数据中每条语音数据的初始声纹特征及后续步骤,直至所述第二准确率大于或等于第二阈值准确率。
若第二准确率小于第二阈值准确率,则被保留的音频分类的可靠性可能较低,此时对所述声纹识别模型进行参数微调,并返回重新执行基于声纹识别模型获取所述初始语音数据中每条语音数据的初始声纹特征及后续步骤。也就是说,可以在对所述声纹识别模型进行参数微调之后,返回执行步骤S22128,直至第二准确率大于或等于第二阈值准确率。
步骤S22136:若所述第二准确率大于或等于第二阈值准确率,则将保留的所述音频分类中的每条语音数据作为指定语音数据。
若第二准确率大于或等于第二阈值准确率,此时表征保留的音频分类的可靠性已经满足需求,则可以将保留的所述音频分类中的每条语音数据作为指定语音数据。
对于另一些实施方式,若目标参数为一个,目标参数包括语音数据对应的第二语种的第三文本内容时,可以基于该语音数据对应的第二语种的第三文本内容对初始语音数据进行过滤。具体的,请参阅图9,图9示出了步骤S221至步骤S224的一种实施方式图。可以包括步骤S22137至步骤S22142。
步骤S22137:基于语音识别模型获取所述初始语音数据中每条语音数据对应的第二语种的第三文本内容,以及与每个所述第三文本内容匹配的第二置信度。
在获取到初始语音数据后,可以获取初始语音数据中每条语音数据对应的第二语种的第三文本内容。具体的,可以通过语音识别模型来获取初始语音数据中每条语音数据对应的第二语种的第三文本内容。例如,可以直接将初始语音数据中每条语音数据输入至语音识别模型,从而得到该语音识别模型的输出,作为每条语音数据对应的第二语种的第三文本内容。进一步的,该语音识别模型还可以输出与每个所述第三文本内容匹配的第二置信度。该第二置信度可以用于表征通过该语音识别模型得到的第二语种的第三文本内容可靠程度。也就是说,特征参数可以包括第二置信度。
步骤S22138:遍历每个所述第三文本内容,将大于或等于第二指定置信度的所述第二置信度对应的语音数据保留。
从而,可以遍历初始语音数据中的每条语音数据,将大于或等于第二指定置信度的第二置信度对应的语音数据保留;而小于第二指定置信度的第二置信度对应的语音数则丢弃。示例性的,第二指定置信度可以通过TE来表征,该TE可以为例如0.5、0.6等。需要说明的是,第二指定置信度可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S22139:获取保留的语音数据的第八数量与所述初始语音数据中语音数据的第九数量的比值,作为第三音频通过率。
其中,指定内容为语音数据,指定参数可以为通过率。而在本申请提供的实施方式中,通过率可以为第三音频通过率。具体的,通过上述步骤后,对初始语音数据进行了一定程度的过滤,保留下了至少部分语音数据,此时可以确定第三音频通过率。容易理解的是,第三音频通过率越高,则保留的语音数据的第八数量则越多;反之,若第二音频通过率越低,则保留的语音数据的第八数量则越少。第三音频通过率具体可以为第八数量与第九数量的比值。其中,第八数量为保留的语音数据的数量,而第九数量为初始语音数据中语音数据的数量。
示例性的,第八数量为800,第九数量为1000,则第二音频通过率为80%。
步骤S22140:第三音频通过率是否小于第三阈值通过率。
指定参数为通过率,则指定参数对应的阈值参数可以为阈值通过率。在本申请提供的实施例中,通过率为第三音频通过率,则阈值通过率可以为第三阈值通过率。若第三音频通过率过小,则被保留的语音数据的数量可能较少,从而影响后续得到的样本数据的数量。因此,还可以判断第三音频通过率是否小于第三阈值通过率,若小于,则可以跳转执行步骤S22141;若未小于,则可以跳转执行步骤S22142。示例性的,第三阈值通过率可以通过PE来表征,该PE可以为例如75%、60%等。需要说明的是,第三阈值通过率可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S22141:若所述第三音频通过率小于第三阈值通过率,则减小所述第二指定置信度得到新的第二指定置信度,并返回遍历每个所述第三文本内容,将大于或等于新的第二指定置信度的所述第二置信度对应的语音数据保留,直至所述第三音频通过率大于或等于第三阈值通过率。
若第三音频通过率小于第三阈值通过率,此时表征保留的语音数据的数量过少,则可以减少所述第二指定置信度得到新的第二指定置信度,并返回遍历每个所述第三文本内容,将大于或等于新的第二指定置信度的所述第二置信度对应的语音数据保留。也就是说,可以在确定新的第二指定置信度后,返回执行步骤S2238,直至所述第三音频通过率大于或等于第三阈值通过率。
步骤S22142:若所述第三音频通过率大于或等于第三阈值通过率,则将保留的语音数据作为所述指定语音数据。
若第三音频通过率大于或等于第三阈值通过率,此时表征保留的语音数据的数量已经满足需求,则可以将保留的语音数据作为指定语音数据。
对于再一些实施方式,若目标参数为一个,目标参数包括语音数据对应的第二语种的第三文本内容,进一步的,所述初始语音数据中包括部分预先获取的第一语种的标准语音数据以及所述标准语音数据对应的第二语种的标准第三文本内容。此时可以基于该语音数据对应的第二语种的第三文本内容对初始语音数据进行过滤。具体的,请参阅图10,图10示出了步骤S221至步骤S224的一种实施方式图。可以包括步骤S22143至步骤S22149。
步骤S22143:基于语音识别模型获取所述初始语音数据中每条语音数据对应的第二语种的第三文本内容,以及与每个所述第三文本内容匹配的第二置信度。
步骤S22144:遍历每个所述第三文本内容,将大于或等于第二指定置信度的所述第二置信度对应的语音数据保留。
其中,步骤S22143和步骤S22144在前述步骤中已经详细描述,具体可以参阅步骤S21137和步骤S21138,此处就不再赘述。
步骤S22145:获取被保留的语音数据对应的所述第三文本内容中与所述标准语音数据对应的部分第三文本内容。
步骤S22146:基于所述部分第三文本内容与所述标准第三文本内容,确定第三准确率。
其中,指定内容为语音数据,指定参数可以为准确率。而在本申请提供的实施方式中,准确率可以为第三准确率。具体的,可以获取每个被保留的语音数据对应的第三文本内容中与标准语音数据对应的部分第三文本内容。也就是说,部分第三文本内容实质是基于语音识别模型获取到的标准语音数据对应的第二语种的文本内容。
由于初始文本中预先获取有第二语种的标准语音数据以及所述标准语音数据对应的标准文本内容。从而,可以基于部分第三文本内容与标准文本内容,来确定第三准确率。其中,该第三准确率可以用于表征该语音识别模型对语音数据进行识别得到的第三文本内容的准确程度。
步骤S22147:第三准确率是否小于第三阈值准确率。
指定参数为准确率,则指定参数对应的阈值参数可以为阈值准确率。在本申请提供的实施例中,准确率为第三准确率,则阈值通过率可以为第三阈值准确率。若第三准确率过小,则被保留的语音数据的可靠性可能较低,从而影响后续得到的样本数据的准确度,造成训练得到的语音模型可靠性较低。因此,还可以判断第三准确率是否小于第三阈值准确率,若小于,则可以跳转执行步骤S22148;若未小于,则可以跳转执行步骤S22149。示例性的,第一阈值准确率可以通过AE来表征,该AE可以为例如75%、60%等。需要说明的是,第一阈值准确率可以根据需要灵活设定,本申请实施例并不做具体限定。
步骤S22148:若所述第三准确率小于第三阈值准确率,则增加所述第二指定置信度得到新的第二指定置信度,并返回遍历每个所述第三文本内容,将大于或等于新的第二指定置信度的所述第二置信度对应的语音数据保留,直至所述第三准确率大于或等于第三阈值准确率。
若第三准确率小于第三阈值准确率,则被保留的语音数据的可靠性可能较低,此时可以增加第二指定置信度得到新的第二指定置信度,并返回遍历每个所述第三文本内容,将大于或等于新的第二指定置信度的所述第二置信度对应的语音数据保留。也就是说,可以在确定新的第二指定置信度之后,返回执行步骤S22144,直至所述第三准确率大于或等于第三阈值准确率。
步骤S22149:若所述第三准确率大于或等于第三阈值准确率,则将保留的语音数据作为所述指定语音数据。
若第三准确率大于或等于第三阈值准确率,此时表征保留的语音数据的可靠性已经满足需求,则可以将保留的语音数据作为指定语音数据。
可选的,对于另一些实施方式,目标参数还可以为多个,其中,多个目标参数对应过滤序列,所述过滤序列中包括每个所述目标参数对应的过滤序号,从而在执行步骤S220时还可以包括步骤S225。
步骤S225:基于所述过滤序列依次使用所述目标参数对所述初始语音数据进行过滤,得到所述指定语音数据,其中,所述过滤序列中的最后一个所述过滤序号的所述目标参数对应的待处理数据中的语音数据的第十数量大于或等于第四阈值数量。
示例性的,目标参数可以为四个,具体的,目标参数可以包括所述语音数据的质量指标、所述语音数据对应的第一语种的第二文本内容、所述语音数据对应的声纹特征以及所述语音数据对应的第二语种的第三文本内容。从而,多个目标参数对应有过滤序列,每个目标参数可以对应有过滤序号。例如,所述语音数据的质量指标可以对应过滤序号为1;所述语音数据对应的第一语种的第二文本内容可以对应过滤序号为2;所述语音数据对应的声纹特征可以对应过滤序号为3;所述语音数据对应的第二语种的第三文本内容可以对应过滤序号为4。
从而,可以基于过滤序列,依次使用对应的目标参数对所述初始语音数据进行过滤,得到指定语音数据。不难理解的是,基于过滤序列,实质就是基于每个目标参数对应的过滤序号。
示例性的,以上述示出的具体目标参数与过滤序号的对应关系为例,可以首先基于过滤序号为1对应的目标参数对初始语音数据进行过滤,即基于语音数据的质量指标对初始语音数据进行过滤,得到第一中间语音数据。进一步的,再基于过滤序号为2对应的目标参数对初始语音数据进行过滤,即基于语音数据对应的第一语种的第二文本内容对第一中间语音数据进行过滤,得到第二中间语音数据。然后,再基于过滤序号为3对应的目标参数对第二中间语音数据进行过滤,即基于语音数据对应的声纹特征对第二中间语音数据进行过滤,得到第三中间语音数据。最后,基于过滤序号为4对应的目标参数对初始语音数据进行过滤,即基于语音数据对应的第二语种的第三文本内容对第三中间语音数据进行过滤,得到指定语音数据。
其中,基于语音数据的质量指标对初始语音数据进行过滤,得到第一中间语音数据的具体方法介绍,可以参阅前述步骤中基于语音数据的质量指标对初始语音数据进行过滤,得到指定语音数据的方法介绍;基于语音数据对应的第一语种的第二文本内容对第一中间语音数据进行过滤,可以参阅前述步骤中基于语音数据对应的第一语种的第二文本内容对初始语音数据进行过滤,得到指定语音数据的方法介绍;基于语音数据对应的声纹特征对第二中间语音数据进行过滤,得到第三中间语音数据,可以参阅前述步骤中基于语音数据对应的声纹特征对初始语音数据进行过滤,得到指定语音数据的方法介绍;基于语音数据对应的第二语种的第三文本内容对第三中间语音数据进行过滤,得到指定语音数据,可以参阅前述步骤中基于语音数据对应的第二语种的第三文本内容对初始语音数据进行过滤,得到指定语音数据的方法介绍,此处就不再赘述。
在一些实施方式中,为了保证最后过滤得到的指定语音数据的数量不会过少,还可以使过滤序列中的最后一个所述过滤序号的所述目标参数对应的待处理数据中的语音数据的第十数量大于或等于第四阈值数量。其中,待处理数据实质为基于最后一个过滤序号的目标参数所需要过滤的对象。例如,继续以上述示例进行解释,过滤序列中最后一个过滤序号即为4,该过滤序号为4的目标参数对应的待处理数据实质为第三中间语音数据。从而第三中间语音数据的第十数量需要大于或等于第四阈值数量,若第十数量小于第四阈值数量,则此时可以重新获取第三中间语音数据,直至第十数量需要大于或等于第四阈值数量。其中,重新获取第三中间语音数据,可以是由过滤序号为3的目标参数对第二中间语音数据进行过滤,重新得到第三中间语音数据。
可选的,对于另一些实施方式,每个过滤序号的所述目标参数在对待处理数据进行处理之前,都可以判断待处理数据中的语音数据的数量是否满足要求。例如,若过滤序号为2,则该过滤序号为2的目标参数的待处理数据实质为第一中间语音数据,从而可以判断该第一中间语音数据中的语音数据的数量是否满足要求,若不满足则可以重新获取第一中间语音数据,直至第一中间语音数据中的语音数据的数量满足要求。其中,重新获取第一中间语音数据,可以是由过滤序号为1的目标参数对初始语音数据进行过滤,重新得到第一中间语音数据。
需要说明的是,对于目标参数为四个,具体包括所述语音数据的质量指标、所述语音数据对应的第一语种的第二文本内容、所述语音数据对应的声纹特征以及所述语音数据对应的第二语种的第三文本内容的情况,每种目标参数对应的过滤序号也可以和上述示例中介绍的不同。例如也可以是所述语音数据对应的第一语种的第二文本内容可以对应过滤序号为1;所述语音数据的质量指标可以对应过滤序号为2;所述语音数据对应的第二语种的第三文本内容可以对应过滤序号为3;所述语音数据对应的声纹特征可以对应过滤序号为4,本申请实施例并不做具体限定。从而,可以灵活根据每个目标参数对应的过滤序号,对初始语音数据进行过滤,得到指定语音数据。目标参数为多个的情况下,目标参数也可以不为四个,例如目标参数还可以为两个或三个,只要满足目标参数包括所述语音数据的质量指标、所述语音数据对应的第一语种的第二文本内容、所述语音数据对应的声纹特征以及所述语音数据对应的第二语种的第三文本内容中至少一个,且目标参数为多个即可,本申请不做具体限定,可以根据需要灵活设定。
步骤S230:获取所述指定语音数据对应的第二语种的第一文本内容。
在获取到指定语音数据后,可以获取所述指定语音数据对应的第二语种的第一文本内容。从而后续可以基于第二语种的第一文本来生成第二语种的目标语音数据。
由于指定语音数据是第一语种的,因此,在执行步骤S230时,还可以包括步骤S231和步骤S232。
步骤S231:获取所述指定语音数据对应的第一语种的第四文本内容。
步骤S232:基于所述第四文本内容确定所述第二语种的第一文本内容。
在基于指定语音数据得到第二语种的第一文本内容的过程中,可以首先基于指定语音数据确定第一语种的第四文本内容。示例性的,可以通过大语言模型确定第一语种的指定语音数据对应的第一语种的第四文本内容。
再进一步基于第一语种的第四文本内容确定所述第二语种的第一文本内容。例如,可以是通过大语言模型将第一语种的第四文本内容转换为第二语种的第一文本内容,该转换可以理解为翻译。示例性的,第一语种的指定语音数据可以为中文的“你好”对应的语音数据,可以通过大语言模型将“你好”的指定语音数据转换为中文的第四文本“你好”,进一步再翻译为德语的第一文本内容“Hallo”。
在一些实施方式中,可以直接将指定语音数据输入至大语言模型中,该大语言模型即可完成获取所述指定语音数据对应的第一语种的第四文本内容,已经基于所述第四文本内容确定所述第二语种的第一文本内容,从而该大语言模型的输出可以直接作为第二语种的第一文本内容。
步骤S240:基于所述第一文本内容生成所述第二语种的目标语音数据,所述目标语音数据与所述指定语音数据具有相同的声纹特征。
由于对第二语种的语音模型进行训练所需要的样本数据,应当为第二语种的语音数据,因此,在获取到第二语种的第一文本内容后,还可以基于第一文本内容来生成第二语种的目标语音数据。具体的,在执行步骤S240时,还可以包括步骤S241。
步骤S241:将所述第一文本内容输入语音合成模型,得到所述语音合成模型输出的数据,作为所述第二语种的目标语音数据。
对于一些实施方式,可以通过语音合成模型,基于第一文本内容得到第二语种的目标语音数据。可以是将所述第一文本内容输入语音合成模型,得到所述语音合成模型输出的数据,作为所述第二语种的目标语音数据。
对于另一些实施方式,还可以预先获取第一语种的指定语音数据的声纹特征,并将该声纹特征和第一文本内容一并作为输入量输入至语音合成模型,从而得到语音合成模型输出的数据,作为所述第二语种的目标语音数据。该目标语音数据则可以具有与所述指定语音数据具有相同的声纹特征。
步骤S250:将所述目标语音数据作为所述第二语种的语音模型的样本数据。
其中,步骤S250在前述实施例中已经详细介绍,具体可以参阅步骤S140,此处就不再赘述。
本申请提供的语音数据生成方法,若直接获取第二语种的语音模型所需要的样本数据,可能该样本数据的数量不能满足训练条件。从而,可以通过获取第一语种的初始语音数据,并通过目标参数对初始语音数据进行过滤得到指定语音数据,再将该指定语音数据转换为第二语种的目标语音数据,从而将目标语音数据作为第二语种的语音模型的样本数据,不仅保证了第二语种的语音模型对样本数据的数量的需求,还可以尽量保证基于第一语种的初始语音数据转换得到的第二语种的目标语音数据准确度较高,可靠程度较高。
请参阅图11,图11示出了本申请实施例提供的一种语音数据生成装置1100的结构框图,该语音数据生成装置1100包括:获取单元1110、确定单元1120、转换单元1130以及样本数据获取单元1140。
获取单元1110,用于获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据。
确定单元1120,用于从所述初始语音数据中选择满足指定条件的部分语音数据作为指定语音数据。
可选的,确定单元1120还可以用于基于目标参数对所述初始语音数据过滤,得到所述指定语音数据,所述目标参数包括所述语音数据的质量指标、所述语音数据对应的第一语种的第二文本内容、所述语音数据对应的声纹特征以及所述语音数据对应的第二语种的第三文本内容中至少一个。
可选的,确定单元1120还可以用于获取所述初始语音数据对应于所述目标参数的特征参数,其中,所述初始语音数据中语音数据的第一数量大于或等于第一阈值数量,所述特征参数包括初始质量指标、第一置信度、初始声纹特征以及第二置信度中至少一种;基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,所述指定内容包括语音数据或音频分类;基于保留的所述指定内容,确定所述指定语音数据。
可选的,确定单元1120还可以用于确定保留的指定内容对应的指定参数,所述指定参数包括准确率、通过率以及数量中至少一种;基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据。
可选的,确定单元1120还可以用于获取所述初始语音数据中每条语音数据的初始质量指标;所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:遍历所述初始语音数据中的每条语音数据,将所述初始质量指标满足目标质量指标的语音数据保留;所述确定保留的指定内容对应的指定参数,包括:获取保留的语音数据的第二数量与所述初始语音数据中的语音数据的第三数量的比值,作为第一音频通过率;所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:若所述第一音频通过率小于第一阈值通过率,则降低所述目标质量指标得到新的目标质量指标,并返回遍历所述初始语音数据中的每条语音数据,将所述初始质量指标满足新的目标质量指标的语音数据保留,直至所述第一音频通过率大于或等于第一阈值通过率;若第一音频通过率大于或等于第一阈值通过率,则将保留的语音数据作为指定语音数据。
可选的,确定单元1120还可以用于基于语音识别模型获取所述初始语音数据中每条语音数据对应的第一语种的第二文本内容以及与每个所述第二文本内容匹配的第一置信度;所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:遍历每个所述第二文本内容,将大于或等于第一指定置信度的所述第一置信度对应的语音数据保留;所述确定保留的指定内容对应的指定参数,包括:获取保留的语音数据的第四数量与所述初始语音数据中语音数据的第五数量的比值,作为第二音频通过率;所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:若所述第二音频通过率小于第二阈值通过率,则减少所述第一指定置信度得到新的第一指定置信度,并返回遍历每个所述第二文本内容,将大于或等于新的第一指定置信度的所述第一置信度对应的语音数据保留,直至所述第二音频通过率大于或等于第二阈值通过率;若所述第二音频通过率大于或等于第二阈值通过率,则将保留的语音数据作为指定语音数据。
可选的,确定单元1120还可以用于基于语音识别模型获取所述初始语音数据中每条语音数据对应的第一语种的第二文本内容以及与每个所述第二文本内容匹配的第一置信度;所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:遍历每个所述第二文本内容,将大于或等于第一指定置信度的所述第一置信度对应的语音数据保留;所述初始语音数据中包括部分预先获取的第一语种的标准语音数据以及所述标准语音数据对应的标准文本内容,所述确定保留的指定内容对应的指定参数,包括:获取被保留的语音数据对应的所述第二文本内容中与所述标准语音数据对应的部分第二文本内容;基于所述部分第二文本内容与所述标准文本内容,确定第一准确率;所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:若所述第一准确率小于第一阈值准确率,则增加所述第一指定置信度得到新的第一指定置信度,并返回遍历所述初始语音数据中的每条语音数据,将大于或等于新的第一指定置信度的所述第一置信度对应的语音数据保留,直至所述第一准确率大于或等于第一阈值准确率;若所述第一准确率大于或等于第一阈值准确率,则将保留的语音数据作为指定语音数据。
可选的,确定单元1120还可以用于基于声纹识别模型获取所述初始语音数据中每条语音数据的初始声纹特征;所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:基于每个所述初始声纹特征对每条所述语音数据进行聚类,得到至少一个音频分类;获取每个所述音频分类中语音数据的第六数量;遍历每个所述音频分类,将大于或等于第二阈值数量的所述第六数量对应的音频分类保留;所述确定保留的指定内容对应的指定参数,包括:获取保留的音频分类的第七数量;所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:若所述第七数量小于第三阈值数量,则减小所述第二阈值数量得到新的第二阈值数量,并返回遍历每个所述音频分类,将大于或等于新的第二阈值数量的所述第六数量对应的音频分类保留,直至所述第七数量大于或等于第三阈值数量;若所述第七数量大于或等于第三阈值数量,则将保留的所述音频分类中的每条语音数据作为指定语音数据。
可选的,确定单元1120还可以用于基于声纹识别模型获取所述初始语音数据中每条语音数据的初始声纹特征;所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:基于每个所述初始声纹特征对每条所述语音数据进行聚类,得到至少一个音频分类;获取每个所述音频分类中语音数据的第六数量;遍历每个所述音频分类,将大于或等于第二阈值数量的所述第六数量对应的音频分类保留;所述初始语音数据中包括部分预先获取的第一语种的标准语音数据以及所述标准语音数对应的标准音频分类,所述确定保留的指定内容对应的指定参数,包括:获取被保留的音频分类中与所述标准语音数据对应的部分音频分类;基于所述部分音频分类与所述标准音频分类,确定第二准确率;所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:若所述第二准确率小于第二阈值准确率,则对所述声纹识别模型进行参数微调,并返回重新执行基于声纹识别模型获取所述初始语音数据中每条语音数据的初始声纹特征及后续步骤,直至所述第二准确率大于或等于第二阈值准确率;若所述第二准确率大于或等于第二阈值准确率,则将保留的所述音频分类中的每条语音数据作为指定语音数据。
可选的,确定单元1120还可以用于基于语音识别模型获取所述初始语音数据中每条语音数据对应的第二语种的第三文本内容,以及与每个所述第三文本内容匹配的第二置信度;所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:遍历每个所述第三文本内容,将大于或等于第二指定置信度的所述第二置信度对应的语音数据保留;所述确定保留的指定内容对应的指定参数,包括:获取保留的语音数据的第八数量与所述初始语音数据中语音数据的第九数量的比值,作为第三音频通过率;所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:若所述第三音频通过率小于第三阈值通过率,则减小所述第二指定置信度得到新的第二指定置信度,并返回遍历每个所述第三文本内容,将大于或等于新的第二指定置信度的所述第二置信度对应的语音数据保留,直至所述第三音频通过率大于或等于第三阈值通过率;若所述第三音频通过率大于或等于第三阈值通过率,则将保留的语音数据作为所述指定语音数据。
可选的,确定单元1120还可以用于基于语音识别模型获取所述初始语音数据中每条语音数据对应的第二语种的第三文本内容,以及与每个所述第三文本内容匹配的第二置信度;所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:遍历每个所述第三文本内容,将大于或等于第二指定置信度的所述第二置信度对应的语音数据保留;所述初始语音数据中包括部分预先获取的第一语种的标准语音数据以及所述标准语音数据对应的第二语种的标准第三文本内容,所述确定保留的指定内容对应的指定参数,包括:获取被保留的语音数据对应的所述第三文本内容中与所述标准语音数据对应的部分第三文本内容;基于所述部分第三文本内容与所述标准第三文本内容,确定第三准确率;所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:若所述第三准确率小于第三阈值准确率,则增加所述第二指定置信度得到新的第二指定置信度,并返回遍历每个所述第三文本内容,将大于或等于新的第二指定置信度的所述第二置信度对应的语音数据保留,直至所述第三准确率大于或等于第三阈值准确率;若所述第三准确率大于或等于第三阈值准确率,则将保留的语音数据作为所述指定语音数据。
可选的,确定单元1120还可以用于基于所述过滤序列依次使用所述目标参数对所述初始语音数据进行过滤,得到所述指定语音数据,其中,所述过滤序列中的最后一个所述过滤序号的所述目标参数对应的待处理数据中的语音数据的第十数量大于或等于第四阈值数量。
转换单元1130,用于将所述指定语音数据转换为第二语种的目标语音数据。
可选的,转换单元1130还可以用于获取所述指定语音数据对应的第二语种的第一文本内容;基于所述第一文本内容生成所述第二语种的目标语音数据,所述目标语音数据与所述指定语音数据具有相同的声纹特征。
样本数据获取单元1140,用于将所述目标语音数据作为所述第二语种的语音模型的样本数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,单元相互之间的耦合可以是电性,机械或其它形式的耦合。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
请参阅图12,图12示出了本申请实施例提供的一种电子设备1200的结构框图。该电子设备1200可以是智能手机、笔记本电脑、台式电脑、平板电脑等。本申请中的电子设备1200可以包括一个或多个如下部件:处理器1211、存储器1212以及一个或多个应用程序,其中处理器1211电连接于存储器1212,一个或多个程序配置用于执行如前述语音数据生成方法各实施例所描述的方法。
处理器1211可以包括一个或者多个处理核。处理器1211利用各种接口和线路连接整个电子设备1200内的各个部分,通过运行或执行存储在存储器1212内的指令、程序、代码集或指令集,以及调用存储在存储器1212内的数据,执行电子设备1200的各种功能和处理数据。可选地,处理器1211可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1211可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和计算机程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1211中,单独通过一块通信芯片进行实现。具体可以通过一个或多个处理器1211执行如前述实施例所描述的方法。
对于一些实施方式,存储器1212可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器1212可用于存储指令、程序、代码、代码集或指令集。存储器1212可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1200在使用中所创建的数据等。
请参阅图13,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1300中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1300具有执行上述方法中的任何方法步骤的程序代码1310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1310可以例如以适当形式进行压缩。
请参考图14,其示出了本申请实施例提供的一种计算机程序产品的结构框图。该计算机程序产品1400中包括计算机程序/指令1410,该计算机程序/指令1410被处理器执行时实现上述方法的步骤。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (12)
1.一种语音数据生成方法,其特征在于,应用于电子设备,所述方法包括:
获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据;
基于目标参数对所述初始语音数据过滤,得到指定语音数据,所述目标参数包括所述语音数据的质量指标、所述语音数据对应的第一语种的第二文本内容、所述语音数据对应的声纹特征以及所述语音数据对应的第二语种的第三文本内容中至少一个;
所述基于目标参数对所述初始语音数据过滤,得到所述指定语音数据,包括:
获取所述初始语音数据对应于所述目标参数的特征参数,其中,所述初始语音数据中语音数据的第一数量大于或等于第一阈值数量,所述特征参数包括初始质量指标、第一置信度、初始声纹特征以及第二置信度中至少一种;
基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,所述指定内容包括语音数据或音频分类;
确定保留的指定内容对应的指定参数,所述指定参数包括准确率、通过率以及数量中至少一种;
基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据;
获取所述指定语音数据对应的第二语种的第一文本内容;
基于所述第一文本内容生成所述第二语种的目标语音数据,所述目标语音数据与所述指定语音数据具有相同的声纹特征;
将所述目标语音数据作为所述第二语种的语音模型的样本数据。
2.根据权利要求1所述的方法,其特征在于,所述目标参数包括所述语音数据的质量指标,所述获取所述初始语音数据对应于所述目标参数的特征参数,包括:
获取所述初始语音数据中每条语音数据的初始质量指标;
所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:
遍历所述初始语音数据中的每条语音数据,将所述初始质量指标满足目标质量指标的语音数据保留;
所述确定保留的指定内容对应的指定参数,包括:
获取保留的语音数据的第二数量与所述初始语音数据中的语音数据的第三数量的比值,作为第一音频通过率;
所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:
若所述第一音频通过率小于第一阈值通过率,则降低所述目标质量指标得到新的目标质量指标,并返回遍历所述初始语音数据中的每条语音数据,将所述初始质量指标满足新的目标质量指标的语音数据保留,直至所述第一音频通过率大于或等于第一阈值通过率;
若第一音频通过率大于或等于第一阈值通过率,则将保留的语音数据作为指定语音数据。
3.根据权利要求1所述的方法,其特征在于,所述目标参数包括所述语音数据对应的第一语种的第二文本内容,所述获取所述初始语音数据对应于所述目标参数的特征参数,包括:
基于语音识别模型获取所述初始语音数据中每条语音数据对应的第一语种的第二文本内容以及与每个所述第二文本内容匹配的第一置信度;
所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:
遍历每个所述第二文本内容,将大于或等于第一指定置信度的所述第一置信度对应的语音数据保留;
所述确定保留的指定内容对应的指定参数,包括:
获取保留的语音数据的第四数量与所述初始语音数据中语音数据的第五数量的比值,作为第二音频通过率;
所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:
若所述第二音频通过率小于第二阈值通过率,则减少所述第一指定置信度得到新的第一指定置信度,并返回遍历每个所述第二文本内容,将大于或等于新的第一指定置信度的所述第一置信度对应的语音数据保留,直至所述第二音频通过率大于或等于第二阈值通过率;
若所述第二音频通过率大于或等于第二阈值通过率,则将保留的语音数据作为指定语音数据。
4.根据权利要求1所述的方法,其特征在于,所述目标参数包括所述语音数据对应的第一语种的第二文本内容,所述获取所述初始语音数据对应于所述目标参数的特征参数,包括:
基于语音识别模型获取所述初始语音数据中每条语音数据对应的第一语种的第二文本内容以及与每个所述第二文本内容匹配的第一置信度;
所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:
遍历每个所述第二文本内容,将大于或等于第一指定置信度的所述第一置信度对应的语音数据保留;
所述初始语音数据中包括部分预先获取的第一语种的标准语音数据以及所述标准语音数据对应的标准文本内容,所述确定保留的指定内容对应的指定参数,包括:
获取被保留的语音数据对应的所述第二文本内容中与所述标准语音数据对应的部分第二文本内容;
基于所述部分第二文本内容与所述标准文本内容,确定第一准确率;
所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:
若所述第一准确率小于第一阈值准确率,则增加所述第一指定置信度得到新的第一指定置信度,并返回遍历所述初始语音数据中的每条语音数据,将大于或等于新的第一指定置信度的所述第一置信度对应的语音数据保留,直至所述第一准确率大于或等于第一阈值准确率;
若所述第一准确率大于或等于第一阈值准确率,则将保留的语音数据作为指定语音数据。
5.根据权利要求1所述的方法,其特征在于,所述目标参数包括所述语音数据对应的声纹特征,所述获取所述初始语音数据对应于所述目标参数的特征参数,包括:
基于声纹识别模型获取所述初始语音数据中每条语音数据的初始声纹特征;
所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:
基于每个所述初始声纹特征对每条所述语音数据进行聚类,得到至少一个音频分类;
获取每个所述音频分类中语音数据的第六数量;
遍历每个所述音频分类,将大于或等于第二阈值数量的所述第六数量对应的音频分类保留;
所述确定保留的指定内容对应的指定参数,包括:
获取保留的音频分类的第七数量;
所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:
若所述第七数量小于第三阈值数量,则减小所述第二阈值数量得到新的第二阈值数量,并返回遍历每个所述音频分类,将大于或等于新的第二阈值数量的所述第六数量对应的音频分类保留,直至所述第七数量大于或等于第三阈值数量;
若所述第七数量大于或等于第三阈值数量,则将保留的所述音频分类中的每条语音数据作为指定语音数据。
6.根据权利要求1所述的方法,其特征在于,所述目标参数包括所述语音数据对应的声纹特征,所述获取所述初始语音数据对应于所述目标参数的特征参数,包括:
基于声纹识别模型获取所述初始语音数据中每条语音数据的初始声纹特征;
所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:
基于每个所述初始声纹特征对每条所述语音数据进行聚类,得到至少一个音频分类;
获取每个所述音频分类中语音数据的第六数量;
遍历每个所述音频分类,将大于或等于第二阈值数量的所述第六数量对应的音频分类保留;
所述初始语音数据中包括部分预先获取的第一语种的标准语音数据以及所述标准语音数对应的标准音频分类,所述确定保留的指定内容对应的指定参数,包括:
获取被保留的音频分类中与所述标准语音数据对应的部分音频分类;
基于所述部分音频分类与所述标准音频分类,确定第二准确率;
所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:
若所述第二准确率小于第二阈值准确率,则对所述声纹识别模型进行参数微调,并返回重新执行基于声纹识别模型获取所述初始语音数据中每条语音数据的初始声纹特征及后续步骤,直至所述第二准确率大于或等于第二阈值准确率;
若所述第二准确率大于或等于第二阈值准确率,则将保留的所述音频分类中的每条语音数据作为指定语音数据。
7.根据权利要求1所述的方法,其特征在于,所述目标参数包括所述语音数据对应的第二语种的第三文本内容,所述获取所述初始语音数据对应于所述目标参数的特征参数,包括:
基于语音识别模型获取所述初始语音数据中每条语音数据对应的第二语种的第三文本内容,以及与每个所述第三文本内容匹配的第二置信度;
所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:
遍历每个所述第三文本内容,将大于或等于第二指定置信度的所述第二置信度对应的语音数据保留;
所述确定保留的指定内容对应的指定参数,包括:
获取保留的语音数据的第八数量与所述初始语音数据中语音数据的第九数量的比值,作为第三音频通过率;
所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:
若所述第三音频通过率小于第三阈值通过率,则减小所述第二指定置信度得到新的第二指定置信度,并返回遍历每个所述第三文本内容,将大于或等于新的第二指定置信度的所述第二置信度对应的语音数据保留,直至所述第三音频通过率大于或等于第三阈值通过率;
若所述第三音频通过率大于或等于第三阈值通过率,则将保留的语音数据作为所述指定语音数据。
8.根据权利要求1所述的方法,其特征在于,所述目标参数包括所述语音数据对应的第二语种的第三文本内容,所述获取所述初始语音数据对应于所述目标参数的特征参数,包括:
基于语音识别模型获取所述初始语音数据中每条语音数据对应的第二语种的第三文本内容,以及与每个所述第三文本内容匹配的第二置信度;
所述基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,包括:
遍历每个所述第三文本内容,将大于或等于第二指定置信度的所述第二置信度对应的语音数据保留;
所述初始语音数据中包括部分预先获取的第一语种的标准语音数据以及所述标准语音数据对应的第二语种的标准第三文本内容,所述确定保留的指定内容对应的指定参数,包括:
获取被保留的语音数据对应的所述第三文本内容中与所述标准语音数据对应的部分第三文本内容;
基于所述部分第三文本内容与所述标准第三文本内容,确定第三准确率;
所述基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据,包括:
若所述第三准确率小于第三阈值准确率,则增加所述第二指定置信度得到新的第二指定置信度,并返回遍历每个所述第三文本内容,将大于或等于新的第二指定置信度的所述第二置信度对应的语音数据保留,直至所述第三准确率大于或等于第三阈值准确率;
若所述第三准确率大于或等于第三阈值准确率,则将保留的语音数据作为所述指定语音数据。
9.根据权利要求1所述的方法,其特征在于,所述目标参数为多个,多个所述目标参数对应过滤序列,所述过滤序列中包括每个所述目标参数对应的过滤序号,所述基于目标参数对所述初始语音数据过滤,得到所述指定语音数据,包括:
基于所述过滤序列依次使用所述目标参数对所述初始语音数据进行过滤,得到所述指定语音数据,其中,所述过滤序列中的最后一个所述过滤序号的所述目标参数对应的待处理数据中的语音数据的第十数量大于或等于第四阈值数量。
10.一种语音数据生成装置,其特征在于,应用于电子设备,所述装置包括:
获取单元,用于获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据;
确定单元,用于基于目标参数对所述初始语音数据过滤,得到指定语音数据,所述目标参数包括所述语音数据的质量指标、所述语音数据对应的第一语种的第二文本内容、所述语音数据对应的声纹特征以及所述语音数据对应的第二语种的第三文本内容中至少一个;所述基于目标参数对所述初始语音数据过滤,得到所述指定语音数据,包括:获取所述初始语音数据对应于所述目标参数的特征参数,其中,所述初始语音数据中语音数据的第一数量大于或等于第一阈值数量,所述特征参数包括初始质量指标、第一置信度、初始声纹特征以及第二置信度中至少一种;基于所述特征参数从所述初始语音数据中确定需要保留的指定内容,所述指定内容包括语音数据或音频分类;确定保留的指定内容对应的指定参数,所述指定参数包括准确率、通过率以及数量中至少一种;基于所述指定参数以及所述指定参数对应的阈值参数,确定所述指定语音数据;
转换单元,用于获取所述指定语音数据对应的第二语种的第一文本内容;基于所述第一文本内容生成所述第二语种的目标语音数据,所述目标语音数据与所述指定语音数据具有相同的声纹特征;
样本数据获取单元,用于将所述目标语音数据作为所述第二语种的语音模型的样本数据。
11.一种电子设备,其特征在于,包括:一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311115711.9A CN116844523B (zh) | 2023-08-31 | 2023-08-31 | 语音数据生成方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311115711.9A CN116844523B (zh) | 2023-08-31 | 2023-08-31 | 语音数据生成方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116844523A CN116844523A (zh) | 2023-10-03 |
CN116844523B true CN116844523B (zh) | 2023-11-10 |
Family
ID=88171054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311115711.9A Active CN116844523B (zh) | 2023-08-31 | 2023-08-31 | 语音数据生成方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844523B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838286A (zh) * | 2019-11-19 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN112652309A (zh) * | 2020-12-21 | 2021-04-13 | 科大讯飞股份有限公司 | 一种方言语音转换方法、装置、设备及存储介质 |
CN113450757A (zh) * | 2021-06-25 | 2021-09-28 | 马上消费金融股份有限公司 | 语音合成方法、装置、电子设备及计算机可读存储介质 |
WO2021208531A1 (zh) * | 2020-04-16 | 2021-10-21 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
WO2022143105A1 (zh) * | 2020-12-30 | 2022-07-07 | 北京有竹居网络技术有限公司 | 文本生成模型生成方法、文本生成方法、装置及设备 |
WO2022228041A1 (zh) * | 2021-04-26 | 2022-11-03 | 北京有竹居网络技术有限公司 | 翻译模型的训练方法、装置、设备和存储介质 |
CN116229935A (zh) * | 2023-02-21 | 2023-06-06 | 深圳市声扬科技有限公司 | 语音合成方法、装置、电子设备及计算机可读介质 |
CN116450771A (zh) * | 2022-12-16 | 2023-07-18 | 镁佳(北京)科技有限公司 | 一种多语种语音翻译模型构建方法及语音翻译方法、装置 |
CN116453500A (zh) * | 2023-03-31 | 2023-07-18 | 思必驰科技股份有限公司 | 小语种的语音合成方法、系统、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7596499B2 (en) * | 2004-02-02 | 2009-09-29 | Panasonic Corporation | Multilingual text-to-speech system with limited resources |
US9177549B2 (en) * | 2013-11-01 | 2015-11-03 | Google Inc. | Method and system for cross-lingual voice conversion |
US11841885B2 (en) * | 2021-04-21 | 2023-12-12 | International Business Machines Corporation | Multi-format content repository search |
-
2023
- 2023-08-31 CN CN202311115711.9A patent/CN116844523B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838286A (zh) * | 2019-11-19 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
WO2021208531A1 (zh) * | 2020-04-16 | 2021-10-21 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN112652309A (zh) * | 2020-12-21 | 2021-04-13 | 科大讯飞股份有限公司 | 一种方言语音转换方法、装置、设备及存储介质 |
WO2022143105A1 (zh) * | 2020-12-30 | 2022-07-07 | 北京有竹居网络技术有限公司 | 文本生成模型生成方法、文本生成方法、装置及设备 |
WO2022228041A1 (zh) * | 2021-04-26 | 2022-11-03 | 北京有竹居网络技术有限公司 | 翻译模型的训练方法、装置、设备和存储介质 |
CN113450757A (zh) * | 2021-06-25 | 2021-09-28 | 马上消费金融股份有限公司 | 语音合成方法、装置、电子设备及计算机可读存储介质 |
CN116450771A (zh) * | 2022-12-16 | 2023-07-18 | 镁佳(北京)科技有限公司 | 一种多语种语音翻译模型构建方法及语音翻译方法、装置 |
CN116229935A (zh) * | 2023-02-21 | 2023-06-06 | 深圳市声扬科技有限公司 | 语音合成方法、装置、电子设备及计算机可读介质 |
CN116453500A (zh) * | 2023-03-31 | 2023-07-18 | 思必驰科技股份有限公司 | 小语种的语音合成方法、系统、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116844523A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069608B (zh) | 一种语音交互的方法、装置、设备和计算机存储介质 | |
CN107657950B (zh) | 基于云端和多命令词的汽车语音控制方法、系统及装置 | |
CN110970018B (zh) | 语音识别方法和装置 | |
US9697821B2 (en) | Method and system for building a topic specific language model for use in automatic speech recognition | |
CN108897723B (zh) | 场景对话文本识别方法、装置以及终端 | |
CN109522564B (zh) | 语音翻译方法和装置 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN109377998A (zh) | 一种语音交互方法及装置 | |
CN109637519A (zh) | 语音交互实现方法、装置、计算机设备及存储介质 | |
CN111210824B (zh) | 语音信息处理方法、装置、电子设备及存储介质 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN111292731A (zh) | 语音信息处理方法、装置、电子设备及存储介质 | |
CN116844523B (zh) | 语音数据生成方法、装置、电子设备及可读存储介质 | |
CN111899729B (zh) | 一种语音模型的训练方法、装置、服务器和存储介质 | |
CN116935851A (zh) | 用于语音转换的方法及装置、语音转换系统、存储介质 | |
CN114579751A (zh) | 情绪分析方法、装置、电子设备及存储介质 | |
CN114443889A (zh) | 音频获取的方法、装置、电子设备及存储介质 | |
CN114049875A (zh) | 一种tts播报方法、装置、设备以及存储介质 | |
CN109787784B (zh) | 群组推荐方法、装置、存储介质和计算机设备 | |
CN112735395A (zh) | 语音识别方法及电子设备、存储装置 | |
CN116127366B (zh) | 一种基于tws耳机的情绪识别方法、系统及介质 | |
CN118172712B (zh) | 视频总结方法、大模型训练方法、装置和电子设备 | |
CN114117034B (zh) | 一种基于智能模型推送不同风格文本的方法和装置 | |
CN112840307B (zh) | 语句处理方法及相关装置 | |
CN116844530A (zh) | 语音信息的处理方法、装置、可读存储介质和电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |