CN114758664A - 语音数据筛选方法、装置、电子设备和可读存储介质 - Google Patents

语音数据筛选方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN114758664A
CN114758664A CN202210365542.3A CN202210365542A CN114758664A CN 114758664 A CN114758664 A CN 114758664A CN 202210365542 A CN202210365542 A CN 202210365542A CN 114758664 A CN114758664 A CN 114758664A
Authority
CN
China
Prior art keywords
result
data
dialect
conversion
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210365542.3A
Other languages
English (en)
Inventor
李鸿斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202210365542.3A priority Critical patent/CN114758664A/zh
Publication of CN114758664A publication Critical patent/CN114758664A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了语音数据筛选方法、装置、电子设备和可读存储介质,其中,方法包括:基于T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据;基于T条方言语音数据和第一转换数据的第一信息对比结果、第一转换数据对应目标说话人的第一判定结果中的至少一项,确定出目标方言语音数据;基于目标方言语音数据对应的P条方言语音数据和目标说话人对应的K条标准语音数据,获取第二转换数据;基于P条方言语音数据和第二转换数据的第二信息对比结果、第二转换数据对应目标说话人的第二判定结果中的至少一项,从第二转换数据中筛选出第三转换数据;第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项。

Description

语音数据筛选方法、装置、电子设备和可读存储介质
技术领域
本申请属于语音处理技术领域,具体涉及语音数据筛选方法、装置、电子设备和可读存储介质。
背景技术
语音转换技术可以保留源说话人的文本相关信息,而将源说话人语音数据的音色替换为另一目标说话人的音色,这使得语音转换技术被广泛的应用于语音播报,智能翻译等领域。随着语音技术的发展,越来越多的用户希望提供方言版本的语音转换业务,如此需要大量的方言语音数据,然而目前方言语音数据搜集难度大,因此方言语音数据的数量通常较少,这使得当前的语音转换技术在对方言进行语音转换时,转换效果较差。
发明内容
本申请实施例的目的是提供一种语音数据筛选方法、装置、电子设备和可读存储介质,能够解决相关技术中在对方言进行语音转换时,转换效果较差的问题。
第一方面,本申请实施例提供了一种语音数据筛选方法,该方法包括:基于T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据,T为大于零的整数;基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果中的至少一项对所述第一转换数据进行处理,基于第一处理结果从所述T条方言语音数据中确定出目标方言语音数据;基于所述目标方言语音数据对应的P条方言语音数据和所述目标说话人对应的K条标准语音数据,获取第二转换数据,P大于T,K为大于零的整数;基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果、所述第二转换数据对应所述目标说话人的第二判定结果中的至少一项对所述第二转换数据进行处理,基于第二处理结果从所述第二转换数据中筛选出第三转换数据;其中,所述第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项。
第二方面,本申请实施例提供了一种语音数据筛选装置,该装置包括:第一转换处理模块,用于基于T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据,T为大于零的整数;第一筛选处理模块,用于基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果中的至少一项对所述第一转换数据进行处理,基于第一处理结果从所述T条方言语音数据中确定出目标方言语音数据;第二转换处理模块,用于基于所述目标方言语音数据对应的P条方言语音数据和所述目标说话人对应的K条标准语音数据,获取第二转换数据,P大于T,K为大于零的整数;第二筛选处理模块,用于基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果、所述第二转换数据对应所述目标说话人的第二判定结果中的至少一项对所述第二转换数据进行处理,基于第二处理结果从所述第二转换数据中筛选出第三转换数据;其中,所述第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请的实施例中,根据T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据,其中T为大于零的整数,第一转换数据保留有T条方言语音数据的文本信息,将T条方言语音数据的音色改变为目标说话人的音色。在获取到第一转换数据后,利用T条方言语音数据和第一转换数据的第一信息对比结果、第一转换数据对应目标说话人的第一判定结果中的至少一项对第一转换数据进行处理,根据第一处理结果从T条方言语音数据中确定出目标方言语音数据,其中第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项,第一信息对比结果和第一判定结果为客观量化的评价指标,可以对第一转换数据进行准确评价,以从T条方言语音数据准确地筛选出转换效果较好的目标方言语音数据。然后根据目标方言语音数据确定P条方言语音数据,将P条方言语音数据与目标说话人的K条标准语音数据进行语音转换,获取到第二转换数据。进一步利用P条方言语音数据和第二转换数据的第二信息对比结果、第二转换数据对应目标说话人的第二判定结果中的至少一项对第二转换数据进行处理,根据第二处理结果在第二转换数据中筛选出第三转换数据,第二信息对比结果和第二判定结果为客观量化指标,可以对第二转换数据进行准确评价,以在第二转换数据中筛选出转换效果较好的第三转换数据。从而在本实施例中,通过将少量方言语音数据与大量的标准语音数据进行风格迁移,即可以获取到大量的使用方言的转换数据,并通过客观量化的评价指标,对转换数据进行自动挑选,筛选出转换效果较好的第三转换数据,第三转换数据的数据质量较高,同时通过自动筛选可以极大减少后续人工筛选转换数据的工作量,节约人力成本。
附图说明
图1是本申请实施例的语音数据筛选方法的流程图;
图2是本申请实施例的语音识别模型的结构示意图;
图3是本申请实施例的说话人识别模型的结构示意图;
图4是本申请实施例的语音转换模型的结构示意图;
图5是本申请实施例的语音数据筛选装置的框图;
图6是本申请实施例的电子设备的硬件结构示意图一;
图7是本申请实施例的电子设备的硬件结构示意图二。
具体实施方式
下面将结合本申请实施例的附图,对本申请实施例的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音数据筛选方法进行详细地说明。
图1示出了本申请一个实施例的语音数据筛选方法的流程图,该方法应用于电子设备,包括:
步骤101:基于T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据,T为大于零的整数。
在该步骤中,方言语音数据是指使用目标方言的语音数据;目标说话人是指目标转换音色对应的说话对象;标准语音数据是目标说话人的普通话音频;选取标准语音数据是指特定的目标说话人的普通话音频。例如对目标说话人的标准语音数据进行随机选取,确定出选取标准语音数据,其中目标方言和目标说话人可以为用户预先指定数据。对T条方言语音数据和选取标准语音数据进行语音转换,获取第一转换数据,该第一转换数据保留有T条方言语音数据的文本信息,音色改变为目标说话人的音色。
具体地,预先训练语音转换模型,将T条方言语音数据和目标说话人对应的选取标准语音数据输入语音转换模型,语音转换模型输出第一转换数据,其中语音转换模型的训练数据可以为少量的方言语音数据和大量的标准语音数据。
在一种可选的实现方式中,在基于T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据之前,所述方法还包括:基于目标方言,确定N个源方言说话人;基于所述N个源方言说话人,得到T条方言语音数据。其中,源方言说话人是指使用目标方言的说话对象,T条方言语音数据是源方言说话人的全部方言语音数据中的一部分,例如对N个源方言说话人分别对应的全部方言语音数据进行随机抽取,获取T条方言语音数据,其中T条方言语音数据包括了N个源方言说话人分别对应T/N条方言语音数据。
举例来说,预先确定目标方言为粤语,目标说话人为说话人A,将语音库中存在的N位粤语说话人作为源方言说话人,随机选取各个粤语说话人的T/N条方言语音数据,并在说话人A的普通话音频中进行随机选取,确定选取标准语音数据,将N个源方言说话人对应的T条方言语音数据和目标说话人对应的选取标准语音数据输入语音转换模型,获取第一转换数据。
步骤102,基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果中的至少一项对所述第一转换数据进行处理,基于第一处理结果从所述T条方言语音数据中确定出目标方言语音数据;其中,所述第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项。
在该步骤中,第一信息对比结果是指对T条方言语音数据和第一转换数据进行对比获取到的结果,其中第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项,语音识别对比结果是对T条方言语音数据的语音识别结果和第一转换数据的语音识别结果进行对比获取到的,音频信息对比结果是对T条方言语音数据的音频信息和第一转换数据的音频信息进行对比获取到的,其中音效信息包括但不限于基频信息和第一共振峰信息。因在语音转换的过程中,改变的是音色,因此T条方言语音数据和第一转换数据具有可比性,从而第一信息对比结果可以为对第一转换数据的转换效果进行客观量化评价的指标。
对T条方言语音数据进行语音转换的目的,是获取到目标说话人音色的方言语音数据,也就是说无需录制大量的方言语音数据,通过语音转换即可以获取到不同音色的方言语音数据,但在进行语音转换时,不同的方言语音数据对应的转换效果不同,在本实施例中对第一转换数据是否属于目标说话人进行判断,获取第一判定结果,第一判定结果可以为对第一转换数据的转换效果进行客观量化评价的指标。
第一信息对比结果和第一判定结果均可以对第一转换数据的转换效果进行客观量化评价,因此通过第一信息对比结果和第一判定结果中的至少一项即可以实现对第一转换数据的评价,即在对第一转换数据进行处理时,存在以下的可选实施方式:
实施方式一,基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果对所述第一转换数据进行处理。
实施方式二,基于所述第一转换数据对应所述目标说话人的第一判定结果对所述第一转换数据进行处理。
实施方式三,基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果对所述第一转换数据进行处理。
在对第一转换数据进行处理后,获取到第一处理结果,第一处理结果为对第一转换数据进行客观量化评价的结果,因此第一处理结果可以显示不同的方言语音数据的转换效果,进而可以根据第一处理结果从T条方言语音数据中确定出目标方言语音数据,目标方言语音数据为语音转换中转换效果较好的方言语音数据。具体地,确定第一处理结果中T条方言语音数据的评价数值,对各个评价数值进行排序,确定出评价数值最高的方言语音数据,该评价数值最高的方言语音数据即为目标方言语音数据。
步骤103,基于所述目标方言语音数据对应的P条方言语音数据和所述目标说话人对应的K条标准语音数据,获取第二转换数据,P大于T,K为大于零的整数。
在该步骤中,因目标方言语音数据的转换效果较好,因此进一步根据目标方言语音数据确定出较多的方言语音数据即P条方言语音数据,其中P大于T。也就是说先利用少量的方言语音数据即T条方言语音数据进行语音转换,初步筛选出目标方言语音数据,后续关注目标方言语音数据对应的P条方言语音数据,有效减少进行语音转换的方言语音数据的数量,避免产生大量的第二转换数据,有效地提高转换效率。
在一种具体的实施方式中,确定目标方言语音数据对应的目标说话人,确定目标说话人对应的P条方言语音数据,其中P条方言语音数据可以为目标说话人的使用目标方言的所有数据。不同的源说话人对应不同的转换效果,因此通过在源方言说话人中确定出转换效果较好的目标说话人,后续不再关注源方言说话人中除目标说话人外的其他方言说话人,可以有效提高转换效率,保证转换效果。
对P条方言语音数据和目标说话人对应的K条标准语音数据进行语音转换,获取第二转换数据,其中第二转换数据保留有P条方言语音数据的文本信息,音色改变为目标说话人的音色。具体地,预先训练语音转换模型,将P条方言语音数据和目标说话人对应的K条标准语音数据输入语音转换模型,获取语音转换模型输出的第二转换数据。其中K为大于零的整数,优选地,K条标准语音数据的数据数量大于选取标准语音数据的数据数量,目标说话人的标准语音数据均为目标音色,但是在标准语音数据对应不同内容时,目标说话人的说话风格会有所不同,因此通过选取更多的标准语音数据,获取更多目标音色的说话风格,以获取到说话风格较为丰富的第二转换数据。
步骤104,基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果、所述第二转换数据对应所述目标说话人的第二判定结果中的至少一项对所述第二转换数据进行处理,基于第二处理结果从所述第二转换数据中筛选出第三转换数据。
在该步骤中,第二信息对比结果是指对P条方言语音数据和第二转换数据进行对比获取到的结果,其中第二信息对比结果也可以包括语音识别对比结果和音频信息对比结果中的至少一项,语音识别对比结果是对P条方言语音数据的语音识别结果和第二转换数据的语音识别结果进行对比获取到的,音频信息对比结果是对P条方言语音数据的音频信息和第二转换数据的音频信息进行对比获取到的,其中音效信息包括但不限于基频信息和第一共振峰信息。P条方言语音数据和第二转换数据具有可比性,从而第二信息对比结果可以为对第二转换数据的转换效果进行客观量化评价的指标。
对第二转换数据是否属于目标说话人进行判断,获取第二判定结果,第二判定结果可以为对第二转换数据的转换效果进行客观量化评价的指标。
第二信息对比结果和第二判定结果均可以对第二转换数据的转换效果进行客观量化评价,因此通过第二信息对比结果和第二判定结果中的至少一项即可以实现对第二转换数据的评价,即在对第二转换数据进行处理时,存在以下的可选实施方式:
实施方式一,基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果对所述第二转换数据进行处理。
实施方式二,基于所述第二转换数据对应所述目标说话人的第二判定结果对所述第二转换数据进行处理。
实施方式三,基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果、所述第二转换数据对应所述目标说话人的第二判定结果对所述第二转换数据进行处理。
在对第二转换数据进行处理后,获取到第二处理结果,第二处理结果为对第二转换数据进行客观量化评价的结果,因此第二处理结果可以显示不同的方言语音数据的转换效果,进而可以根据第二处理结果从第二转换数据中筛选出第三转换数据,第三转换数据的转换效果较好。
具体地,预先设定转换阈值,确定第二处理结果中P条方言语音数据的评价数值,将评价数值大于转换阈值的第二转换数据筛选为第三转换数据。
在本申请的实施例中,根据T条方言语音数据和目标说话人对应的选取标准语音数据进行语音转换,获取第一转换数据。利用第一信息对比结果和第一判定结果中的至少一项对第一转换数据进行客观量化评价,以筛选出目标方言语音数据。然后将目标方言语音数据对应的P方言语音数据与目标说话人的K条标准语音数据进行语音转换,获取到第二转换数据,利用第二信息对比结果和第二判定结果中的至少一项对第二转换数据进行客观量化评价,在第二转换数据中筛选出第三转换数据。从而在本实施例中,通过将少量方言语音数据与大量的标准语音数据进行风格迁移,即可以获取到大量的使用方言的转换数据,并通过客观量化的评价指标,对转换数据进行自动挑选,筛选出转换效果较好的第三转换数据,第三转换数据的数据质量较高,同时通过自动筛选可以极大减少后续人工筛选转换数据的工作量,节约人力成本。
在本申请一个实施例中,在所述第一信息对比结果包括语音识别对比结果的情况下,在所述步骤102之前,所述方法还包括:
步骤105,确定所述T条方言语音数据的第一语音识别结果。
步骤106,确定所述第一转换数据的第二语音识别结果。
步骤107,基于所述第一语音识别结果和所述第二语音识别结果,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果。
其中,对T条方言语音数据进行语音识别,确定出第一语音识别结果,对第一转换进行语音识别,确定第二语音识别结果。对第一语音识别结果和第二语音识别结果进行对比,确定T条方言语音数据和第一转换数据的语音识别对比结果,该语音识别对比结果可以为对第一转换数据的转换效果进行客观量化评价的指标。
在一种具体的实施方式中,预先训练出语音识别模型,利用该语音识别模型对语音数据进行识别,即将T条方言语音数据输入语音识别模型,获取语音识别模型的输出项第一语音识别结果,第一语音识别结果为对T条方言语音数据进行识别得到的文本信息。将第一转换数据输入语音识别模型,获取语音识别模型的输出项第二语音识别结果,第二语音识别结果为对第一转换数据进行识别得到的文本信息。因在语音转换过程中,是对音色的改变并未改变语音内容,因此第一语音识别结果和第二语音识别结果具有可比性,通过对第一语音识别结果和第二语音识别结果进行比较,获取语音识别对比结果。
在一种可能的实现方式中,所述语音识别模型为对非方言的语音训练数据进行训练后得到。利用大量的非方言的语音训练数据可以训练出较为准确的语音识别模型,考虑到语音转换是音色改变,因此即使是利用非方言的语音训练数据训练出的语音识别模型,仍然可以用于对方言语音数据和第一转换数据进行语音识别,获取到准确的第一语音识别结果和第二语音识别结果,将基于非方言的语音训练数据训练出的语音识别模型巧妙的运用到方言语音数据中,为使用少量方言语音数据即可以获取到转换效果较好的转换数据提供了可能性。
具体地,搭建CTC-attention(其中,CTC为Connectionist temporalclassification,即连接主义时序分类;attention为注意力模型)的Transformer结构的语音识别模型,示例性的,该语音识别模型的模型结构如图2所示,该语音识别模型由编码网络和解码网络组成,将编码网络的输入特征经过自注意力结构(Self-Attention)、特征融合结构(Concate&LayerNorm)、一维卷积结构(Conv1D)、特征融合结构(Concate&LayerNorm),并由Softmax输出编码特征,将编码特征输入解码网络,经过遮挡自注意力结构(Masked Self-Attention)、特征融合结构(Concate&LayerNorm)、自注意力结构(Self-Attention)、特征融合结构(Concate&LayerNorm)、一维卷积结构(Conv1D)、特征融合结构(Concate&LayerNorm),经Softmax输出识别结果。其中,该语音识别模型可以包括12层编码网络和6层解码网络,编码网络的隐藏层神经元个数可以为2048,解码部分的隐藏神经元个数可以为6。
进一步地,该语音识别模型的训练数据为非方言的语音训练数据,在将语音训练数据输入语音识别模型前,对语音训练数据进行音频数据处理,获取音频特征。例如对语音训练数据进行fbank(FilterBank,滤波器组,一种处理算法)特征提取,即进行预加重,分帧,加窗,短时傅里叶变换,梅尔滤波得到fbank特征,其中fbank特征的维度可以选择80维,帧长窗长可以选择2048采样点,帧移可以选择300采样点。以该语音训练数据对语音识别模型进行训练,直至符合预设训练结束条件,其中预设训练结束条件包括训练次数达到设定值,如20w step,或者验证集的损失函数值(loss)下降至平稳,或者识别结果的字符错误率小于设定值,如9%。
进一步地,所述步骤107基于所述第一语音识别结果和所述第二语音识别结果,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果,包括:
步骤1071,确定所述第一语音识别结果和所述第二语音识别结果间的字符错误率。
步骤1072,在所述字符错误率在预设数值范围的情况下,根据所述字符错误率,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果。
步骤1073,在所述字符错误率不在所述预设数值范围的情况下,在所述T条方言语音数据中删除不在所述预设数值范围的字符错误率对应的方言语音数据。
其中,第一语音识别结果和第二语音识别结果均为文本信息,因此将第一语音识别结果和第二语音识别结果的文本信息包括的字符进行对比,即可以确定出第一语音识别结果和第二语音识别结果间的字符错误率。预先设定预设数值范围,在该预设数值范围内,表明转换效果较好,因此可以进一步根据字符错误率,确定T条方言语音数据和第一转换数据的语音识别对比结果。在字符错误率不在预设数据范围的情况下,表明转换效果过差,因此在T条方言语音数据中删除不在预设数值范围的字符错误率对应的方言语音数据,有效减少方言语音数据的数量。
在一种可能的实现方式中,在所述字符错误率在预设数值范围的情况下,可以直接将在预设数值范围的字符错误率,确定为T条方言语音数据和第一转换数据的语音识别对比结果。当然也可以预先设定计算公式,根据计算公式对字符错误率进行进一步计算,以确定出T条方言语音数据和第一转换数据的语音识别对比结果。
举例来说,T条方言语音数据和第一转换数据的语音识别对比结果对应的计算公式如下所示:
Figure BDA0003583323210000101
其中,ScoreASR表征T条方言语音数据和第一转换数据的语音识别对比结果;Xj表征源方言说话人X的第j条方言语音数据;T为源方言说话人X对应的方言语音数据的数据量;Yref表征目标说话人Y对应的随机特定音频即选取标准语音数据;
Figure BDA0003583323210000102
表征源方言说话人X的第j条方言语音数据转换后得到的第一转换数据;CER表征平均字符错误率;MASR(Xj)表征语音识别模型对源方言说话人X的第j条方言语音数据的识别结果,对应第一语音识别结果;
Figure BDA0003583323210000103
表征语音识别模型对第j条方言语音数据对应的第一转换数据的识别结果,对应第二语音识别结果。
通过ScoreASR可以体现语音转换后的第一转换数据是否保留原有的方言语音数据的语言信息,筛选掉语音转换模型常出现的发音不清的情况,在本实施例中将预设数值范围设置为小于1,将CER存在大于等于1的情况,此时表明转换效果过差,排除CER大于1的源方言说话人的方言语音数据。
在本实施例中,通过第一语音识别结果和第二语音识别结果准确地确定出语音识别对比结果,当转换效果较好时,语音识别对比结果中字符错误率较低,当转换效果较差时,语音识别对比结果中字符错误率较高,因此语音识别对比结果可以为对第一转换数据的转换效果进行客观量化评价的指标。
在本申请一个实施例中,在所述第一信息对比结果包括音频信息对比结果的情况下,所述步骤102之前,所述方法还包括:
步骤108,基于所述T条方言语音数据的第一基频分段长度和所述第一转换数据的第二基频分段长度,确定基频对比结果。
步骤109,基于所述T条方言语音数据的第一共振峰信息和所述第一转换数据的第一共振峰信息,确定共振峰对比结果。
步骤110,基于所述基频对比结果和所述共振峰对比结果,确定所述T条方言语音数据和所述第一转换数据的音频信息对比结果。
其中,第一基频分段长度是指将T条方言语音数据的音频信息中基频进行分段处理获取的长度结果,第二基频分段长度是指将第一转换数据的音频信息中基频进行分段处理获取的长度结果,将第一基频分段长度和第二基频分段长度进行对比,确定基频对比结果。音频信息中不仅包括基频信息,还包括第一共振峰信息,将方言语音数据的音频信息的第一共振峰信息和第一转换数据的音频信息的第一共振峰信息进行对比,确定共振峰对比结果。根据基频对比结果和共振峰对比结果对第一转换数据进行评价,获取音频信息对比结果,该音频信息对比结果可以为对第一转换数据的转换效果进行客观量化评价的指标。
举例来说,T条方言语音数据和第一转换数据音频信息对比结果的计算公式如下所示:
Figure BDA0003583323210000121
Figure BDA0003583323210000122
其中,Scoref表征音频信息对比结果;f0表征基频;f1表征第一共振峰;
Figure BDA0003583323210000123
表征
Figure BDA0003583323210000124
通过dio算法获得的L条基频分段的第k个分段的长度,对应第二基频分段长度;
Figure BDA0003583323210000125
表征Xi通过dio算法获得的L条基频分段的第k个分段的长度,对应第一基频分段长度;左式中
Figure BDA0003583323210000126
Figure BDA0003583323210000127
间的关系对应基频对比结果,通过对方言语音数据和第一转换数据对应的基频分段长度进行比较,对第一转换数据进行评价。在上式中
Figure BDA0003583323210000128
保证x在0到1范围内,x越接近0,用于评价的得分呈现趋势为非线性的下降,x越靠近1,表明第一转换音频的第二基频分段长度和方言语音数据的第一基频分段长度越接近,第一转换音频的音频韵律和语气更接近方言语音数据,转换效果较好。
Figure BDA0003583323210000129
表征
Figure BDA00035833232100001210
分帧后存在有相邻点的第一共振峰的第m个频率的左导数;
Figure BDA00035833232100001211
表征
Figure BDA00035833232100001212
分帧后存在有相邻点的第一共振峰的第m个频率的右导数;
Figure BDA00035833232100001213
表征Xj分帧后存在有相邻点的第一共振峰的第m个频率的左导数;
Figure BDA00035833232100001214
表征Xj分帧后存在有相邻点的第一共振峰的第m个频率的右导数;在右式中1-x2的形式保证x在0到1范围内,越接近1,用于评价的得分呈现趋势为非线性的下降。通过计算方言语音数据和第一转换数据的左右导数之差的比值,确定共振峰对比结果,共振峰对比结果表示第一转换数据在该点相较于方言语音数据的第一共振峰抖动性。选择方言语音数据的导数差小于第一转换数据的导数差的M个点进行计算,得到的导数间的关系值越接近1,说明此处共振峰波形越接近方言语音数据,可视作没有共振峰抖动的现象,转换效果较好。
在本申请一个实施例中,在步骤102之前,所述方法还包括:
步骤111,对所述第一转换数据的频谱进行识别,确定所述第一转换数据对应目标说话人的第一预测结果。
步骤112,对所述第一转换数据的说话人进行识别,确定所述第一转换数据对应目标说话人的第二预测结果。
步骤113,基于所述第一预测结果、所述第二预测结果和所述目标说话人对应的真实结果,确定所述第一转换数据对应目标说话人的第一判定结果。
其中,第一转换数据为音频数据,因此具有频谱信息,不同的说话人对应不同的频谱信息,通过对第一转换数据的频谱信息进行识别,确定第一转换数据对应的目标说话人的第一预测结果。具体地,可以确定第一转换数据的频谱信息与目标说话人的标准语音数据的频谱信息的相似性,可以直接根据将相似性对应的数值确定为第一预测结果。在本实施例中不仅通过第一预测结果确定第一转换数据的转换效果,进一步对第二转换数据进行说话人识别,确定出第一转换数据对应的目标说话人的第二预测结果,从而利用第一预测结果和第二预测结果双重验证方式确定第一转换数据是否对应目标说话人,保证确定出的第一判定结果的准确性。
在一种具体的实施方式中,预先训练语音转换模块,基于所述语音转换模型的分类器,获取所述第一转换数据对应所述目标说话人的第一预测结果。将方言语音数据输入到语音转换模型中,不仅可以得到第一转换数据,语音转换模型的分类器还可以输出第一预测结果。
在一种具体的实施方式中,预先训练说话人识别模型,基于说话人识别模型,获取所述第一转换数据对应所述目标说话人的第二预测结果。将第一转换数据输入到说话人识别模型中,说话人识别模型输出第二预测结果。
具体地,搭建基于self-attention卷积结构的说话人识别模型,示例性的,该说话人识别模型的模型结构如图3所示,由映射结构(Liner&Relu),一维卷积结构(Conv1DBlock),平均池化结构(Mean pooling),自注意力结构(Self-Attention)和输出结构(Linear以及Softmax)组成。该说话人识别模型的训练数据包括方言训练数据和标准训练数据,方言训练数据可以为掌握粤语、东北话、四川话等语种的声优录制的少量方言音频数据,标准训练数据为数据库中存在的大量的普通话音频数据。在将说话人识别模型的训练数据输入说话人识别模型前,对训练数据进行音频数据处理,获取音频特征。对训练数据进行fbank特征提取,得到80维的fbank特征,将80维的fbank特征输入到2层的全连接和elu激活函数组成的映射结构,将80维特征映射到128维,然后经过3层1维卷积加GLU(GatedLinear Units,门控线性单元)的残差结构的卷积层,以及将语音信息汇总的mean pooling结构,最终通过self-attention结构得到说话人维度特征,并通过softmax结构输出识别为对应说话人的概率,得到第二预测结果。
搭建基于对抗学习的stargan v2语音转换模型,示例性的,该语音转换模型的模型结构如图4所示,该语音转换模型由A、B、C、D 4个模块组成,其中模块A(Style Encoder)为说话人风格生成模块,该模块具体为预训练的上述说话人识别模型,该说话人识别模型输出为通过self-attention结构得到说话人维度特征(Speaker Vector);图4中B为目标说话人频谱转换生成模块,搭建基于self-attention的seq2seq的网络结构,以音频特征(fbank特征)和说话人维度特征为输入项,输出转换后的目标说话人音色的频谱。图4中C为频谱判断模块,包括判断器和分类器,判断器和分类器的模型结构为预训练的上述说话人识别模型,频谱判断模块用于对抗训练,判断并提升目标说话人频谱转换生成模块的转换效果。图4中D为声码器模块,用于基于HIFI-GAN结构将频谱数据转音频数据,即输出第一转换数据,同时分类器输出第一预测结果。其中,语音转换模型的训练数据为方言训练数据和标准训练数据。
通过上述语音转换模型和说话人识别模型可以获取到准确的第一预测结果和第二预测结果。
进一步地,所述步骤112基于所述第一预测结果、所述第二预测结果和所述目标说话人对应的真实结果,确定所述第一转换数据对应目标说话人的第一判定结果,包括:
步骤1121,确定所述第一预测结果与所述目标说话人对应的真实结果间的第一交叉熵。
步骤1122,确定所述第二预测结果与所述目标说话人对应的真实结果间的第二交叉熵。
步骤1123,基于所述第一交叉熵和所述第二交叉熵,确定所述第一转换数据对应目标说话人的第一判定结果。
其中,第一交叉熵可以表明第一预测结果与目标说话人对应的真实结果间的差异,从而第一交叉熵可以直观的体现第一转换数据的转换效果。同时第二交叉熵可以表明第二预测结果与目标说话人对应的真实结果间的差异,从而第二交叉熵也可以直观的体现第一转换数据的转换效果。按照预设计算方式对第一交叉熵和第二交叉熵进行计算,确定出第一转换数据对应目标说话人的第一判定结果。
举例来说,第一判定结果对应的计算公式如下所示:
Figure BDA0003583323210000151
其中,Scorespeaker表征第一判定结果,Cvc表征分类器;Y表征目标说话人;Cspeaker表征说话人识别模型;CE表征交叉熵;λvc表征预设权重系数,如为0.2;
Figure BDA0003583323210000152
表征音频转换模块的分类器对
Figure BDA0003583323210000153
属于目标说话人Y的判断结果,确定
Figure BDA0003583323210000154
与目标说话人Y的交叉熵CE,CE的值越靠近1,表明第一转换数据转换效果越好,数据质量越高;
Figure BDA0003583323210000155
表征说话人识别模型对
Figure BDA0003583323210000156
属于目标说话人Y的概率结果,并进一步确定
Figure BDA0003583323210000157
与目标说话人Y的交叉熵CE。
通过上述第一判定结果的计算公式,可以准确地确定出第一判定结果,该第一判定结果可以为对第一转换数据的转换效果进行客观量化评价的指标。
在一种具体的实施方式中,在基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果对所述第一转换数据进行处理,基于第一处理结果从所述T条方言语音数据中确定出目标方言语音数据时,可以根据如下计算公式确定出第一处理结果:
Scorepick-source=λASR*ScoreASRspeaker*Scorespeaker++λf*Scoref (4)
其中,Scorepick-source表征第一处理结果;ScoreASR表征语音识别模型得到的语音识别对比结果;Scorespeaker表征语音转换模块和说话人识别模型得到第一判定结果;Scoref表征基于音频信息得到的音频信息对比结果;λASR、λspeaker、λf表征预设权重系数。
具体地:
Figure BDA0003583323210000158
Figure BDA0003583323210000159
Figure BDA00035833232100001510
Figure BDA0003583323210000161
通过上述第一处理结果的计算公式,可以准确地确定出第一处理结果,进而可以保证根据第一处理结果确定出的目标方言语音数据的准确性较高。
在本申请一实施例中,所述第二信息对比结果包括P条方言语音数据和所述第二转换数据的语音识别对比结果和音频信息对比结果中的至少一项。
在所述第二信息对比结果包括P条方言语音数据和所述第二转换数据的语音识别对比结果时,在步骤104之前,所述方法还包括:
确定P条方言语音数据的第三语音识别结果;确定第二转换数据的第四语音识别结果;基于第三语音识别结果和第四语音识别结果,确定P条方言语音数据和第二转换数据的语音识别对比结果。
在P条方言语音数据与第二转换数据间的文本信息相同,因此第三语音识别结果和第四语音识别结果间具有可比性,通过对第三语音识别结果和第四语音识别结果进行比较,确定出P条方言语音数据和第二转换数据的语音识别对比结果,该语音识别对比结果可以为对第二转换数据的转换效果进行客观量化评价的指标。
在一种具体的实施方式中,预先训练出语音识别模型,利用该语音识别模型对语音数据进行识别,即将P条方言语音数据输入语音识别模型,获取语音识别模型的输出项第三语音识别结果,第三语音识别结果为对P条方言语音数据进行识别得到的文本信息。将第二转换数据输入语音识别模型,获取语音识别模型的输出项第四语音识别结果,第四语音识别结果为对第二转换数据进行识别得到的文本信息,其中语音识别模型的模型结构可以如上所述。
具体地,基于第三语音识别结果和第四语音识别结果,确定P条方言语音数据和第二转换数据的语音识别对比结果,包括:确定所述第三语音识别结果和第四语音识别结果间的字符错误率。在字符错误率在预设数值范围的情况下,根据字符错误率,确定P条方言语音数据和第二转换数据的语音识别对比结果。在字符错误率不在预设数值范围的情况下,在P条方言语音数据中删除不在该预设数值范围的字符错误率对应的方言语音数据。
通过将第三语音识别结果和第四语音识别结果的文本信息包括的字符进行对比,确定出第三语音识别结果和第四语音识别结果间的字符错误率,当该字符错误率在预设数值范围内,表明转换效果较好,因此可以进一步根据字符错误率,确定P条方言语音数据和第二转换数据的语音识别对比结果。在字符错误率不在预设数据范围的情况下,表明转换效果过差,因此在P条方言语音数据中删除不在预设数值范围的字符错误率对应的方言语音数据,有效减少方言语音数据的数量。
在一种具体的实施方式中,P条方言语音数据和第二转换数据的语音识别对比结果对应的计算公式如下所示:
Figure BDA0003583323210000171
其中,ScoreASR,ij表征目标说话人Y的第i个标准语音数据,将源方言说话人X的第j条方言语音数据进行语音转换的语音识别对比结果,Yi表征目标说话人Y的第i个标准语音数据;
Figure BDA0003583323210000172
表征源方言说话人X的第j条方言语音数据与目标说话人Y的第i个标准语音数据转换后得到的第二转换数据。通过ScoreASR,ij可以体现语音转换后的第二转换数据是否保留原有的方言语音数据的语言信息,筛选掉语音转换模型常出现的发音不清的情况,在本实施例中将预设数值范围设置为小于1,将CER存在大于等于1的情况,此时表明转换效果过差,排除CER大于1的源方言说话人的方言语音数据。
在本申请一实施例中,在第二信息对比结果包括P条方言语音数据和第二转换数据的音频信息对比结果的情况下,在步骤104前,所述方法还包括:基于P条方言语音数据的第三基频分段长度和第二转换数据的第四基频分段长度,确定P条方言语音数据和第二转换数据间基频对比结果。基于P条方言语音数据的第一共振峰信息和第二转换数据的第一共振峰信息,确定P条方言语音数据和第二转换数据间共振峰对比结果。基于P条方言语音数据和第二转换数据间的基频对比结果和共振峰对比结果,确定P条方言语音数据和第二转换数据间的音频信息对比结果。
其中,第三基频分段长度是指将P条方言语音数据的音频信息中基频进行分段处理获取的长度结果,第四基频分段长度是指将第二转换数据的音频信息中基频进行分段处理获取的长度结果,将第三基频分段长度和第四基频分段长度进行对比,确定P条方言语音数据和第二转换数据间基频对比结果。音频信息中不仅包括基频信息,还包括第一共振峰信息,因此将P条方言语音数据的音频信息的第一共振峰信息和第二转换数据的音频信息的第一共振峰信息进行对比,确定共振峰对比结果。根据基频对比结果和共振峰对比结果对第二转换数据进行评价,获取音频信息对比结果,该音频信息对比结果可以为对第二转换数据的转换效果进行客观量化评价的指标。
举例来说,P条方言语音数据和第二转换数据的音频信息对比结果的计算公式如下所示:
Figure BDA0003583323210000181
其中,
Figure BDA0003583323210000182
表征
Figure BDA0003583323210000183
通过dio算法获得的L条基频分段的第k个分段的长度,对应第三基频分段长度;
Figure BDA0003583323210000184
表征Xi通过dio算法获得的L条基频分段的第k个分段的长度,对应第四基频分段长度;左式中
Figure BDA0003583323210000185
Figure BDA0003583323210000186
间的关系对应P条方言语音数据和第二转换数据的音频信息对比结果;
Figure BDA0003583323210000187
表征
Figure BDA0003583323210000188
分帧后存在有相邻点的第一共振峰的第m个频率的左导数;
Figure BDA0003583323210000189
表征
Figure BDA00035833232100001810
分帧后存在有相邻点的第一共振峰的第m个频率的右导数。
通过上述计算公式(5)可以准确地获取到P条方言语音数据和第二转换数据的音频信息对比结果,有利于在第二转换数据中准确地筛选出第三转换数据。
在本申请一个实施例中,所述步骤104前,所述方法还包括:对所述第二转换数据的频谱进行识别,确定所述第二转换数据对应目标说话人的第三预测结果。对所述第二转换数据的说话人进行识别,确定所述第二转换数据对应目标说话人的第四预测结果。基于所述第三预测结果、所述第四预测结果和所述目标说话人对应的真实结果,确定所述第二转换数据对应目标说话人的第二判定结果。
在本实施例中不仅通过第三预测结果确定第二转换数据的转换效果,进一步对第二转换数据进行说话人识别,确定出第二转换数据对应的目标说话人的第四预测结果,从而利用第三预测结果和第四预测结果双重验证方式确定第二转换数据是否对应目标说话人,进而保证确定出的第二判定结果的准确性。
在一种具体的实施方式中,预先训练语音转换模块,基于所述语音转换模型的分类器,获取所述第二转换数据对应所述目标说话人的第三预测结果。将P方言语音数据输入到语音转换模型中,不仅可以得到第二转换数据,语音转换模型的分类器还可以输出第三预测结果。
在一种具体的实施方式中,预先训练说话人识别模型,基于说话人识别模型,获取所述第二转换数据对应所述目标说话人的第四预测结果,将第二转换数据输入到说话人识别模型中,说话人识别模型输出第四预测结果。
进一步地,所述基于第三预测结果、第四预测结果和目标说话人对应的真实结果,确定第二转换数据对应目标说话人的第二判定结果,包括:确定第三预测结果与目标说话人对应的真实结果间的第三交叉熵。确定第三预测结果与目标说话人对应的真实结果间的第四交叉熵。基于第三交叉熵和第四交叉熵,确定第二转换数据对应目标说话人的第二判定结果。
举例来说,第二判定结果的计算公式如下所示:
Figure BDA0003583323210000191
通过上述第二判定结果的计算公式,可以准确地确定出第二判定结果,该第二判定结果可以为对第二转换数据的转换效果进行客观量化评价的指标。
在一种具体的实现方式中,在基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果、所述第二转换数据对应所述目标说话人的第二判定结果对所述第二转换数据进行处理,基于第二处理结果从所述第二转换数据中筛选出第三转换数据时,可以根据如下计算公式确定第二处理结果:
Figure BDA0003583323210000192
其中,
Figure BDA0003583323210000193
表征根据目标说话人Y的第i个标准语音数据,将源方言说话人X的第j条方言语音数据进行语音转换后的评价结果,对应第二处理结果,ScoreASR,ij表征P条方言语音数据和所述第二转换数据的语音识别对比结果,Scorespeaker,ij表征基于语音转换模块和说话人识别模型得到的第二转换数据对应所述目标说话人的第二判定结果。
具体地:
Figure BDA0003583323210000194
Figure BDA0003583323210000201
通过上述第二处理结果的计算公式,可以准确的确定出第二处理结果,进而可以保证根据第二处理筛选出转换效果较好的第三转换数据。
进一步地,第二处理结果的计算公式可以如下所示:
Figure BDA0003583323210000202
其中,Scoref表征P条方言语音数据和第二转换数据的音频信息对比结果。
具体地:
Figure BDA0003583323210000203
Figure BDA0003583323210000204
Figure BDA0003583323210000205
通过上述第二处理结果的计算公式,对P条方言语音数据和第二转换数据的音频信息对比结果进行考虑,可以确定出更为准确的第二处理结果,进而可以保证根据第二处理筛选出转换效果较好的第三转换数据。
本申请实施例提供的语音数据筛选方法,执行主体可以为语音数据筛选装置。本申请实施例中以语音数据筛选装置执行语音数据筛选方法为例,说明本申请实施例提供的语音数据筛选装置。
图5示出了本申请另一个实施例的语音数据筛选装置的框图,该装置包括:
第一转换处理模块51,用于基于T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据,T为大于零的整数;
第一筛选处理模块52,用于基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果中的至少一项对所述第一转换数据进行处理,基于第一处理结果从所述T条方言语音数据中确定出目标方言语音数据;
第二转换处理模块53,用于基于所述目标方言语音数据对应的P条方言语音数据和所述目标说话人对应的K条标准语音数据,获取第二转换数据,P大于T,K为大于零的整数;
第二筛选处理模块54,用于基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果、所述第二转换数据对应所述目标说话人的第二判定结果中的至少一项对所述第二转换数据进行处理,基于第二处理结果从所述第二转换数据中筛选出第三转换数据。
其中,所述第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项。
可选地,所述装置还包括:语音结果确定模块;
所述语音结果确定模块,包括:
第一识别处理单元,用于确定所述T条方言语音数据的第一语音识别结果;
第二识别处理单元,用于确定所述第一转换数据的第二语音识别结果;
语音结果确定单元,用于基于所述第一语音识别结果和所述第二语音识别结果,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果。
可选地,所述语音结果确定单元,包括:
第一确定子单元,用于确定所述第一语音识别结果和所述第二语音识别结果间的字符错误率;
第二确定子单元,用于在所述字符错误率在预设数值范围的情况下,根据所述字符错误率,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果;
第三确定子单元,用于在所述字符错误率不在所述预设数值范围的情况下,在所述T条方言语音数据中删除不在所述预设数值范围的字符错误率对应的方言语音数据。
可选地,所述装置还包括:音频结果确定模块;
所述音频结果确定模块,包括:
第一对比处理单元,用于基于所述T条方言语音数据的第一基频分段长度和所述第一转换数据的第二基频分段长度,确定基频对比结果;
第二对比处理单元,用于基于所述T条方言语音数据的第一共振峰信息和所述第一转换数据的第一共振峰信息,确定共振峰对比结果;
音频结果确定单元,用于基于所述基频对比结果和所述共振峰对比结果,确定所述T条方言语音数据和所述第一转换数据的音频信息对比结果。
可选地,所述装置还包括:判定结果确定模块;
所述判定结果确定模块包括:
第一预测处理单元,用于对所述第一转换数据的频谱进行识别,确定所述第一转换数据对应目标说话人的第一预测结果;
第二预测处理单元,用于对所述第一转换数据的说话人进行识别,确定所述第一转换数据对应目标说话人的第二预测结果;
判定结果确定单元,用于基于所述第一预测结果、所述第二预测结果和所述目标说话人对应的真实结果,确定所述第一转换数据对应目标说话人的第一判定结果。
可选地,所述判定结果确定单元,包括:
第四确定子单元,用于确定所述第一预测结果与所述目标说话人对应的真实结果间的第一交叉熵;
第五确定子单元,用于确定所述第二预测结果与所述目标说话人对应的真实结果间的第二交叉熵;
第六确定子单元,用于基于所述第一交叉熵和所述第二交叉熵,确定所述第一转换数据对应目标说话人的第一判定结果。
在本申请的实施例中,通过将少量方言语音数据与大量的标准语音数据进行风格迁移,即可以获取到大量的使用方言的转换数据,并通过客观量化的评价指标,对转换数据进行自动挑选,筛选出转换效果较好的第三转换数据,第三转换数据的数据质量较高,同时通过自动筛选可以极大减少后续人工筛选转换数据的工作量,节约人力成本。
本申请实施例中的语音数据筛选装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例的语音数据筛选装置可以为具有动作系统的装置。该动作系统可以为安卓(Android)动作系统,可以为ios动作系统,还可以为其他可能的动作系统,本申请实施例不作具体限定。
本申请实施例提供的语音数据筛选装置能够实现上述方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图6所示,本申请实施例还提供一种电子设备60,包括处理器61,存储器62,存储在存储器62上并可在所述处理器61上运行的程序或指令,该程序或指令被处理器61执行时实现上述任一语音数据筛选方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例的电子设备包括上述所述的移动电子设备和非移动电子设备。
图7为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备700包括但不限于:射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。
本领域技术人员可以理解,电子设备700还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器710逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器710,用于基于T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据,T为大于零的整数;基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果中的至少一项对所述第一转换数据进行处理,基于第一处理结果从所述T条方言语音数据中确定出目标方言语音数据;基于所述目标方言语音数据对应的P条方言语音数据和所述目标说话人对应的K条标准语音数据,获取第二转换数据,P大于T,K为大于零的整数;基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果、所述第二转换数据对应所述目标说话人的第二判定结果中的至少一项对所述第二转换数据进行处理,基于第二处理结果从所述第二转换数据中筛选出第三转换数据;其中,所述第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项。
在本申请的实施例中,通过将少量方言语音数据与大量的标准语音数据进行风格迁移,即可以获取到大量的使用方言的转换数据,并通过客观量化的评价指标,对转换数据进行自动挑选,筛选出转换效果较好的第三转换数据,第三转换数据的数据质量较高,同时通过自动筛选可以极大减少后续人工筛选转换数据的工作量,节约人力成本。
可选地,处理器710,还用于确定所述T条方言语音数据的第一语音识别结果;确定所述第一转换数据的第二语音识别结果;基于所述第一语音识别结果和所述第二语音识别结果,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果。
可选地,处理器710,还用于确定所述第一语音识别结果和所述第二语音识别结果间的字符错误率;在所述字符错误率在预设数值范围的情况下,根据所述字符错误率,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果;在所述字符错误率不在所述预设数值范围的情况下,在所述T条方言语音数据中删除不在所述预设数值范围的字符错误率对应的方言语音数据。
可选地,处理器710,还用于基于所述T条方言语音数据的第一基频分段长度和所述第一转换数据的第二基频分段长度,确定基频对比结果;基于所述T条方言语音数据的第一共振峰信息和所述第一转换数据的第一共振峰信息,确定共振峰对比结果;基于所述基频对比结果和所述共振峰对比结果,确定所述T条方言语音数据和所述第一转换数据的音频信息对比结果。
可选地,处理器710,还用于对所述第一转换数据的频谱进行识别,确定所述第一转换数据对应目标说话人的第一预测结果;对所述第一转换数据的说话人进行识别,确定所述第一转换数据对应目标说话人的第二预测结果;基于所述第一预测结果、所述第二预测结果和所述目标说话人对应的真实结果,确定所述第一转换数据对应目标说话人的第一判定结果。
可选地,处理器710,还用于确定所述第一预测结果与所述目标说话人对应的真实结果间的第一交叉熵;确定所述第二预测结果与所述目标说话人对应的真实结果间的第二交叉熵;基于所述第一交叉熵和所述第二交叉熵,确定所述第一转换数据对应目标说话人的第一判定结果。
应理解的是,本申请实施例中,输入单元704可以包括图形处理器(GraphicsProcessing Unit,GPU)7041和麦克风7042,图形处理器7041对在视频图像捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频图像的图像数据进行处理。显示单元706可包括显示面板7061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板7061。用户输入单元707包括触控面板7071以及其他输入设备7072中的至少一种。触控面板7071,也称为触摸屏。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、动作杆,在此不再赘述。存储器709可用于存储软件程序以及各种数据,包括但不限于应用程序和动作系统。处理器710可集成应用处理器和调制解调处理器,其中,应用处理器主要处理动作系统、用户页面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器710中。
存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器709可以包括易失性存储器或非易失性存储器,或者,存储器x09可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器709包括但不限于这些和任意其它适合类型的存储器。
处理器710可包括一个或多个处理单元;可选的,处理器710集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器710中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述语音数据筛选方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述语音数据筛选方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述语音数据筛选方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (14)

1.一种语音数据筛选方法,其特征在于,所述方法包括:
基于T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据,T为大于零的整数;
基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果中的至少一项对所述第一转换数据进行处理,基于第一处理结果从所述T条方言语音数据中确定出目标方言语音数据;
基于所述目标方言语音数据对应的P条方言语音数据和所述目标说话人对应的K条标准语音数据,获取第二转换数据,P大于T,K为大于零的整数;
基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果、所述第二转换数据对应所述目标说话人的第二判定结果中的至少一项对所述第二转换数据进行处理,基于第二处理结果从所述第二转换数据中筛选出第三转换数据;
其中,所述第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项。
2.根据权利要求1所述的方法,其特征在于,在所述第一信息对比结果包括语音识别对比结果的情况下,在所述基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的判定结果中的至少一项对所述第一转换数据进行处理之前,所述方法还包括:
确定所述T条方言语音数据的第一语音识别结果;
确定所述第一转换数据的第二语音识别结果;
基于所述第一语音识别结果和所述第二语音识别结果,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语音识别结果和所述第二语音识别结果,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果,包括:
确定所述第一语音识别结果和所述第二语音识别结果间的字符错误率;
在所述字符错误率在预设数值范围的情况下,根据所述字符错误率,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果;
在所述字符错误率不在所述预设数值范围的情况下,在所述T条方言语音数据中删除不在所述预设数值范围的字符错误率对应的方言语音数据。
4.根据权利要求1所述的方法,其特征在于,在所述第一信息对比结果包括音频信息对比结果的情况下,在所述基于所述T条方言语音数据和所述第一转换数据的信息对比结果、所述第一转换数据对应所述目标说话人的判定结果中的至少一项对所述第一转换数据进行处理之前,所述方法还包括:
基于所述T条方言语音数据的第一基频分段长度和所述第一转换数据的第二基频分段长度,确定基频对比结果;
基于所述T条方言语音数据的第一共振峰信息和所述第一转换数据的第一共振峰信息,确定共振峰对比结果;
基于所述基频对比结果和所述共振峰对比结果,确定所述T条方言语音数据和所述第一转换数据的音频信息对比结果。
5.根据权利要求1所述的方法,其特征在于,在所述基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果中的至少一项对所述第一转换数据进行处理之前,所述方法还包括:
对所述第一转换数据的频谱进行识别,确定所述第一转换数据对应目标说话人的第一预测结果;
对所述第一转换数据的说话人进行识别,确定所述第一转换数据对应目标说话人的第二预测结果;
基于所述第一预测结果、所述第二预测结果和所述目标说话人对应的真实结果,确定所述第一转换数据对应目标说话人的第一判定结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一预测结果、所述第二预测结果和所述目标说话人对应的真实结果,确定所述第一转换数据对应目标说话人的第一判定结果,包括:
确定所述第一预测结果与所述目标说话人对应的真实结果间的第一交叉熵;
确定所述第二预测结果与所述目标说话人对应的真实结果间的第二交叉熵;
基于所述第一交叉熵和所述第二交叉熵,确定所述第一转换数据对应目标说话人的第一判定结果。
7.一种语音数据筛选装置,其特征在于,所述装置包括:
第一转换处理模块,用于基于T条方言语音数据和目标说话人对应的选取标准语音数据,获取第一转换数据,T为大于零的整数;
第一筛选处理模块,用于基于所述T条方言语音数据和所述第一转换数据的第一信息对比结果、所述第一转换数据对应所述目标说话人的第一判定结果中的至少一项对所述第一转换数据进行处理,基于第一处理结果从所述T条方言语音数据中确定出目标方言语音数据;
第二转换处理模块,用于基于所述目标方言语音数据对应的P条方言语音数据和所述目标说话人对应的K条标准语音数据,获取第二转换数据,P大于T,K为大于零的整数;
第二筛选处理模块,用于基于所述P条方言语音数据和所述第二转换数据的第二信息对比结果、所述第二转换数据对应所述目标说话人的第二判定结果中的至少一项对所述第二转换数据进行处理,基于第二处理结果从所述第二转换数据中筛选出第三转换数据;
其中,所述第一信息对比结果包括语音识别对比结果和音频信息对比结果中的至少一项。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:语音结果确定模块;
所述语音结果确定模块,包括:
第一识别处理单元,用于确定所述T条方言语音数据的第一语音识别结果;
第二识别处理单元,用于确定所述第一转换数据的第二语音识别结果;
语音结果确定单元,用于基于所述第一语音识别结果和所述第二语音识别结果,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果。
9.根据权利要求8所述的装置,其特征在于,所述语音结果确定单元,包括:
第一确定子单元,用于确定所述第一语音识别结果和所述第二语音识别结果间的字符错误率;
第二确定子单元,用于在所述字符错误率在预设数值范围的情况下,根据所述字符错误率,确定所述T条方言语音数据和所述第一转换数据的语音识别对比结果;
第三确定子单元,用于在所述字符错误率不在所述预设数值范围的情况下,在所述T条方言语音数据中删除不在所述预设数值范围的字符错误率对应的方言语音数据。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:音频结果确定模块;
所述音频结果确定模块,包括:
第一对比处理单元,用于基于所述T条方言语音数据的第一基频分段长度和所述第一转换数据的第二基频分段长度,确定基频对比结果;
第二对比处理单元,用于基于所述T条方言语音数据的第一共振峰信息和所述第一转换数据的第一共振峰信息,确定共振峰对比结果;
音频结果确定单元,用于基于所述基频对比结果和所述共振峰对比结果,确定所述T条方言语音数据和所述第一转换数据的音频信息对比结果。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:判定结果确定模块;
所述判定结果确定模块包括:
第一预测处理单元,用于对所述第一转换数据的频谱进行识别,确定所述第一转换数据对应目标说话人的第一预测结果;
第二预测处理单元,用于对所述第一转换数据的说话人进行识别,确定所述第一转换数据对应目标说话人的第二预测结果;
判定结果确定单元,用于基于所述第一预测结果、所述第二预测结果和所述目标说话人对应的真实结果,确定所述第一转换数据对应目标说话人的第一判定结果。
12.根据权利要求11所述的装置,其特征在于,所述判定结果确定单元,包括:
第四确定子单元,用于确定所述第一预测结果与所述目标说话人对应的真实结果间的第一交叉熵;
第五确定子单元,用于确定所述第二预测结果与所述目标说话人对应的真实结果间的第二交叉熵;
第六确定子单元,用于基于所述第一交叉熵和所述第二交叉熵,确定所述第一转换数据对应目标说话人的第一判定结果。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1~6任一项所述的语音数据筛选方法的步骤。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1~6任一项所述的语音数据筛选方法的步骤。
CN202210365542.3A 2022-04-06 2022-04-06 语音数据筛选方法、装置、电子设备和可读存储介质 Pending CN114758664A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210365542.3A CN114758664A (zh) 2022-04-06 2022-04-06 语音数据筛选方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210365542.3A CN114758664A (zh) 2022-04-06 2022-04-06 语音数据筛选方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN114758664A true CN114758664A (zh) 2022-07-15

Family

ID=82328505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210365542.3A Pending CN114758664A (zh) 2022-04-06 2022-04-06 语音数据筛选方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN114758664A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778937A (zh) * 2023-03-28 2023-09-19 南京工程学院 一种基于说话人对抗子网络的语音转换方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778937A (zh) * 2023-03-28 2023-09-19 南京工程学院 一种基于说话人对抗子网络的语音转换方法
CN116778937B (zh) * 2023-03-28 2024-01-23 南京工程学院 一种基于说话人对抗子网络的语音转换方法

Similar Documents

Publication Publication Date Title
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN111883110B (zh) 语音识别的声学模型训练方法、系统、设备及介质
CN109979432B (zh) 一种方言翻译方法及装置
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN110189749A (zh) 语音关键词自动识别方法
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN114627856A (zh) 语音识别方法、装置、存储介质及电子设备
CN113192516A (zh) 语音角色分割方法、装置、计算机设备及存储介质
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN116912642A (zh) 基于双模多粒度交互的多模态情感分析方法、设备及介质
WO2021134591A1 (zh) 语音合成方法、装置、终端及存储介质
CN114758664A (zh) 语音数据筛选方法、装置、电子设备和可读存储介质
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
CN114494969A (zh) 基于多模语音信息互补与门控制的情绪识别方法
CN113327575A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN117219046A (zh) 一种交互语音情感控制方法及系统
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
CN111477212A (zh) 内容识别、模型训练、数据处理方法、系统及设备
CN115376498A (zh) 语音识别方法、模型训练方法、装置、介质、电子设备
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
CN113096646B (zh) 音频识别方法、装置、电子设备及存储介质
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination