CN111104546B - 一种构建语料库的方法、装置、计算设备及存储介质 - Google Patents

一种构建语料库的方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN111104546B
CN111104546B CN201911219713.6A CN201911219713A CN111104546B CN 111104546 B CN111104546 B CN 111104546B CN 201911219713 A CN201911219713 A CN 201911219713A CN 111104546 B CN111104546 B CN 111104546B
Authority
CN
China
Prior art keywords
sample
noise
voice
resource
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911219713.6A
Other languages
English (en)
Other versions
CN111104546A (zh
Inventor
高杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201911219713.6A priority Critical patent/CN111104546B/zh
Publication of CN111104546A publication Critical patent/CN111104546A/zh
Application granted granted Critical
Publication of CN111104546B publication Critical patent/CN111104546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供一种构建语料库的方法、装置、计算设备及存储介质,用于丰富语料库资源,提高设备检索、分析和查找的效率,提升用户体验。所述方法包括:获取样本语音资源,以及获取样本噪声资源;确定所述样本语音资源对应的语音音频特征向量,以及确定所述样本噪声资源对应的噪声音频特征向量;根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库。

Description

一种构建语料库的方法、装置、计算设备及存储介质
技术领域
本申请涉及智能语音技术领域,尤其涉及一种构建语料库的方法、装置、计算设备及存储介质。
背景技术
随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的技术手段之一。
智能语音技术,是实现人机语言交互的手段,语音交互过程中,一些基础的人机控制指令、语音识别、语音合成等都需要通过与设备预先构建的语料库进行分析比对,基于语料库进行人机控制、语音识别、语音合成。目前,语料库的一种构建方法为:通过大量志愿者进行语料录制,然后工作人员再对录制的语料信息进行采集、标注和后期维护,需要耗费大量的人力、物力和时间,以致于现有的语料库资源较为匮乏。
在实际中,人机语言交互设备被应用到各种场所,不同的场所中会存在很多干扰的声音,因此,如何在噪声环境下能够准确的执行用户的控制指令、识别语音、合成语音是目前亟待解决的技术问题。
发明内容
本申请实施例提供一种构建语料库的方法、装置、计算设备及存储介质,用于丰富语料库资源。
第一方面,提供一种构建语料库的方法,所述方法包括:
获取样本语音资源,以及获取样本噪声资源;
确定所述样本语音资源对应的语音音频特征向量,以及确定所述样本噪声资源对应的噪声音频特征向量;
根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库。
可选的,根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库,包括:
根据所述语音音频特征向量建立语音模型,以及根据所述噪声音频特征向量建立噪声模型;
将所述语音模型和所述噪声模型进行混合处理,以得到能够表征所述样本语音资源和所述样本噪声资源的第一复合语料模型;
根据所述第一复合语料模型确定所述合成语料库。
可选的,根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库,包括:
对所述语音音频特征向量和所述噪音音频特征向量进行向量运算;
根据向量运算结果建立第二复合语料模型;
根据所述第二复合语料模型确定所述合成语料库。
可选的,所述样本语音资源包括多个语音样本,所述样本噪声资源包括多个噪声样本,所述方法还包括:
确定每个语音样本对应的应用场景,以及确定每个噪声样本对应的应用场景;
根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库,包括:
将应用场景相同的语音样本和噪声样本分别对应的语音音频特征向量和噪声音频特征向量进行归类合成,以得到针对不同应用场景下的合成语料库。
可选的,确定每个语音样本对应的应用场景,以及确定每个噪声样本对应的应用场景,包括:
确定每个语音样本对应的文本内容,并根据所述每个语音样本对应的文本内容确定每个语音样本的应用场景;
确定每个噪声样本对应的环境噪声类型,并根据所述每个噪声样本对应的环境噪声类型确定每个噪声样本的应用场景。
可选的,获取样本语音资源,包括:
获取文本样本;
将所述文本样本进行语音转换,得到转换语音资源;
将所述转换语音资源确定为所述样本语音资源。
可选的,获取样本语音资源,包括:
将通过语音采集装置在消声环境下录取的语音资源确定为所述样本语音资源。
第二方面,提供一种构建语料库的装置,所述装置包括:
获取模块,用于获取样本语音资源,以及获取样本噪声资源;
第一确定模块,用于确定所述样本语音资源对应的语音音频特征向量,以及确定所述样本噪声资源对应的噪声音频特征向量;
合成模块,用于根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库。
在一种可能的设计中,所述合成模块,用于:
根据所述语音音频特征向量建立语音模型,以及根据所述噪声音频特征向量建立噪声模型;
将所述语音模型和所述噪声模型进行混合处理,以得到能够表征所述样本语音资源和所述样本噪声资源的第一复合语料模型;
根据所述第一复合语料模型确定所述合成语料库。
在一种可能的设计中,所述合成模块,用于:
对所述语音音频特征向量和所述噪音音频特征向量进行向量运算;
根据向量运算结果建立第二复合语料模型;
根据所述第二复合语料模型确定所述合成语料库。
在一种可能的设计中,所述装置还包括归类模块,用于:
确定每个语音样本对应的应用场景,以及确定每个噪声样本对应的应用场景;
根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库,包括:
将应用场景相同的语音样本和噪声样本分别对应的语音音频特征向量和噪声音频特征向量进行归类合成,以得到针对不同应用场景下的合成语料库。
在一种可能的设计中,所述装置还包括第二确定模块,用于:
确定每个语音样本对应的文本内容,并根据所述每个语音样本对应的文本内容确定每个语音样本的应用场景;
确定每个噪声样本对应的环境噪声类型,并根据所述每个噪声样本对应的环境噪声类型确定每个噪声样本的应用场景。
在一种可能的设计中,所述获取模块,用于:
获取文本样本;
将所述文本样本进行语音转换,得到转换语音资源;
将所述转换语音资源确定为所述样本语音资源。
在一种可能的设计中,所述获取模块,用于:
将通过语音采集装置在消声环境下录取的语音资源确定为所述样本语音资源。
第三方面,提供一种计算设备,所述计算设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中的任一方法包括的步骤。
第四方面,提供一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面中的任一方法包括的步骤。
第五方面,提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述各种可能的实现方式中所描述的语料库构建的方法。
在本申请实施例中,分别获取没有噪声干扰的样本语音资源和样本噪声资源,确定样本语音资源对应的语音音频特征向量和样本噪声资源对应的噪声音频特征向量,然后根据语音音频特征向量和噪声音频特征向量,按照预先设置的合成规则将样本语音资源和样本噪声资源进行合成,得到合成语料库。也就是说,通过将样本噪声资源的样本语音资源分开获取的方式,可以构建不同噪声环境下的合成语料库,提供了一种构建不同环境下的语料库的方法,在将前述得到的合成语料库应用于语料库模型训练时,可以丰富语料库资源,从而提高人机交互时智能设备检索、分析和查找的效率,提升用户的使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的构建语料库的方法的流程示意图;
图2为本申请实施例提供的构建语料库模型的方法的流程示意图;
图3a为本申请实施例提供的构建语料库的装置的结构框图;
图3b为本申请实施例提供的构建语料库的装置的另一结构框图;
图4为本申请实施例提供的计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
为了便于理解,下面先对本发明实施例的技术背景进行介绍。
如前文所述的,在语音交互过程中,一些基础的人机控制指令、语音识别、语音合成等都需要通过与设备预先构建的语料库进行分析比对,且人机语言交互设备被应用到各种场所,因此在人机交互过程中对语料库的丰富程度的需求变得越来越大,例如,当用户正在乘坐地铁时,用户需要语音控制自己的手机,但是地铁中存在很多其他人说话的声音以及其他干扰声音,此时手机可能不能准确识别用户的指令从而执行错误的操作。又例如,用户在家里需要通过语音控制空调调节温度,此时用户说出“将空调调到制冷26度”的针对空调的控制语音,在用户向空调发出语音控制指令的同时,若环境中还有其它的语音和噪音时,空调会一并采集到,即空调会采集到包括用户控制空调的语音和所有其它的音频信息,在这种情况下,除了用户发出控制空调的控制语音之外,其他的音频信息对于空调来说,都可以理解为是干扰用户的控制语音的噪声。因此,当人机语音交互时,智能语音设备对各种噪声环境下的语音识别和语音合成的检索、分析和查找效率较低,影响用户体验。
为了满足智能语音设备能够尽可能准确的识别不同噪声环境下用户的语音,进而进行检索、分析和查找的需求以及提升用户体验,本申请实施例提供了一种构建语料库的方法,该方案通过分别获取没有噪声干扰的样本语音资源和样本噪声资源,提取样本语音资源和样本噪声资源的时频特征向量,然后根据样本语音资源和样本噪声资源的时频特征向量按照预先设置的合成规则将样本语音资源和样本噪声资源进行合成,得到噪声环境下的语料库,使得语料库资源更加丰富,进而提高人机交互时智能设备检索、分析和查找的效率,提升用户的使用体验。
在介绍完本申请实施例的设计思想后,为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并行执行。
基于上述内容,本申请提供一种语料库构建的方法。该方法可以用于智能语音技术领域中进行语料库模型训练。请参见图1所示,本申请实施例中的构建语料库的方法的流程描述如下:
步骤101:获取样本语音资源。
其中,样本语音资源是指没有噪声干扰的语音资源,该语音资源可以是在不同的环境中可能说的话,也可以是针对不同的智能语音设备存在特定的语句(例如,在对智能语音设备进行唤醒时,都会预先设置一些唤醒词,当用户说这些唤醒词的时候就能够相应的唤醒智能语音设备相应的功能),还可以是不同的语言类型,以及不同的口音类型等等。
在本申请实施例中,获取样本语音资源的方式可以包括多种,为了便于理解,以下举例进行说明。
第一种获取方式
获取可能在不同环境下说的话或者针对不同智能语音设备的存在的特定语句的语音资源对应的文本样本,然后通过从文本到语音(Text To Speech,TTS)方式,将文本样本进行语音转换,并将通过文本样本转换成的语音资源确定为样本语音资源。
在一种可能的实施方式中,例如,对于小度机器人,每次需要跟小度进行语音交互时,都需要先将小度唤醒,小度机器人设置的唤醒词是“小度,小度”,那么我们可以从系统本地存储的文字,或者互联网上存在的文字,或者通过键盘输入的文字中获取关于“小度,小度”的文本资源,然后将获取到的文本资源通过TTS方式转换成语音资源。
在本申请实施例中,通过将文本文字资源转换成语音资源的形式可以直接避免得到的语音资源中存在其它的干扰,提升获取样本语音资源的效率。
第二种获取方式
通过语音采集装置在消声室环境下录取需要的语音资源,其中,需要的语音资源可以是在不同的环境中可能说的话,也可以是针对不同的智能语音设备存在特定的语句,还可以是不同的语言类型,以及不同的口音类型等等,将在消声室环境下通过语音采集装置录取的语音资源确定为样本语音资源。
在一种可能的实施方式中,在通过语音采集装置录入语音资源时,同一句话除了以普通话的形式进行录入之外,还可以录入每个地方的方言,例如,四川话、河南话、陕西话、广东话等等;也可以录入各个少数民族的民族语言,例如,藏语、蒙语、客家语等等。
在本申请实施例中,通过在消声室环境进行语音资源录制可以避免语音录入时存在其它的干扰,同时,由于可以将同一句话根据口音类型录入多种类型的版本,丰富样本语音资源,使得普通话不标准的人群可以用本地方的方言进行语音交互,提升用户的体验。
第三种获取方式
获取本地存储的或者网络中已有的语音资源,其中,本地存储是指本地语音库中存储的语音资源,网络中已有的是指网络上的音频、视频节目等语音资源,获取网络上的语音资源的方式可通过网络爬虫爬取,但是由于网络上获取的语音资源中存在其它干扰,因此需要对从网络上爬取到的语音资源进行预处理,去除噪声和背景杂音,以获得没有噪声干扰的语音资源,将预处理后的语音资源确定为赝本语音资源。
在本申请实施例中,从本地存储的或者网络上已有的语音资源中确定样本语音资源的方式简单,确定出的样本语音资源丰富,获取样本语音资源的效率高。
步骤102:获取样本噪声资源。
其中,样本噪声资源是指不同环境下的噪声,采集到的样本噪声可以是办公室环境下的噪声、工厂车间环境下的噪声、地铁环境下的噪声、饭店环境下的噪声、公路环境下的噪声、沙滩上海浪的噪声,下雨天的雨声,等等,本申请实施例不做限制。
在一种可能的实施方式中,样本噪声资源的来源可以是本地存储的语音资源的中的噪声和背景杂音,也可以是网络上的有声资源(例如,网络上的音频、视频节目等)中的噪声和背景杂音,也可以是通过声音采集装置去不同的环境中采集的声音资源,还可以是通过一些特定的设备模拟出的各种噪声资源,等等,本申请实施例限制。
步骤103:获取样本语音资源对应的语音音频特征向量和样本噪声资源对应的噪声音频特征向量。
其中,音频特征向量(例如也可以称作是信号的时频特征向量)是指包含信号的振幅、频率、周期、基音等特性的特征,用于表征信号特征。在一种可能的实施方式中,当获取到样本语音资源之后,对样本语音资源进行分析处理,确定样本语音资源对应的语音时频特征向量,以及获取到样本噪声资源之后,分别针对不同的噪声进行分析处理,确定样本噪声资源对应的噪声时频特征向量。在另一种可能的实施方式中,获取样本语音资源和样本噪声资源后,再分别对样本语音资源和样本噪声资源进行分析处理,确定样本语音资源对应的语音时频特征向量和样本噪声资源对应的噪声时频特征向量。在本申请实施例中不对获取样本语音资源和样本噪声资源,以及确定样本语音资源对应的语音音频特征向量和确定样本噪声资源对应的噪声音频特征向量的顺序进行限定。
在具体的实施过程中,由于不同的噪声信号的振幅、基频、周期都会存在差异,而且信号的能量也会存在明显的差异,因此根据不同的噪声资源得到的噪声时频特征向量也不相同,这样,可以通过样本语音资源和样本噪声资源的时频特征向量对样本语音资源和样本噪声资源进行合成。
步骤104:根据语音音频特征向量和噪声音频特征向量,按照预设合成规则将样本噪声资源和样本语音资源进行合成,以得到合成语料库。
其中,预设合成规则是指将样本语音资源和样本噪声资源进行合成的方式,在获取到与样本语音资源和样本噪声资源的时频特征向量之后,根据样本语音资源和样本噪声资源的时频特征向量,按照预设的合成方式进行合成,得到样本噪声环境下的语料库。
在一种可能的实施方式中,请参见图2所示,根据样本语音资源获取的语音音频特征向量,例如也可以称作是第一时频特征向量,根据样本噪声资源获取的噪声音频特征向量,例如也可以称作是第二时频特征向量,根据第一时频特征向量建立语音模型,用获取到的样本语音资源训练语音模型,以及根据第二时频特征向量建立噪声模型,用获取到的不同的样本噪声资源训练噪声模型;然后对训练之后的语音模型和噪声模型按照特定的模型合成方式进行混合处理,得到能够表征样本语音资源和样本噪声资源的第一复合语料模型,并将第一复合语料模型确定为合成语料库,存入语料模型库中丰富语料库。
在一种可能的实施方式中,根据样本语音资源获取的语音音频特征向量,例如可以称作是第一时频特征向量,根据样本噪声资源获取的噪声音频特征向量,例如可以称作是第二时频特征向量;然后对第一时频特征向量和第二时频特征向量按照特定的运算方式进行向量运算,根据向量运算结果建立能够表征样本语音资源和样本噪声资源的第二复合语料模型,并将第二复合语料模型确定为合成语料库,存入语料模型库中丰富语料库。
在本申请实施例中,通过将分别获取的样本语音资源和样本噪声资源按照预设合成规则进行合成,可以使得一个语音资源对应多个噪声环境,从而当用户在跟智能语音设备进行语音交互时,当用户处于具有不同噪声的不同环境中,智能语音设备能够准确的从不同的噪声中识别出用户的语音,然后根据用户的语音进行检索、分析和查找,提升人机语音交互的有效性,以及提升用户的使用体验。
在其他的实施例中,由于获取的样本语音资源包括多个语音样本,且获取的样本噪声资源也包括多个噪声样本,当获取到样本语音资源和样本噪声资源之后,可以根据样本语音资源,确定每个语音样本对应的应用场景,例如可以称作是第一应用场景,同样,也可以根据样本噪声资源,确定每个噪声样本可能是什么环境下的噪声,即确定每个噪声样本对应的应用场景,例如可以称作是第二应用场景,然后在根据语音音频特征向量和噪声音频特征向量,按照预设合成规则将样本噪声资源和样本语音资源进行合成,以得到合成语料库时,确定第一应用场景和第二应用场景中相同的应用场景,并将应用场景相同的语音样本和噪声样本分别对应的语音音频特征向量和噪声音频特征向量进行归类合成,以得到针对不同应用场景下的合成语料库。
在一种可能的实施方式中,确定每个语音样本对应的文本内容,对该文本内容进行语义分析,根据语义分析结果确定出每个语音样本对应的第一应用场景,以及确定每个噪声样本对应的环境噪声类型,并根据每个噪声样本对应的环境噪声类型确定出每个噪声样本对应的第二应用场景。
在具体的实施过程中,例如,对语音样本对应的文本内容进行语义分析,得出的结果是调节空调温度,由于用户跟空调的交互一般发生在室内,可以是家里、办公室、咖啡厅等环境,家里可能存在的噪声有电视机的声音、洗衣机洗衣服的声音、家人聊天的声音等等,办公室里可能存在的噪声有敲击键盘的声音、打电话的声音、人走动发出的声音等等,咖啡厅里可能存在的噪声有咖啡机打磨咖啡豆的声音、客人聊天的声音、服务员的声音等等,因此,可以将室内可能存在的噪声类型对应的样本噪声资源和用户与空调交互的样本语音资源进行归类。
在本申请实施例中,通过将样本语音资源可能的应用场景和样本噪声资源可能的应用场景进行归类,使得人机语音交互时,智能语音设备可以缩小检索范围,提升检索效率。
基于同一发明构思,本申请实施例提供了一种构建语料库的装置,该构建语料库的装置能够实现前述的构建语料库的方法对应的功能。该构建语料库的装置可以是硬件结构、软件模块、或者硬件结构加软件模块。该构建语料库的装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图3a所示,该构建语料库的装置包括获取模块301、第一确定模块302、合成模块303。其中:
获取模块301,用于获取样本语音资源,以及获取样本噪声资源;
第一确定模块302,用于确定样本语音资源对应的语音音频特征向量,以及确定样本噪声资源对应的噪声音频特征向量;
合成模块303,用于根据语音音频特征向量和噪声音频特征向量,按照预设合成规则将样本噪声资源和样本语音资源进行合成,以得到合成语料库。
在一种可能的实施方式中,合成模块303,用于:
根据语音音频特征向量建立语音模型,以及根据噪声音频特征向量建立噪声模型;
将语音模型和噪声模型进行混合处理,以得到能够表征样本语音资源和样本噪声资源的第一复合语料模型;
根据第一复合语料模型确定合成语料库。
在一种可能的实施方式中,合成模块303,用于:
对语音音频特征向量和噪音音频特征向量进行向量运算;
根据向量运算结果建立第二复合语料模型;
根据第二复合语料模型确定合成语料库。
在一种可能的实施方式中,请参见图3b所示,本申请实施例中的构建语料库的装置还包括归类模块304,用于:
确定每个语音样本对应的应用场景,以及确定每个噪声样本对应的应用场景;
根据语音音频特征向量和噪声音频特征向量,按照预设合成规则将样本噪声资源和样本语音资源进行合成,以得到合成语料库,包括:
将应用场景相同的语音样本和噪声样本分别对应的语音音频特征向量和噪声音频特征向量进行归类合成,以得到针对不同应用场景下的合成语料库。
在一种可能的实施方式中,请参见图3b所示,本申请实施例中的构建语料库的装置还包括第二确定模块305,用于:
确定每个语音样本对应的文本内容,并根据每个语音样本对应的文本内容确定每个语音样本的应用场景;
确定每个噪声样本对应的环境噪声类型,并根据每个噪声样本对应的环境噪声类型确定每个噪声样本的应用场景。
在一种可能的实施方式中,获取模块301,用于:
获取文本样本;
将文本样本进行语音转换,得到转换语音资源;
将转换语音资源确定为样本语音资源。
在一种可能的实施方式中,获取模块301,用于:
将通过语音采集装置在消声环境下录取的语音资源确定为样本语音资源。
前述的构建语料库的方法的实施例涉及的各步骤的所有相关内容均可援引到本申请施例中的构建语料库的装置所对应的功能模块的功能描述,在此不再赘述。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本申请实施例提供一种计算设备。请参见图4所示,该计算设备包括至少两个处理器401,以及与至少两个处理器连接的存储器402,本申请实施例中不限定处理器401与存储器402之间的具体连接介质,图4中是以处理器401和存储器402之间通过总线400连接为例,总线400在图4中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线400可以分为地址总线、数据总线、控制总线等,为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本申请实施例中的计算设备还可以包括通信接口403,该通信接口403例如是网口,计算设备可以通过该通信接口403接收数据或者发送数据。
在本申请实施例中,存储器402存储有可被至少两个处理器401执行的指令,至少两个处理器401通过执行存储器402存储的指令,可以执行前述的构建语料库的方法中所包括的步骤。
其中,处理器401是计算设备的控制中心,可以利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据,计算设备的各种功能和处理数据,从而对计算设备进行整体监控。可选的,处理器401可包括一个或多个处理单元,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。在一些实施例中,处理器401和存储器402可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器401可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的构建语料库的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器401进行设计编程,可以将前述实施例中介绍的构建语料库的方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的构建语料库的方法的步骤,如何对处理器401进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的构建语料库的方法的步骤。
在一些可能的实施方式中,本申请提供的构建语料库的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的构建语料库的方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种构建语料库的方法,其特征在于,所述方法包括:
获取样本语音资源,以及获取样本噪声资源;
确定所述样本语音资源对应的语音音频特征向量,以及确定所述样本噪声资源对应的噪声音频特征向量;
根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库;
其中,所述样本语音资源包括多个语音样本,所述样本噪声资源包括多个噪声样本,所述方法还包括:
确定每个语音样本对应的文本内容,并根据所述每个语音样本对应的文本内容确定每个语音样本的应用场景;
确定每个噪声样本对应的环境噪声类型,并根据所述每个噪声样本对应的环境噪声类型确定每个噪声样本的应用场景;
根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库,包括:
将应用场景相同的语音样本和噪声样本分别对应的语音音频特征向量和噪声音频特征向量进行归类合成,以得到针对不同应用场景下的合成语料库。
2.根据权利要求1所述的方法,其特征在于,根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库,包括:
根据所述语音音频特征向量建立语音模型,以及根据所述噪声音频特征向量建立噪声模型;
将所述语音模型和所述噪声模型进行混合处理,以得到能够表征所述样本语音资源和所述样本噪声资源的第一复合语料模型;
根据所述第一复合语料模型确定所述合成语料库。
3.根据权利要求1所述的方法,其特征在于,根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库,包括:
对所述语音音频特征向量和所述噪声音频特征向量进行向量运算;
根据向量运算结果建立第二复合语料模型;
根据所述第二复合语料模型确定所述合成语料库。
4.根据权利要求1-3任一所述的方法,其特征在于,获取样本语音资源,包括:
获取文本样本;
将所述文本样本进行语音转换,得到转换语音资源;
将所述转换语音资源确定为所述样本语音资源。
5.根据权利要求1-3任一所述的方法,其特征在于,获取样本语音资源,包括:
将通过语音采集装置在消声环境下录取的语音资源确定为所述样本语音资源。
6.一种构建语料库的装置,其特征在于,所述装置包括:
获取模块,用于获取样本语音资源,以及获取样本噪声资源;
第一确定模块,用于确定所述样本语音资源对应的语音音频特征向量,以及确定所述样本噪声资源对应的噪声音频特征向量;
合成模块,用于根据所述语音音频特征向量和所述噪声音频特征向量,按照预设合成规则将所述样本噪声资源和所述样本语音资源进行合成,以得到合成语料库;
其中,所述样本语音资源包括多个语音样本,所述样本噪声资源包括多个噪声样本,所述装置还包括:
第二确定模块,用于确定每个语音样本对应的文本内容,并根据所述每个语音样本对应的文本内容确定每个语音样本的应用场景;
所述第二确定模块,还用于确定每个噪声样本对应的环境噪声类型,并根据所述每个噪声样本对应的环境噪声类型确定每个噪声样本的应用场景;
所述合成模块,具体用于将应用场景相同的语音样本和噪声样本分别对应的语音音频特征向量和噪声音频特征向量进行归类合成,以得到针对不同应用场景下的合成语料库。
7.一种计算设备,其特征在于,所述计算设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-5任一所述的方法包括的步骤。
8.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1-5任一所述的方法包括的步骤。
CN201911219713.6A 2019-12-03 2019-12-03 一种构建语料库的方法、装置、计算设备及存储介质 Active CN111104546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911219713.6A CN111104546B (zh) 2019-12-03 2019-12-03 一种构建语料库的方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911219713.6A CN111104546B (zh) 2019-12-03 2019-12-03 一种构建语料库的方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN111104546A CN111104546A (zh) 2020-05-05
CN111104546B true CN111104546B (zh) 2021-08-27

Family

ID=70420873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911219713.6A Active CN111104546B (zh) 2019-12-03 2019-12-03 一种构建语料库的方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN111104546B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114936555B (zh) * 2022-05-24 2023-06-06 内蒙古自治区公安厅 一种对蒙语进行ai智能标注的方法及其系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514878A (zh) * 2012-06-27 2014-01-15 北京百度网讯科技有限公司 声学建模方法及装置和语音识别方法及装置
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN106875949A (zh) * 2017-04-28 2017-06-20 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
CN107146622A (zh) * 2017-06-16 2017-09-08 合肥美的智能科技有限公司 冰箱、语音交互系统、方法、计算机设备、可读存储介质
CN109903748A (zh) * 2019-02-14 2019-06-18 平安科技(深圳)有限公司 一种基于自定义语音库的语音合成方法及装置
CN110232129A (zh) * 2019-06-11 2019-09-13 北京百度网讯科技有限公司 场景纠错方法、装置、设备和存储介质
CN110264992A (zh) * 2019-06-11 2019-09-20 百度在线网络技术(北京)有限公司 语音合成处理方法、装置、设备和存储介质
CN110413769A (zh) * 2018-04-25 2019-11-05 北京京东尚科信息技术有限公司 场景分类方法、装置、存储介质及其电子设备
CN110428835A (zh) * 2019-08-22 2019-11-08 深圳市优必选科技股份有限公司 一种语音设备的调节方法、装置、存储介质及语音设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005055196A2 (en) * 2003-12-05 2005-06-16 Koninklijke Philips Electronics N.V. System & method for integrative analysis of intrinsic and extrinsic audio-visual data

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514878A (zh) * 2012-06-27 2014-01-15 北京百度网讯科技有限公司 声学建模方法及装置和语音识别方法及装置
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN106875949A (zh) * 2017-04-28 2017-06-20 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
CN107146622A (zh) * 2017-06-16 2017-09-08 合肥美的智能科技有限公司 冰箱、语音交互系统、方法、计算机设备、可读存储介质
CN110413769A (zh) * 2018-04-25 2019-11-05 北京京东尚科信息技术有限公司 场景分类方法、装置、存储介质及其电子设备
CN109903748A (zh) * 2019-02-14 2019-06-18 平安科技(深圳)有限公司 一种基于自定义语音库的语音合成方法及装置
CN110232129A (zh) * 2019-06-11 2019-09-13 北京百度网讯科技有限公司 场景纠错方法、装置、设备和存储介质
CN110264992A (zh) * 2019-06-11 2019-09-20 百度在线网络技术(北京)有限公司 语音合成处理方法、装置、设备和存储介质
CN110428835A (zh) * 2019-08-22 2019-11-08 深圳市优必选科技股份有限公司 一种语音设备的调节方法、装置、存储介质及语音设备

Also Published As

Publication number Publication date
CN111104546A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN109002510B (zh) 一种对话处理方法、装置、设备和介质
CN111161725B (zh) 一种语音交互方法、装置、计算设备及存储介质
CN111081217B (zh) 一种语音唤醒方法、装置、电子设备及存储介质
CN109871483A (zh) 一种推荐信息的确定方法及装置
CN106503184B (zh) 确定目标文本所属业务类别的方法及装置
CN109920409B (zh) 一种声音检索方法、装置、系统及存储介质
US20230259712A1 (en) Sound effect adding method and apparatus, storage medium, and electronic device
CN111144128A (zh) 语义解析方法和装置
CN107908743B (zh) 人工智能应用构建方法和装置
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置
CN110349569A (zh) 定制化产品语言模型的训练和识别方法及装置
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN109637536A (zh) 一种自动化识别语义准确性的方法及装置
CN111104546B (zh) 一种构建语料库的方法、装置、计算设备及存储介质
CN111373473A (zh) 一种电子设备进行语音识别方法及电子设备
CN113889086A (zh) 语音识别模型的训练方法、语音识别方法及相关装置
CN108280118A (zh) 文本播读方法、装置及客户端、服务器和存储介质
CN114783423A (zh) 基于语速调整的语音切分方法、装置、计算机设备及介质
CN114461749A (zh) 对话内容的数据处理方法、装置、电子设备和介质
CN114566156A (zh) 一种关键词的语音识别方法及装置
CN114333772A (zh) 语音识别方法、装置、设备、可读存储介质及产品
CN112882937A (zh) 测试用例的处理方法、装置、计算机设备及存储介质
CN112951274A (zh) 语音相似度确定方法及设备、程序产品
CN113053352A (zh) 基于大数据平台的语音合成方法、装置、设备及存储介质
CN114625922A (zh) 一种构建词库的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant