CN111048065B - 文本纠错数据生成方法及相关装置 - Google Patents

文本纠错数据生成方法及相关装置 Download PDF

Info

Publication number
CN111048065B
CN111048065B CN201911312055.5A CN201911312055A CN111048065B CN 111048065 B CN111048065 B CN 111048065B CN 201911312055 A CN201911312055 A CN 201911312055A CN 111048065 B CN111048065 B CN 111048065B
Authority
CN
China
Prior art keywords
text
noise
voice
convolution layer
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911312055.5A
Other languages
English (en)
Other versions
CN111048065A (zh
Inventor
邓颖
牛成
张金超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911312055.5A priority Critical patent/CN111048065B/zh
Publication of CN111048065A publication Critical patent/CN111048065A/zh
Application granted granted Critical
Publication of CN111048065B publication Critical patent/CN111048065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了文本纠错数据生成方法及装置,本方案直接在获得文本纠错数据的源头制造偏差,即将文本转换成语音的过程中添加各种噪声干扰,得到各类非标准语音信号,再将各个非标准语音信号转换成文本得到文本纠错样本。这种方式最大程度地还原了真实应用场景中错误文本产生的全过程,从发音的角度模拟用户说话是存在的各种致错因素,因此,该方案得到的文本纠错样本更符合实际应用场景,更符合真实的错误数据分布情况。此外,该方案不需要人工操作,因此节省了大量人力成本,而且提高了获得文本纠错样本的效率。

Description

文本纠错数据生成方法及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及文本纠错数据生成方法及相关装置。
背景技术
随着语音识别技术(Automatic Speech Recognition,ASR)快速发展,ASR技术已经广泛应用到多个领域中具有人机交互功能的设备,例如,各种语音识别系统,如智能音箱、智能终端设备的语音输入法、人机交互系统等。
在语音识别系统中由于用户发音不标准或者设备的ASR识别误差导致语音识别得到的文本错误。文本纠错的目的是识别转换得到的文本中的错误片段,并给出正确的文本内容。无论是基于规则进行文本纠错还是基于深度学习方法进行文本纠错,都需要大量标注的文本纠错数据,然后利用这些标注数据训练深度学习模型或建立错误识别规则。其中,文本纠错数据是指包含错误片段的文本数据。
目前的文本纠错数据获取方法主要包括以下两种:一种是采集线上系统中记录的用户数据,然后对这些用户数据进行人工标注得到包含错误的文本,即文本纠错数据;但是,此种方式依赖人工标注来筛选错误样本,并提供该错误样本对应的正确文本内容,人力成本高且存在用户隐私泄漏的风险。另一种是基于已有的正常语料库,通过增、删、同音字替换、字词序颠倒等人为操作产生文本纠错数据。这种方式无法保证人造错误符合设备语音识别系统的误差分布,从而影响后续纠错模块与前面语音识别模块的性能耦合。
发明内容
有鉴于此,本申请提供了文本纠错数据生成方法,能够自动生成文本纠错样本数据,无需人工操作因此效率高且样本数据不会影响纠错模块与语音识别模块的性能耦合。
为实现上述目的,一方面,本申请提供了一种文本纠错数据生成方法,包括:获取正确的标准文本;
在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,所述高级属性特征包括音色、声调、清晰度、口音中的至少一种;
将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本。
在一种可能的实现方式中,在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,包括:
对所述标准文本进行编码得到文本向量;
在将所述文本向量转换得到语音频谱的过程中添加所述噪声数据,得到加噪后的语音频谱;
将所述加噪后的语音频谱转换为对应的语音信号,得到所述非标准语音信号。
在一种可能的实现方式中,在将所述文本向量转换得到语音频谱的过程中添加所述噪声数据,得到加噪后的语音频谱,包括:
将所述文本向量转换得到语音频谱;
在从所述语音频谱中提取语音频谱在高级属性层次上的特征表示得到高级语音属性特征的过程中,加入噪声数据得到加噪特征向量;
将所述加噪特征向量与转换得到的语音频谱叠加,得到加噪后的语音频谱。
在一种可能的实现方式中,在将所述文本向量转换得到语音频谱的过程中添加所述噪声数据,得到加噪后的语音频谱,包括:
基于语音合成模型的语音频谱转换模块将所述文本向量转换得到语音频谱;
基于所述语音合成模型中包含多个卷积层的后处理模块,对所述语音频谱进行处理,对于任一个卷积层,将该卷积层处理得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,并将该加噪特征向量输入至下一个卷积层;
将最后一级卷积层输出的加噪特征向量与转换得到的语音频谱叠加,得到加噪后的语音频谱。
在一种可能的实现方式中,所述方法还包括:
分别调整输入至各个卷积层的噪声数据,得到包含不同语音属性特征的语音频谱。
在一种可能的实现方式中,每一个卷积层对应的噪声数据为一维的噪声数据;
所述对于任一个卷积层,将该卷积层处理得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,包括:
对于任一个卷积层,将该卷积层处理得到的特征向量中的每一维数据均与该卷积层对应的一维噪声数据叠加,得到该层卷积层对应的加噪特征向量;
或者,每一个卷积层对应的噪声数据为与该卷积层输出的特征向量的维数相同的噪声矩阵;
对于任一个卷积层,将该卷积层输出的特征向量中的每一个数据与该卷积层对应的噪声矩阵中相同位置的数据叠加,得到该卷积层对应的加噪特征向量。
在一种可能的实现方式中,所述将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本,包括:
从所述非标准语音信号转换得到的多个文本中,删除与所述标准文本相同的文本,得到所述文本纠错负样本。
另一方面,本发明还提供了一种文本纠错数据生成装置,包括:
文本获取模块,用于获取正确的标准文本;
非标准语音合成模块,用于在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,所述高级属性特征包括音色、声调、清晰度、口音中的至少一种;
语音转换模块,用于将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本。
又一方面本发明还提供了一种服务器,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取正确的标准文本;
在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,所述高级属性特征包括音色、声调、清晰度、口音中的至少一种;
将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本。
再一方面,本发明还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一种可能的实现方式所述的文本纠错数据生成方法。
本发明提供的文本纠错数据生成方法,依据正确的标准文本,将标准文本转换成语音信号,且在转换过程中添加噪声数据改变语音信号的高级属性特征,得到至少一个非标准语音信号。再将每个非标准语音信号转换成本文得到与标准文本对应的文本纠错负样本。文本纠错数据本身就是用来表示语音转文本的过程中包含错误的文本数据,因此,本方案直接在获得文本纠错数据的源头制造偏差,即将文本转换成语音的过程中添加各种噪声干扰,得到各类非标准语音信号,再将各个非标准语音信号转换成相应的文本从而得到标准文本对应的文本纠错样本。这种方式最大程度地还原了真实应用场景中错误文本产生的全过程,从发音的角度模拟用户说话是存在的各种致错因素,因此,该方案得到的文本纠错样本更符合实际应用场景,更符合真实的错误数据分布情况。此外,该方案不需要人工操作,因此节省了大量人力成本,而且提高了获得文本纠错样本的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的一种文本纠错数据生成方法的流程图;
图2示出了本发明实施例提供的另一种文本纠错数据生成方法的流程图;
图3示出了本发明实施例提供的Tacorton2模型中后处理模块的原始模型结构和改进后的结构示意图;
图4示出了本发明实施例提供的一种文本纠错数据生成装置的结构示意图;
图5示出了本发明实施例提供的一种非标准语音合成模块的结构示意图;
图6示出了本发明实施例提供的另一种文本纠错数据生成装置的结构示意图;
图7示出了本发明实施例提供的一种服务器的结构示意图。
具体实施方式
相关技术中,一种获取文本纠错数据的方法是采集线上系统中记录的用户数据,然后对这些用户数据进行人工标注得到包含错误的文本此种方式依赖人工标注来筛选错误样本,并提供该错误样本对应的正确文本内容,人力成本高且存在用户隐私泄漏的风险。另一种获取文本纠错数据的方法是基于已有的正常语料库,通过增、删、同音字替换、字词序颠倒等人为操作产生文本纠错数据。这种方式无法保证人造错误符合设备语音识别系统的误差分布。相关技术中还有一种获取文本纠错数据的方法,直接在ASR环节添加背景噪声,这种方式是在已有语音信号的基础上叠加背景噪声,但是叠加的背景噪声无法改变语音信号的高级属性特征,如音色、声调、情感、口音等,得到的文本纠错数据的错误类型比较单一且不可控。而且,背景噪声添加和语音波形变形(如加速或减速)通常被用于ASR模型训练中的数据增强手段,因此,ASR模型本身对背景噪声具有较好的鲁棒性,因此,这种方案的效果并不明显。
为了解决上述的传统的获取文本纠错数据方案存在的问题,本发明提供了文本纠错数据生成方法,该方法直接在获得文本纠错数据的源头制造偏差,即将文本转换成语音的过程中添加各种噪声干扰,得到各类非标准语音信号,再将各个非标准语音信号转换成文本得到文本纠错样本。这种方式能够保证得到的文本纠错样本更符合实际应用场景,而且文本纠错样本的充足性和多样性符合误差分布。此外,该方案不需要人工操作,因此节省了大量人力成本,而且提高了获得文本纠错样本的效率。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,示出了本发明实施例提供的一种文本纠错数据生成方法的流程图,该方法应用于服务器端,如图1所示该方法主要包括以下步骤:
S110,获取正确的标准文本。
正确的标准文本可以从已有的正常的语料库中获得,正常的语料库中存储不包含错误的正确文本。可以从正常的语料库中获取任意一条正确文本作为正样本。
S120,在将标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号。
利用语音合成技术将文本合成语音,并在合成语音的过程中添加噪声数据从而改变语音信号的高级属性特征,其中,该高级属性特征是指语音信号在高级属性层次上的特征表示,例如可以包括音色、声调、清晰度、口音等至少一种。当然,高级属性特征还可以包括除上述特征之外的其它特征。
例如,语音合成技术可以采用Tacorton2模型、Tacorton模型,以及,传统的线性预测编码(linear predictive coding,LPC)语音合成技术、基于幅度对数估计(LogMagnitude Approximate,LMA)声道模型的语音合成技术等,或模型类的WaveNet模型、Char2Wav模型等。
需要说明的是,采用的语音合成模型的网络结构不同,添加噪声数据的网络层可能不同,具体在哪个网络层添加噪声数据由语音合成模型的网络结构决定。
S130,将每个非标准语音信号转换成对应的文本,得到与标准文本对应的文本纠错负样本。
然后,利用ASR技术将转换得到的各个非标准语音信号转换成对应的文本,从而得到标准文本对应的文本纠错负样本。
在一种应用场景中,在利用ASR技术将S120中转换得到的非标准语音信号转换为文本时,可能存在转换得到的文本与标准文本相同的情况,这种情况下,需要将与标准文本相同的文本删除,只保留与标准文本不同的文本得到文本纠错负样本。
在得到标准文本对应的文本纠错负样本后,将该标准文本及各个文本纠错负样本组成纠错文本对,以便后续用于训练语音识别系统。
本实施例提供的文本纠错数据生成方法,直接在获得文本纠错数据的源头制造偏差,即将文本转换成语音的过程中添加各种噪声干扰,得到各类非标准语音信号,再将各个非标准语音信号转换成文本得到文本纠错样本。这种方式最大程度地还原了真实应用场景中错误文本产生的全过程,从发音的角度模拟用户说话是存在的各种致错因素,因此,该方案得到的文本纠错样本更符合实际应用场景,更符合真实的错误数据分布情况。此外,该方案不需要人工操作,因此节省了大量人力成本,而且提高了获得文本纠错样本的效率。
请参见图2,示出了本发明实施例提供的另一种文本纠错数据生成方法的流程图,本实施例将以能够直接将文本合成语音的语音合成神经网络架构为例着重介绍在利用语音合成模型得到语音频谱的过程中添加噪声数据的具体过程。如图2所示,该方法包括以下步骤:
S210,获取正确的标准文本。
S220,对标准文本进行编码得到文本向量。
S230,在将文本向量转换得到语音频谱的过程中添加噪声数据,得到加噪后的语音频谱。
在依据标准文本的文本向量得到对应的语音频谱的过程中添加噪声数据,即在语音合成网络模型的中间层输入噪声数据来影响生成的语音的局部高级属性,如音色、声调、清晰度、口音等,从而得到非标准朗读水平的语音信号,即非标准语音信号。
在一种可能的实现方式中,可以先将标准文本对应的文本向量转换得到语音频谱,然后,在从语音频谱中提取语音频谱的高级属性特征的过程中加入噪声数据,得到加噪特征向量;再将该加噪特征向量与转换得到的语音频谱叠加得到加噪后的语音频谱。
在本发明的一个实施例中,噪声数据可以随机生成,例如,可以根据随机数生成。
需要说明的是,通过调整噪声数据的数值能够改变最终合成的语音信号的高级属性特征,从而实现对人类发音中的各种情形的模拟。
S240,将加噪后的语音频谱转换为对应的语音信号,得到非标准语音信号。
在本发明的一个实施例中,可以利用声码器将语音频谱转换为语音波形。
下面以Tacotron2模型为例说明在语音合成过程中添加噪声的过程:
Tacotron2模型主要包括两部分,一部分是引入注意力机制的基于循环seq2seq的特征提取网络,该网络用于从输入的文本序列得到对应的梅尔频谱帧序列。另一部分是修正后的WaveNet网络,用于将得到的梅尔频谱帧序列合成时域波形,即语音波形。
其中,引入注意力机制的基于循环的seq2seq网络包括编码器和引入注意力机制的解码器;其中,首选需要将输入的字符序列(即标准文本)编码成预设维数(如,512维)的字符向量,然后利用编码器将输入的字符向量转化为能够表征文本在高级属性特征的特征向量。基于注意力机制的解码器利用该特征向量预测得到语音频谱图。其中,注意力机制的作用是要将充分编码的序列变为固定长度的向量。
在Tacotron2模型中,语音频谱的预测首先通过一个包含2个全连接层的pre-net,pre-net的输出和上述的语境向量被串联起来通过一个2层的单向LSTM层。2层级联LSTM的输出和语境向量通过线性转换来预测语音频谱。最终预测的语音频谱要通过一个后处理模块post-net,该后处理模块包括5层卷积层。
在本实施例中,噪声数据添加至后处理模块post-net的至少个卷积层中,如图3所示,左侧为原始模型中的post-net的结构,右侧为改进后的post-net的结构。
由图3可见,改进后的post-net在每个卷积层的输出添加了噪声输入。对于每一个卷积层,在每个卷积层后叠加噪声数据,即将该卷积层处理后的特征向量与输入至该卷积层的噪声数据相叠加,从而得到加噪特征向量。再将该加噪特征向量作为下一层卷积层的输入进行处理。最后一层卷积层输出得到的加噪特征向量加入至前面模块得到的语音频谱中,最终得到加噪后的语音频谱。
在本发明一种可能的实现方式中,噪声数据是一个随机噪声数据即一维数据,而语音频谱的高级属性特征是一个多维向量矩阵。因此,这种情况下,可以将语音频谱的高级属性特征对应的多维向量矩阵中每个数据均与该随机噪声数据叠加得到加噪特征向量。此种方式,对于该高级属性特征向量中的每一维的数据,所叠加的噪声数据相同,而且调节幅度也相同,调节参数少,操作简单。
例如,随机噪声数据是0.09、某一层卷积层输出的特征向量是一个256*128维的向量矩阵,则256*128维的向量矩阵中的每一个数据都叠加0.09得到一个新的256*128维的向量矩阵。
在本发明另一种可能的实现方式中,噪声数据是一个与语音频谱的高级属性特征的矩阵维数相同的噪声矩阵,且噪声矩阵内不同位置的数值可以不相同。将该高级属性特征中的每一个数据与噪声矩阵中相同位置的噪声数据叠加得到加噪特征向量。该实现方式能够更精确地调整噪声数据,从而达到精细调整最终合成的语音信号的高级属性特征的目的。
例如,某一个卷积层输出的特征向量是一个256*128维的向量矩阵,则噪声数据也是256*128维的矩阵。例如,特征向量中的数据aij与噪声矩阵的bij叠加得到加噪后的向量数据。其中,1≤i≤256,1≤j≤128。
需要说明的是,可以综合调节各个卷积层后叠加的噪声数据,可以生成包含不同语音属性特征的语音频谱,基于这些包含不同语音属性特征的语音频谱能够得到不同语音效果的语音信号。
例如,在一种可能的情况下,某个卷积层后叠加的噪声数据调至0,此时相当于该层卷积层不叠加噪声数据。
S250,将每个非标准语音信号转换成对应的文本,得到与标准文本对应的文本纠错负样本。
本实施例提供的文本纠错数据生成方法,在依据标准文本的特征向量转换得到语音频谱的过程中添加噪声数据,从而影响最终合成的语音信号的高级属性特征,最终实现对人类发音中的各种情形的模拟。该方案最大程度地还原了真实应用场景中错误文本产生的全过程,从发音的角度模拟用户说话是存在的各种致错因素,因此,该方案得到的文本纠错样本更符合实际应用场景,更符合真实的错误数据分布情况。
此外,该方案基于直接将文本合成语音的语音合成神经网络架构实现,此种语音合成网络架构输入文本能够直接输出语音频谱,不需要对语音和文本的局部对应关系进行单独处理,降低了网络架构的复杂度。
相应于上述的文本纠错数据生成方法实施例,本发明还提供了文本纠错数据生成装置实施例。
请参见图4,示出了本发明实施例提供的一种文本纠错数据生成装置的结构示意图,该装置应用于服务器中,该装置用于依据正确的标准文本自动生成包含错误的文本纠错样本。如图4所示,该装置包括:文本获取模块110、非标准语音合成模块120和语音转换模块130。
文本获取模块110,用于获取正确的标准文本。
非标准语音合成模块120,用于在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号。
利用语音合成技术将文本合成语音,并在合成语音的过程中添加噪声数据从而改变语音信号的高级属性特征。其中,所述高级属性特征包括音色、声调、清晰度、口音等。
在本发明的一个实施例中,如图5所示,非标准语音合成模块120可以包括:编码子模块121、噪声添加子模块122和语音波形合成子模块123。
编码子模块121,用于对所述标准文本进行编码得到文本特征向量。
噪声添加子模块122,用于在将所述文本向量转换得到语音频谱的过程中添加所述噪声数据,得到加噪后的语音频谱。
在依据文本向量得到对应的语音频谱的过程中添加噪声数据,即在语音合成网络模型的中间层输入噪声数据来影响生成的语音的局部高级属性。
在本发明的一个实施例中,以Tacotron2模型为例说明在合成语音的过程中添加噪声的具体过程:
基于Tacotron2模型中的语音频谱转换模块将文本向量转换得到语音频谱,然后,基于Tacotron2模型的后处理模块中的多个卷积层,依次对从语音频谱中提取高级属性特征并进行处理;在处理过程中,对于任一个卷积层,将该卷积层处理后得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,并将该加噪特征向量输入至下一个卷积层。将最后一级卷积层输出的加噪特征向量作为特征加入语音频谱转换模块转换得到的语音频谱中,得到加噪后的语音频谱。
在本发明的一个实施例中,噪声数据是一个随机噪声数据即一维数据,而文本向量是一个多维向量矩阵。因此,这种情况下,可以将语音频谱的高级属性特征对应的多维向量矩阵中每个数据均与该随机噪声数据叠加得到加噪特征向量。此种方式,对于特征向量中的每一维的数据,所使用的噪声数据相同,而且调节幅度也相同,调节参数少,操作简单。
在本发明另一种可能的实现方式中,噪声数据是一个与语音频谱的高级属性特征的矩阵维数相同的噪声矩阵,且噪声矩阵内不同位置的数值可以不相同。将该特征向量矩阵中的每一个数据与噪声矩阵中相同位置的噪声数据叠加得到加噪特征向量。该实现方式能够更精确地调整噪声数据,从而达到精细调整最终合成的语音信号的高级属性特征的目的。
语音波形合成子模块123,用于将加噪后的语音频谱转换为对应的语音信号,得到非标准语音信号。
可以利用声码器将语音频谱转换为语音波形。在Tacotron2模型中,利用修改后的WavNet网络将加噪后的语音频谱合成时域波形,即语音波形。
语音转换模块130,用于将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本。
然后,利用ASR技术将转换得到的各个非标准语音信号转换成对应的文本,从而得到标准文本对应的文本纠错负样本。
在本发明一种可能的实现方式中,从所述加噪语音信号转换得到的多个文本中,删除与所述标准文本相同的文本,得到所述文本纠错负样本。
可选地,如图6所示,在图4所示文本纠错数据生成装置实施例的基础上还包括:噪声调整模块210。
噪声调整模块210,用于分别调节输入至各个卷积层的噪声数据,得到包含不同语音属性特征的语音频谱。
可以综合调节各个卷积层后叠加的噪声数据,生成包含不同语音属性特征的语音频谱,基于这些包含不同语音属性特征的语音频谱能够得到不同语音效果的语音信号。例如,在一种可能的情况下,某个卷积层后叠加的噪声数据调至0,此时相当于该层卷积层不叠加噪声数据。
本实施例提供的文本纠错数据生成装置,直接在获得文本纠错数据的源头制造偏差,即将文本转换成语音的过程中添加各种噪声干扰,得到各类非标准语音信号,再将各个非标准语音信号转换成文本得到文本纠错样本。这种方式最大程度地还原了真实应用场景中错误文本产生的全过程,从发音的角度模拟用户说话是存在的各种致错因素,因此,该方案得到的文本纠错样本更符合实际应用场景,更符合真实的错误数据分布情况。此外,该方案不需要人工操作,因此节省了大量人力成本,而且提高了获得文本纠错样本的效率。
另一方面,本申请还提供了一种服务器,如参见图7,其示出了本申请的服务器的一种组成结构示意图,本实施例的终端可以包括:处理器310和存储器320。
可选的,该终端还可以包括通信接口330、输入单元340和显示器350和通信总线360。
处理器310、存储器320、通信接口330、输入单元340、显示器350、均通过通信总线360完成相互间的通信。
在本申请实施例中,该处理器310,可以为中央处理器(Central ProcessingUnit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器可以调用存储器320中存储的程序。具体的,处理器可以执行以下消息发送方法的实施例中应用服务器侧所执行的操作。
存储器320中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获取正确的标准文本;
在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,所述高级属性特征包括音色、声调、清晰度、口音中的至少一种;
将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本。
在一种可能的实现方式中,在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,包括:
对所述标准文本进行编码得到文本向量;
在将所述文本向量转换得到语音频谱的过程中添加所述噪声数据,得到加噪后的语音频谱;
将所述加噪后的语音频谱转换为对应的语音信号,得到所述非标准语音信号。
在一种可能的实现方式中,在将所述文本向量转换得到语音频谱的过程中添加所述噪声数据,得到加噪后的语音频谱,包括:
将所述文本向量转换得到语音频谱;
在从所述语音频谱中提取语音频谱在高级属性层次上的特征表示得到高级语音属性特征的过程中,加入噪声数据得到加噪特征向量;
将所述加噪特征向量与转换得到的语音频谱叠加,得到加噪后的语音频谱。
在一种可能的实现方式中,在将所述文本向量转换得到语音频谱的过程中添加所述噪声数据,得到加噪后的语音频谱,包括:
基于语音合成模型的语音频谱转换模块将所述文本向量转换得到语音频谱;
基于所述语音合成模型中包含多个卷积层的后处理模块,对所述语音频谱进行处理,对于任一个卷积层,将该卷积层处理得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,并将该加噪特征向量输入至下一个卷积层;
将最后一级卷积层输出的加噪特征向量与转换得到的语音频谱叠加,得到加噪后的语音频谱。
在一种可能的实现方式中,所述方法还包括:
分别调整输入至各个卷积层的噪声数据,得到包含不同语音属性特征的语音频谱。
在一种可能的实现方式中,每一个卷积层对应的噪声数据为一维的噪声数据;
所述对于任一个卷积层,将该卷积层处理得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,包括:
对于任一个卷积层,将该卷积层处理得到的特征向量中的每一维数据均与该卷积层对应的一维噪声数据叠加,得到该层卷积层对应的加噪特征向量;
或者,每一个卷积层对应的噪声数据为与该卷积层输出的特征向量的维数相同的噪声矩阵;
对于任一个卷积层,将该卷积层输出的特征向量中的每一个数据与该卷积层对应的噪声矩阵中相同位置的数据叠加,得到该卷积层对应的加噪特征向量。
在一种可能的实现方式中,所述将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本,包括:
从所述非标准语音信号转换得到的多个文本中,删除与所述标准文本相同的文本,得到所述文本纠错负样本。
在一种可能的实现方式中,该存储器320可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如图像播放功能等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据,比如,用户数据及图像数据等等。
此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口330可以为通信模块的接口,如GSM模块的接口。
本申请还可以包括显示器350和输入单元340等等。
当然,图7所示的终端的结构并不构成对本申请实施例中终端的限定,在实际应用中终端可以包括比图7所示的更多或更少的部件,或者组合某些部件。
另一方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任意一个文本纠错数据生成方法实施例。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本纠错数据生成方法,其特征在于,包括:
获取正确的标准文本;
在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,所述高级属性特征包括音色、声调、清晰度、口音中的至少一种;
将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本;
其中,在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,包括:
对所述标准文本进行编码得到文本向量;
基于语音合成模型的语音频谱转换模块将所述文本向量转换得到语音频谱;
基于所述语音合成模型中包含多个卷积层的后处理模块,对所述语音频谱进行处理,对于任一个卷积层,将该卷积层处理得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,并将该加噪特征向量输入至下一个卷积层;
将最后一级卷积层输出的加噪特征向量与转换得到的语音频谱叠加,得到加噪后的语音频谱;
将所述加噪后的语音频谱转换为对应的语音信号,得到所述非标准语音信号。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
分别调整输入至各个卷积层的噪声数据,得到包含不同语音属性特征的语音频谱。
3.根据权利要求1或2所述的方法,其特征在于,每一个卷积层对应的噪声数据为一维的噪声数据;
所述对于任一个卷积层,将该卷积层处理得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,包括:
对于任一个卷积层,将该卷积层处理得到的特征向量中的每一维数据均与该卷积层对应的一维噪声数据叠加,得到该卷积层对应的加噪特征向量;
或者,每一个卷积层对应的噪声数据为与该卷积层输出的特征向量的维数相同的噪声矩阵;
对于任一个卷积层,将该卷积层输出的特征向量中的每一个数据与该卷积层对应的噪声矩阵中相同位置的数据叠加,得到该卷积层对应的加噪特征向量。
4.根据权利要求1所述的方法,其特征在于,所述将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本,包括:
从所述非标准语音信号转换得到的多个文本中,删除与所述标准文本相同的文本,得到所述文本纠错负样本。
5.一种文本纠错数据生成装置,其特征在于,包括:
文本获取模块,用于获取正确的标准文本;
非标准语音合成模块,用于在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,所述高级属性特征包括音色、声调、清晰度、口音中的至少一种;
语音转换模块,用于将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本;
其中,所述非标准语音合成模块,包括:
编码子模块,用于对所述标准文本进行编码得到文本向量;
噪声添加子模块,用于基于语音合成模型的语音频谱转换模块将所述文本向量转换得到语音频谱;基于所述语音合成模型中包含多个卷积层的后处理模块,对所述语音频谱进行处理,对于任一个卷积层,将该卷积层处理得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,并将该加噪特征向量输入至下一个卷积层;将最后一级卷积层输出的加噪特征向量与转换得到的语音频谱叠加,得到加噪后的语音频谱;
语音波形合成子模块,用于将所述加噪后的语音频谱转换为对应的语音信号,得到所述非标准语音信号。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
噪声调整模块,用于分别调整输入至各个卷积层的噪声数据,得到包含不同语音属性特征的语音频谱。
7.根据权利要求5或6所述的装置,其特征在于,每一个卷积层对应的噪声数据为一维的噪声数据;
所述噪声添加子模块对于任一个卷积层,将该卷积层处理得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,包括:
对于任一个卷积层,将该卷积层处理得到的特征向量中的每一维数据均与该卷积层对应的一维噪声数据叠加,得到该卷积层对应的加噪特征向量;
或者,每一个卷积层对应的噪声数据为与该卷积层输出的特征向量的维数相同的噪声矩阵;
对于任一个卷积层,将该卷积层输出的特征向量中的每一个数据与该卷积层对应的噪声矩阵中相同位置的数据叠加,得到该卷积层对应的加噪特征向量。
8.根据权利要求5所述的装置,其特征在于,所述语音转换模块,用于:
从所述非标准语音信号转换得到的多个文本中,删除与所述标准文本相同的文本,得到所述文本纠错负样本。
9.一种服务器,其特征在于,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取正确的标准文本;
在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,所述高级属性特征包括音色、声调、清晰度、口音中的至少一种;
将每个所述非标准语音信号转换成对应的文本,得到与所述标准文本对应的文本纠错负样本;
其中,在将所述标准文本转换成语音信号的过程中添加噪声数据以改变语音信号的高级属性特征,得到至少一个非标准语音信号,包括:
对所述标准文本进行编码得到文本向量;
基于语音合成模型的语音频谱转换模块将所述文本向量转换得到语音频谱;
基于所述语音合成模型中包含多个卷积层的后处理模块,对所述语音频谱进行处理,对于任一个卷积层,将该卷积层处理得到的特征向量与输入该卷积层的噪声数据相叠加得到加噪特征向量,并将该加噪特征向量输入至下一个卷积层;
将最后一级卷积层输出的加噪特征向量与转换得到的语音频谱叠加,得到加噪后的语音频谱;
将所述加噪后的语音频谱转换为对应的语音信号,得到所述非标准语音信号。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至4任一项所述的文本纠错数据生成方法。
CN201911312055.5A 2019-12-18 2019-12-18 文本纠错数据生成方法及相关装置 Active CN111048065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911312055.5A CN111048065B (zh) 2019-12-18 2019-12-18 文本纠错数据生成方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911312055.5A CN111048065B (zh) 2019-12-18 2019-12-18 文本纠错数据生成方法及相关装置

Publications (2)

Publication Number Publication Date
CN111048065A CN111048065A (zh) 2020-04-21
CN111048065B true CN111048065B (zh) 2024-05-28

Family

ID=70237650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911312055.5A Active CN111048065B (zh) 2019-12-18 2019-12-18 文本纠错数据生成方法及相关装置

Country Status (1)

Country Link
CN (1) CN111048065B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968678B (zh) * 2020-09-11 2024-02-09 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置、设备及可读存储介质
CN115775553A (zh) * 2021-09-06 2023-03-10 北京有限元科技有限公司 语音合成文本的纠正方法、装置以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105244026A (zh) * 2015-08-24 2016-01-13 陈娟 一种语音处理方法及装置
CN107039050A (zh) * 2016-02-04 2017-08-11 阿里巴巴集团控股有限公司 对待测试语音识别系统的自动测试方法和装置
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109599092A (zh) * 2018-12-21 2019-04-09 秒针信息技术有限公司 一种音频合成方法及装置
CN110335587A (zh) * 2019-06-14 2019-10-15 平安科技(深圳)有限公司 语音合成方法、系统、终端设备和可读存储介质
CN110570845A (zh) * 2019-08-15 2019-12-13 武汉理工大学 一种基于域不变特征的语音识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339921B2 (en) * 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105244026A (zh) * 2015-08-24 2016-01-13 陈娟 一种语音处理方法及装置
CN107039050A (zh) * 2016-02-04 2017-08-11 阿里巴巴集团控股有限公司 对待测试语音识别系统的自动测试方法和装置
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109599092A (zh) * 2018-12-21 2019-04-09 秒针信息技术有限公司 一种音频合成方法及装置
CN110335587A (zh) * 2019-06-14 2019-10-15 平安科技(深圳)有限公司 语音合成方法、系统、终端设备和可读存储介质
CN110570845A (zh) * 2019-08-15 2019-12-13 武汉理工大学 一种基于域不变特征的语音识别方法

Also Published As

Publication number Publication date
CN111048065A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN110335587B (zh) 语音合成方法、系统、终端设备和可读存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110570845B (zh) 一种基于域不变特征的语音识别方法
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN111401037B (zh) 自然语言的生成方法、装置、电子设备及存储介质
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
CN111048065B (zh) 文本纠错数据生成方法及相关装置
CN113409803B (zh) 语音信号处理方法、装置、存储介质及设备
CN112036122B (zh) 文本识别方法、电子设备及计算机可读介质
CN113793591A (zh) 语音合成方法及相关装置和电子设备、存储介质
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN113345410A (zh) 通用语音、目标语音合成模型的训练方法及相关装置
CN111354344B (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN117672176A (zh) 基于语音自监督学习表征的重读可控语音合成方法及装置
CN112687262A (zh) 语音转换方法、装置、电子设备及计算机可读存储介质
CN116645956A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
CN116364058A (zh) 一种基于变分自编码器的语音合成方法
CN116364085A (zh) 数据增强方法、装置、电子设备和存储介质
CN115017889A (zh) 文本纠错模型训练方法、装置及设备
CN112951218B (zh) 基于神经网络模型的语音处理方法、装置及电子设备
CN117371433B (zh) 一种标题预测模型的处理方法和装置
US20240274120A1 (en) Speech synthesis method and apparatus, electronic device, and readable storage medium
CN116312583A (zh) 音色转换方法、装置、存储介质及计算机设备
CN118675511A (zh) 一种语音转换方法、存储介质、电子设备及程序产品
CN118762683A (zh) 语音合成方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021995

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant