CN117423327B - 基于gpt神经网络的语音合成方法和装置 - Google Patents

基于gpt神经网络的语音合成方法和装置 Download PDF

Info

Publication number
CN117423327B
CN117423327B CN202311317560.5A CN202311317560A CN117423327B CN 117423327 B CN117423327 B CN 117423327B CN 202311317560 A CN202311317560 A CN 202311317560A CN 117423327 B CN117423327 B CN 117423327B
Authority
CN
China
Prior art keywords
voiceprint
emotion
layer
voice data
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311317560.5A
Other languages
English (en)
Other versions
CN117423327A (zh
Inventor
彭瑞达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiarui Technology Co ltd
Original Assignee
Beijing Jiarui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiarui Technology Co ltd filed Critical Beijing Jiarui Technology Co ltd
Priority to CN202311317560.5A priority Critical patent/CN117423327B/zh
Publication of CN117423327A publication Critical patent/CN117423327A/zh
Application granted granted Critical
Publication of CN117423327B publication Critical patent/CN117423327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于GPT神经网络的语音合成方法和装置,该方法包括:获取第一语音数据并确定待播的第二语音内容,其中该第一语音数据包括采用第一声纹播放的第一语音内容且播放时长小于时间阈值t;以及基于语音合成模型输出第二语音数据,该第二语音数据包括采用该第一声纹播放的该第二语音内容,其中该第一语音数据的情绪特征参数和该第二语音数据的情绪特征为同一类别。本申请基于GPT神经网络结合情绪特征分类器和声纹特征提取器训练得到的语音合成模型能够快速(如录制时间不超过1分钟)实现语音复刻,并且能更复刻语音的情绪,从而提高语音合成的质量,从而提高用户的体验。

Description

基于GPT神经网络的语音合成方法和装置
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种基于GPT神经网络的语音合成方法和装置。
背景技术
随着人工智能(AI)技术的迅速发展,作为人机交互的一种方式,语音合成技术也随之受到了广泛的关注。
现有的语音合成技术(如基于卷积神经网络的语音合成)中,往往需要耗费大量时间长,如需要录制几分钟甚至几十分钟来训练以实现语音复刻。此外,语音合成的质量欠佳,如声音生硬或机械感格外强。因此,用户体验差。
发明内容
本申请实施例提供了一种基于生成式预训练变换器(Generative Pre-TrainedTransformer,GPT)神经网络的语音合成方法和装置,能够快速实现语音复刻并有效地提高语音合成的质量,从而提高用户的体验。
第一方面,提供了一种基于GPT神经网络的语音合成方法,该方法包括:获取第一语音数据并确定待播的第二语音内容,其中该第一语音数据包括采用第一声纹播放的第一语音内容且播放时长小于时间阈值t(如t小于或等于60秒);以及基于语音合成模型输出第二语音数据,该第二语音数据包括采用该第一声纹播放的该第二语音内容,其中该第一语音数据的情绪特征参数和该第二语音数据的情绪特征为同一类别;其中,该语音合成模型包括情绪特征分类器、声纹特征提取器和GPT神经网络,该情绪特征分类器用于确定该第一语音数据的情绪特征,该声纹特征提取器用于根据该第一语音数据得到该第一声纹,以及该GPT神经网络用于根据该第一声纹、该第二语音内容和该第一语音数据的情绪特征合成该第二语音数据,其中该GPT神经网络包括依次连接的嵌入层、N个解码模块和输出层,其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,该N为大于1的整数;其中,该情绪特征分类器输出的情绪特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分,以及该声纹特征提取器输出的声纹特征作为该GPT神经网络的输出层的输入的一部分;或者该声纹特征提取器输出的声纹特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分,以及该情绪特征分类器输出的情绪特征作为该GPT神经网络的输出层的输入的一部分;或者该情绪特征分类器输出的情绪特征作为该GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,将声纹特征提取器输出的声纹特征均作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,i为正整数且1<i≤N,j为正整数且1<j≤N,i和j可以相同或不同。
可选地,该情绪特征分类器输出的情绪特征输入该GPT神经网络的位置与声纹特征提取器输出的声纹特征输入该GPT神经网络的位置不同。进一步地,该情绪特征分类器输出的情绪特征输入该GPT神经网络的位置较前于声纹特征提取器输出的声纹特征输入该GPT神经网络的位置。
可选地,将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该位置向量、该嵌入向量和该情绪特征叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该第一声纹叠加输入到该输出层,在该输出层输出该第二语音数据。
可选地,将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该声纹特征提取器得到该第一声纹、将该位置向量、该嵌入向量和该第一声纹叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该情绪特征叠加后输入到该输出层,在该输出层输出该第二语音数据。
可选地,将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该第一语音数据输入该声纹特征提取器得到该第一声纹,将该位置向量、该嵌入向量、该情绪特征和该第一声纹输入该N个解码模块中第一个解码模块的掩码注意力层,以及经过该N个解码模块后在该输出层输出该第二语音数据。
可选地,将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向量输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该第一声纹和该情绪特征叠加后输入到该输出层,在该输出层输出该第二语音数据。
可选地,将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该位置向量、该嵌入向量和该情绪特征叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M1个解码模块后与该第一声纹叠加输入到第M1+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M1)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M1为小于N的正整数。
可选地,将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该声纹特征提取器得到该第一声纹、将该位置向量、该嵌入向量和该第一声纹叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M2个解码模块后与该第一声纹叠加输入到第M2+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M2)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M2为小于N的正整数。
可选地,将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M3个解码模块后与该情绪特征和该第一声纹叠加输入到第M3+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M3)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M3为小于N的正整数。
可选地,将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M4个解码模块后与该情绪特征/该第一声纹特征叠加输入到第M4+1个解码模块的掩码注意力层,经过该N个解码模块中剩余的解码模块中的前M5个解码模块后与该第一声纹/该情绪特征叠加后输入到第(M4+M5)+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M4-M5)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M4和M5为小于N的正整数且M4+M5<N。
结合第一方面和上述任一种可能的实现方式中,可选地,该每个解码模块采用残差结构,该残差结构包括将该每个解码模块的掩码注意力层的输入和输出作为该第一归一化层的输入、以及将该前向反馈层的输入和输出作为该第二归一化层的输入。可选地,每个特征提取模块采用残差结构,该残差结构包括将该每个特征提取模块的自注意力层的输入和输出作为其归一化层的输入。可选地,该输出层包括第三归一化层。
结合第一方面和上述任一种可能的实现方式中,在一种可能的实现方式中,情绪特征可以分为包括至少两种类别。例如,正性情绪特征和负性情绪特征两种,或者积极情绪特征、平稳情绪特征和消极情绪特征三种类别,或者“快乐”、“愤怒”、“悲哀”和“恐惧”四种类别,或者“愤怒”、“厌恶”、“恐惧”、“幸福”、“悲伤”和“惊讶”六种类别。
可选地,该第一语音数据输入该情绪特征分类器;以及将该情绪特征分类器中输出的概率值最高或输出为1所对应的情绪特征的类别确定为所述第一语音数据的情绪特征。
结合第一方面和上述任一种可能的实现方式中,在一种可能的实现方式中,该第一语音数据可以为即时录入的语音数据或者可以为已存储的语音数据。
第二方面,提供了一种基于GPT神经网络的语音合成装置,该装置包括处理单元和存储单元,该处理单元用于获取第一语音数据并确定待播的第二语音内容和用于基于该存储单元存储的语音合成模型输出第二语音数据,其中该第一语音数据包括采用第一声纹播放的第一语音内容且播放时长小于时间阈值t(如t小于或等于60秒),该第二语音数据包括采用该第一声纹播放的该第二语音内容,其中该第一语音数据的情绪特征参数和该第二语音数据的情绪特征为同一类别;其中,该语音合成模型包括情绪特征分类器、声纹特征提取器和GPT神经网络,该情绪特征分类器用于确定该第一语音数据的情绪特征,该声纹特征提取器用于根据该第一语音数据得到该第一声纹,以及该GPT神经网络用于根据该第一声纹、该第二语音内容和该第一语音数据的情绪特征合成该第二语音数据,其中该GPT神经网络包括依次连接的嵌入层、N个解码模块和输出层,其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,该N为大于1的整数;其中,该情绪特征分类器输出的情绪特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分,以及该声纹特征提取器输出的声纹特征作为该GPT神经网络的输出层的输入的一部分;或者该声纹特征提取器输出的声纹特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分,以及该情绪特征分类器输出的情绪特征作为该GPT神经网络的输出层的输入的一部分;或者该情绪特征分类器输出的情绪特征作为该GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,将声纹特征提取器输出的声纹特征均作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,i为正整数且1<i≤N,j为正整数且1<j≤N,i和j可以相同或不同。
可选地,该处理单元可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该位置向量、该嵌入向量和该情绪特征叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该第一声纹叠加输入到该输出层,在该输出层输出该第二语音数据。
可选地,该处理单元可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该声纹特征提取器得到该第一声纹、将该位置向量、该嵌入向量和该第一声纹叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该情绪特征叠加后输入到该输出层,在该输出层输出该第二语音数据。
可选地,该处理单元可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该第一语音数据输入该声纹特征提取器得到该第一声纹,将该位置向量、该嵌入向量、该情绪特征和该第一声纹输入该N个解码模块中第一个解码模块的掩码注意力层,以及经过该N个解码模块后在该输出层输出该第二语音数据。
可选地,该处理单元可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向量输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该第一声纹和该情绪特征叠加后输入到该输出层,在该输出层输出该第二语音数据。
可选地,该处理单元可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该位置向量、该嵌入向量和该情绪特征叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M1个解码模块后与该第一声纹叠加输入到第M1+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M1)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M1为小于N的正整数。
可选地,该处理单元可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该声纹特征提取器得到该第一声纹、将该位置向量、该嵌入向量和该第一声纹叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M2个解码模块后与该第一声纹叠加输入到第M2+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M2)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M2为小于N的正整数。
可选地,该处理单元可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M3个解码模块后与该情绪特征和该第一声纹叠加输入到第M3+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M3)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M3为小于N的正整数。
可选地,该处理单元可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M4个解码模块后与该情绪特征/该第一声纹特征叠加输入到第M4+1个解码模块的掩码注意力层,经过该N个解码模块中剩余的解码模块中的前M5个解码模块后与该第一声纹/该情绪特征叠加后输入到第(M4+M5)+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M4-M5)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M4和M5为小于N的正整数且M4+M5<N。
结合第二方面和上述任一种可能的实现方式中,可选地,该每个解码模块采用残差结构,该残差结构包括将该每个解码模块的掩码注意力层的输入和输出作为该第一归一化层的输入、以及将该前向反馈层的输入和输出作为该第二归一化层的输入。可选地,每个特征提取模块采用残差结构,该残差结构包括将该每个特征提取模块的自注意力层的输入和输出作为其归一化层的输入。可选地,该输出层包括第三归一化层。
结合第二方面和上述任一种可能的实现方式中,在一种可能的实现方式中,情绪特征可以包括至少两种类别。例如,正性情绪和负性情绪两种,或者积极情绪、平稳情绪和消极情绪三种类别,或者“快乐”、“愤怒”、“悲哀”和“恐惧”四种类别,或者“愤怒”、“厌恶”、“恐惧”、“幸福”、“悲伤”和“惊讶”六种类别。
可选地,该处理单元可以用于将该第一语音数据分别输入该情绪特征分类器;以及将该情绪特征分类器中输出概率值最高或输出为1所对应的情绪特征的类别确定为该第一语音数据的情绪特征。
结合第二方面和上述任一种可能的实现方式中,在一种可能的实现方式中,该第一语音数据可以为用户即时录入的语音数据或者可以为用户设备已存储的语音数据。
第三方面,提供了一种基于神经网络的语音合成装置,该装置包括处理器和存储器,该处理器与该存储器耦合,该处理器用于读取并执行该存储器中的指令,以实现上述第一方面中的任一种可能实现方式中的方法。
第四方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,当该计算机程序代码被执行时,实现上述第一方面中的任一种可能实现方式中的方法。
在本申请实施例中,将第一语音数据和待播的第二语音内容输入基于GPT神经网络构建的语音合成模型,基于该语音合成模型生成具有与第一语音数据相同类别的情绪特征的第二语音数据。本申请基于GPT神经网络结合情绪特征分类器和声纹特征提取器训练得到的语音合成模型能够快速(如录制时间不超过1分钟)实现语音复刻,并且能更复刻语音的情绪,从而提高语音合成的质量,从而提高用户的体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本申请实施例提供的一种基于GPT神经网络的语音合成方法的过程的示意性流程图。
图2是本申请实施例提供的一种语音合成模型的网络结构示意图。
图3是本申请实施例提供的另一种语音合成模型的网络结构示意图。
图4是本申请实施例提供的另一种语音合成模型的网络结构示意图。
图5是本申请实施例提供的另一种语音合成模型的网络结构示意图。
图6是本申请实施例提供的另一种语音合成模型的网络结构示意图。
图7是本申请实施例提供的另一种语音合成模型的网络结构示意图。
图8是本申请实施例提供的另一种语音合成模型的网络结构示意图。
图9是本申请实施例提供的另一种语音合成模型的网络结构示意图。
图10是本申请实施例提供的一种基于GPT神经网络的语音合成装置的示意性结构框图。
图11是本申请实施例提供的另一种基于GPT神经网络的语音合成装置的示意性结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本申请保护的范围。
应理解,本申请实施例中的“第一”以及“第二”仅为了区分,或者“第一”为了表示至少一个中的某一个或者多个中的一个等,不应对本申请构成任何限定。还应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还需要说明的是,“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请可以应用于如教育、通信、娱乐等各个领域,包括但不限于电影、电视、新闻、广告、动画、宣传、营销、游戏、MV(音乐短片,Music Video)等制作。本申请语音合成技术还可以广泛应用在智能问答、聊天、语音播报、有声读物、虚拟主播等场景中。
本发明实施例提供的语音合成方法的执行主体为语音合成装置(如用户设备),该语音合成装置可以为电子实体,或者也可以为采用软件集成的应用。该电子实体包括但不限于:耳机、录音笔、家居智能终端,商务智能终端(如可视电话、会议桌面智能终端等),可穿戴设备(如智能手表、智能眼镜等),金融智能终端机,以及智能手机、平板电脑、个人数字助理(PDA,Personal Digital Assistant)、车载设备、计算机等。
下面将结合附图详细说明本申请提供的技术方案。
图1是本申请实施例提供的一种基于GPT神经网络的语音合成方法的过程的示意性流程图。
101,获取第一语音数据并确定待播的第二语音内容,其中该第一语音数据包括采用第一声纹播放的第一语音内容且播放时长小于时间阈值t(如t小于或等于60秒。可选地,t≤20秒)。
可选地,该第一语音数据可以是用户即时录制的也可以是用户设备中存储的语音数据(如存储的故人或不在身边的人的语音数据,或者用户已经录制的语音数据等)。
应理解,本申请对于获取第一语音数据和确定待播的第二语音内容的顺序不做限定。
102,基于语音合成模型输出第二语音数据,其中该第二语音数据包括采用该第一声纹播放的该第二语音内容,该第一语音数据的情绪特征参数和该第二语音数据的情绪特征为同一类别。
其中,语音合成模型包括情绪特征分类器、声纹特征提取器和GPT神经网络,即该语音合成模型是基于GPT神经网络结合情绪特征分类器和声纹特征提取器训练得到的。该情绪特征分类器用于确定该第一语音数据的情绪特征,该声纹特征提取器用于根据该第一语音数据得到该第一声纹,以及该GPT神经网络用于根据该第一声纹、该第二语音内容和该第一语音数据的情绪特征合成该第二语音数据。
其中,该GPT神经网络包括依次连接的嵌入层(Embedding)、N个解码模块和输出层,其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层(MaskedAttention)、第一归一化层、前向反馈层和第二归一化层,该N为大于1的整数。
在本申请实施例中,将第一语音数据和待播的第二语音内容输入基于GPT神经网络构建的语音合成模型,基于该语音合成模型生成(或合成)具有与第一语音数据相同类别的情绪特征的第二语音数据。本申请基于GPT神经网络结合情绪特征分类器和声纹特征提取器训练得到的语音合成模型能够快速(如录制时间不超过1分钟)实现语音复刻,并且能更复刻语音的情绪,从而提高语音合成的质量,从而提高用户的体验。
可选地,该每个解码模块采用残差结构,例如,该残差结构包括将该每个解码模块的掩码注意力层的输入和输出作为该第一归一化层的输入、以及将该前向反馈层的输入和输出作为该第二归一化层的输入。可选地,每个特征提取模块可以采用残差结构,例如,该残差结构包括将该每个特征提取模块的自注意力层的输入和输出作为其归一化层的输入。可选地,该输出层可以包括第三归一化层。
在一些实施例中,声纹特征提取器可以包括至少一个包括依次连接的自注意力层(Self Attention)和归一化层的子模块,也可以参考声纹特征提取的相关技术,此处不再赘述。
本申请所述的归一化层例如均可以采用归一化指数函数实现。可选地,如输出层可以采用tansig函数和线性(linear)函数。
在本申请的一些实施例中,情绪特征可用于表征声音的情感,情绪特征可以分为至少两类。例如,情绪特征分为正性情绪(如包括但不限于快乐、幸福、欢喜、开心,乐观,自信和/或放松等情感)和负性情绪(如包括但不限于忧郁、恐惧、焦虑、厌恶和/或恐惧等情感)两种,或者积极情绪、平稳情绪和消极情绪(如包括但不限于焦虑、愤怒和/或沮丧)三种类别,或者“快乐”、“愤怒”、“悲哀”和“恐惧”四种类别,或者“愤怒”、“厌恶”、“恐惧”、“幸福”、“悲伤”和“惊讶”六种类别。应理解,上述例子仅仅是示例性的,本申请的情绪特征的类别不做限制可以简单分类也可以更细致的分类,类别数目可以是两个或更多类别。
在一些实施例中,情绪特征分类器可以包括至少一个包括依次连接的自注意力层和归一化层的子模块来实现情绪特征的提取。或者,情绪特征分类器也可以采用softmax分类器、决策树(Decision Tree)、K近邻(K-Nearest Neighbors,KNN)、随机森林(RandomForest)、支持向量机、逻辑斯蒂回归和/或朴素贝叶斯等分类来实现情绪特征的分类,可以参考相关技术,此处不再赘述。
可选地,将该第一语音数据输入情绪特征分类器,将该情绪特征分类器中输出的概率值最高或输出为1所对应的情绪特征的类别确定为所述第一语音数据的情绪特征。
在一些实施例中,在步骤102中,基于(如服务端或云端提供的)语音合成模型,可以将情绪特征和/或声纹特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分;或者也可以将情绪特征和/或声纹特征作为该GPT神经网络的输出层输入的一部分。
可选地,该情绪特征分类器输出的情绪特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分或者作为该GPT神经网络的输出层的输入的一部分,以及该声纹特征提取器输出的声纹特征作为该GPT神经网络的输出层的输入的一部分。
可选地,该声纹特征提取器输出的声纹特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分或者作为该GPT神经网络的输出层的输入的一部分,以及该情绪特征分类器输出的情绪特征作为该GPT神经网络的输出层的输入的一部分。
可选地,该情绪特征分类器输出的情绪特征作为该GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,将声纹特征提取器输出的声纹特征均作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,i为正整数且i≤N,j为正整数且j≤N,i和j可以相同或不同。
可选地,该情绪特征分类器输出的情绪特征输入该GPT神经网络的位置与声纹特征提取器输出的声纹特征输入该GPT神经网络的位置不同。进一步地,该情绪特征分类器输出的情绪特征输入该GPT神经网络的位置较前于声纹特征提取器输出的声纹特征输入该GPT神经网络的位置。
应理解,本申请对于声纹特征提取器和情绪特征分类器在神经网络结构中的位置不做限制。
为了更清楚和直观的解释本申请的技术方案,下面结合图2-图9的实施例进行说明,应注意,本申请不限于此。
在一些实施例中,基于图2示出的语音合成模型的网络结构,可以将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该位置向量、该嵌入向量和该情绪特征叠加后(进一步地如分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该第一声纹叠加输入到该输出层,在该输出层输出该第二语音数据。当然,声纹特征提取器和情绪特征分类器可以互换网络结构中的位置,例如可以将该位置向量、该嵌入向量和该第一声纹叠加后(进一步地如分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该情绪特征叠加输入到该输出层,在该输出层输出该第二语音数据,示意性地如图3所示。
在一些实施例中,基于图4示出的语音合成模型的网络结构,可以将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该第一语音数据输入该声纹特征提取器得到该第一声纹,将该位置向量、该嵌入向量、该情绪特征和该第一声纹叠加后(进一步地如分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层,以及经过该N个解码模块后在该输出层输出该第二语音数据。
在一些实施例中,基于图5示出的语音合成模型的网络结构,可以将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向量叠加后(进一步地如分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该第一声纹和该情绪特征叠加后输入到该输出层,在该输出层输出该第二语音数据。
在一些实施例中,基于图6示出的语音合成模型的网络结构,可以将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该位置向量、该嵌入向量和该情绪特征叠加后(进一步地分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M1个解码模块后与该第一声纹叠加(进一步地分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入到第M1+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M1)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M1为小于N的正整数。
在一些实施例中,基于图7示出的语音合成模型的网络结构,可以将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该声纹特征提取器得到该第一声纹、将该位置向量、该嵌入向量和该第一声纹叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M2个解码模块后与该第一声纹叠加(进一步地分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入到第M2+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M2)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M2为小于N的正整数。
在一些实施例中,基于图8示出的语音合成模型的网络结构,可以将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M3个解码模块后与该情绪特征和该第一声纹叠加(进一步地分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入到第M3+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M3)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M3为小于N的正整数。
在一些实施例中,基于图9示出的语音合成模型的网络结构,可以将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M4个解码模块后与该情绪特征/该第一声纹特征叠加输入到第M4+1个解码模块的掩码注意力层,经过该N个解码模块中剩余的解码模块中的前M5个解码模块后与该第一声纹/该情绪特征叠加后输入到第(M4+M5)+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M4-M5)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M4和M5为小于N的正整数且M4+M5<N。当然,在此网络结构中,声纹特征提取器和情绪特征分类器也可以互换网络结构中的位置。
在本申请实施例中,采用上述网络结构的语音合成模型实现语音复刻,可以大大减少第一语音数据的时长(如录制时长小于1分钟,数十秒、十几秒甚至秒级别,基于该网络结构合成语音的声纹特征与录制语音数据所提取的声纹特征的相似度较高),能够提高语音合成的效率,且合成的语音具有与第一语音数据具有相同类别的情绪特征,提高语音合成的质量,从而提高用户体验。
在本申请的一些实施例中,语音合成模型可以基于GPT神经网络对语音数据集及其对应的合成语音数据集进行训练得到(如可以逐一或批量训练)。可选地,训练中可以通过生成的语音数据与真值(ground truth)进行比较来确定损失函数。可选地,可以将样本集分割成训练子集,验证子集和测试子集,其中训练子集可以用于训练构建语音合成模型,验证子集可以用于训练过程中调整该GPT神经网络的超参数,该测试子集可以用于评估该神经网络训练模型的泛化。应理解,本申请对GPT神经网络结构的解码模块的数目不做限制,上述图2-图9的神经网络结构仅仅是示例性的,而非要限制本申请。
图10是本申请实施例提供的一种基于GPT神经网络的语音合成装置的示意性结构框图。装置1000包括处理单元1001和存储单元1002。
该处理单元1001用于获取第一语音数据并确定待播的第二语音内容和用于基于该存储单元1002存储的语音合成模型输出第二语音数据。
其中该第一语音数据包括采用第一声纹播放的第一语音内容且播放时长小于时间阈值t(如t小于或等于60秒),可选地,该第一语音数据可以为用户即时录入的语音数据或者可以为用户设备已存储的语音数据。
其中,该第二语音数据包括采用该第一声纹播放的该第二语音内容,该第一语音数据的情绪特征参数和该第二语音数据的情绪特征为同一类别。其中,该语音合成模型包括情绪特征分类器、声纹特征提取器和GPT神经网络,该情绪特征分类器用于确定该第一语音数据的情绪特征,该声纹特征提取器用于根据该第一语音数据得到该第一声纹,以及该GPT神经网络用于根据该第一声纹、该第二语音内容和该第一语音数据的情绪特征合成该第二语音数据。其中,该GPT神经网络包括依次连接的嵌入层、N个解码模块和输出层,其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,该N为大于1的整数。
在本申请实施例中,将第一语音数据和待播的第二语音内容输入基于GPT神经网络构建的语音合成模型,基于该语音合成模型生成具有与第一语音数据相同类别的情绪特征的第二语音数据。本申请基于GPT神经网络结合情绪特征分类器和声纹特征提取器训练得到的语音合成模型能够快速(如录制时间不超过1分钟)实现语音复刻,并且能更复刻语音的情绪,从而提高语音合成的质量,从而提高用户的体验。
可选地,该每个解码模块采用残差结构,该残差结构包括将该每个解码模块的掩码注意力层的输入和输出作为该第一归一化层的输入、以及将该前向反馈层的输入和输出作为该第二归一化层的输入。可选地,每个特征提取模块采用残差结构,该残差结构包括将该每个特征提取模块的自注意力层的输入和输出作为其归一化层的输入。可选地,该输出层包括第三归一化层。
在一些实施例中,该处理单元1001可以用于将情绪特征和/或声纹特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分,或者也可以将情绪特征和/或声纹特征作为该GPT神经网络的输出层输入的一部分。
可选地,该情绪特征分类器输出的情绪特征作为GPT神经网络的N个解码模块中任一解码模块的输入的一部分,以及声纹特征提取器输出的声纹特征可以作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分或者作为GPT神经网络的输出层的输入的一部分。
可选地,该处理单元1001可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该位置向量、该嵌入向量和该情绪特征叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该第一声纹叠加输入到该输出层,在该输出层输出该第二语音数据。
可选地,该处理单元1001可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该声纹特征提取器得到该第一声纹、将该位置向量、该嵌入向量和该第一声纹叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该情绪特征叠加后输入到该输出层,在该输出层输出该第二语音数据。
可选地,该处理单元1001可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该第一语音数据输入该声纹特征提取器得到该第一声纹,将该位置向量、该嵌入向量、该情绪特征和该第一声纹输入该N个解码模块中第一个解码模块的掩码注意力层,以及经过该N个解码模块后在该输出层输出该第二语音数据。
可选地,该处理单元1001可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向量输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出与该第一声纹和该情绪特征叠加后输入到该输出层,在该输出层输出该第二语音数据。
可选地,该处理单元可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该情绪特征分类器得到情绪特征、将该位置向量、该嵌入向量和该情绪特征叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M1个解码模块后与该第一声纹叠加输入到第M1+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M1)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M1为小于N的正整数。
可选地,该处理单元1001可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该第一语音数据输入该声纹特征提取器得到该第一声纹、将该位置向量、该嵌入向量和该第一声纹叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M2个解码模块后与该第一声纹叠加输入到第M2+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M2)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M2为小于N的正整数。
可选地,该处理单元1001可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M3个解码模块后与该情绪特征和该第一声纹叠加输入到第M3+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M3)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M3为小于N的正整数。
可选地,该处理单元1001可以用于将该第二语音内容进行位置编码得到位置向量且将该第二语音内容输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M4个解码模块后与该情绪特征/该第一声纹特征叠加输入到第M4+1个解码模块的掩码注意力层,经过该N个解码模块中剩余的解码模块中的前M5个解码模块后与该第一声纹/该情绪特征叠加后输入到第(M4+M5)+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M4-M5)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M4和M5为小于N的正整数且M4+M5<N。
在本申请实施例中,采用上述网络结构的语音合成模型实现语音复刻,可以大大减少第一语音数据的时长(如录制时长小于1分钟,数十秒、十几秒甚至秒级别,基于该网络结构合成语音的声纹特征与录制语音数据所提取的声纹特征的相似度较高),能够提高语音合成的效率,且合成的语音具有与第一语音数据具有相同类别的情绪特征,提高语音合成的质量,从而提高用户体验。
可选地,该处理单元1001可以用于将该第一语音数据分别输入该情绪特征分类器;以及将该情绪特征分类器中输出概率值最高或输出为1所对应的情绪特征的类别确定为该第一语音数据的情绪特征。
可选地,语音合成装置可以是服务器,用户设备可以与服务器进行通信,向服务器发送请求实现语音合成。语音合成装置也可以嵌入用户设备。用户设备可以是移动终端,如移动电话和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,包括但不限于移动设备,如手机或者智能手机,个人电脑、PAD、iPad等。
图10所示的装置1000可用于执行图1-图9所涉及的方法和步骤,各个单元执行上述相应步骤的具体过程在上述方法实施例中已经详细说明,为了简洁,在此不再赘述。
图11是本申请实施例提供的另一种语音合成装置的示意性结构框图。如图11所示,装置1100包括一个或多个处理器1101和一个或多个存储器1102耦合,处理器1101用于读取并执行该存储器602存储的指令(或计算机程序),使得该装置1100可以执行本申请的方法实施例中由装置1000执行的相应流程和/或操作。
图11所示的装置1100可用于执行图1-图9所涉及的方法和步骤,为了简洁,此处不再赘述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP(Digital SignalProcessing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是ROM(read-onlymemory,只读存储器)、PROM(programmable ROM,可编程只读存储器)、EPROM(erasablePROM,可擦除可编程只读存储器)、EEPROM(electrically EPROM,电可擦除可编程只读存储器)或闪存。易失性存储器可以是RAM(random access memory,随机存取存储器),其用作外部高速缓存。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请还提供一种计算机可读介质,该计算机可读介质存储有程序代码,当该程序代码被运行时,能够实现上述各个实施例中基于机器学习的光学器件参数的确定装置执行的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于GPT神经网络的语音合成方法,其特征在于,包括:
获取第一语音数据并确定待播的第二语音内容,其中所述第一语音数据包括采用第一声纹播放的第一语音内容且播放时长小于时间阈值t;以及
基于语音合成模型输出第二语音数据,所述第二语音数据包括采用所述第一声纹播放的所述第二语音内容,其中所述第一语音数据的情绪特征参数和所述第二语音数据的情绪特征为同一类别;
其中,所述语音合成模型包括情绪特征分类器、声纹特征提取器和GPT神经网络,所述情绪特征分类器用于确定所述第一语音数据的情绪特征,所述声纹特征提取器用于根据所述第一语音数据得到所述第一声纹,以及所述GPT神经网络用于根据所述第一声纹、所述第二语音内容和所述第一语音数据的情绪特征合成所述第二语音数据,其中所述GPT神经网络包括依次连接的嵌入层、N个解码模块和输出层,其中所述N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,所述N为大于1的整数;
其中,所述情绪特征分类器输出的情绪特征作为所述GPT神经网络的N个解码模块中任一解码模块的输入的一部分,以及所述声纹特征提取器输出的声纹特征作为所述GPT神经网络的输出层的输入的一部分;或者所述声纹特征提取器输出的声纹特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分,以及所述情绪特征分类器输出的情绪特征作为所述GPT神经网络的输出层的输入的一部分;或者所述情绪特征分类器输出的情绪特征作为该GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,将声纹特征提取器输出的声纹特征均作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,i为正整数且1<i≤N,j为正整数且1<j≤N,i和j可以相同或不同。
2.根据权利要求1所述的方法,其中,所述基于语音合成模型输出第二语音数据,包括:
将所述第二语音内容进行位置编码得到位置向量且将所述第二语音内容输入所述嵌入层得到嵌入向量、将所述第一语音数据输入所述情绪特征分类器得到情绪特征、将所述位置向量、所述嵌入向量和所述情绪特征叠加后输入所述N个解码模块中第一个解码模块的掩码注意力层,经过所述N个解码模块的前M1个解码模块后与所述第一声纹叠加输入到第M1+1个解码模块的掩码注意力层,经过所述N个解码模块中的剩余的(N-M1)个解码模块后输入到输出层,在所述输出层输出所述第二语音数据,其中M1为小于N的正整数;或者
将所述第二语音内容进行位置编码得到位置向量且将所述第二语音内容输入所述嵌入层得到嵌入向量、将所述第一语音数据输入所述声纹特征提取器得到所述第一声纹、将所述位置向量、所述嵌入向量和所述第一声纹叠加后输入所述N个解码模块中第一个解码模块的掩码注意力层,经过所述N个解码模块的前M2个解码模块后与所述情绪特征叠加输入到第M2+1个解码模块的掩码注意力层,经过所述N个解码模块中的剩余的(N-M2)个解码模块后输入到输出层,在所述输出层输出所述第二语音数据,其中M2为小于N的正整数;或者
将所述第二语音内容进行位置编码得到位置向量且将所述第二语音内容输入所述嵌入层得到嵌入向量、将所述位置向量和所述嵌入向叠加后输入所述N个解码模块中第一个解码模块的掩码注意力层,经过所述N个解码模块的前M3个解码模块后与所述情绪特征和所述第一声纹叠加输入到第M3+1个解码模块的掩码注意力层,经过所述N个解码模块中的剩余的(N-M3)个解码模块后输入到输出层,在所述输出层输出所述第二语音数据,其中M3为小于N的正整数。
3.根据权利要求1所述的方法,其中,所述基于语音合成模型输出第二语音数据,包括:将所述第二语音内容进行位置编码得到位置向量且将所述第二语音内容输入所述嵌入层得到嵌入向量、将所述位置向量和所述嵌入向叠加后输入所述N个解码模块中第一个解码模块的掩码注意力层,经过所述N个解码模块的前M4个解码模块后与所述情绪特征/所述第一声纹特征叠加输入到第M4+1个解码模块的掩码注意力层,经过所述N个解码模块中剩余的解码模块中的前M5个解码模块后与所述第一声纹/所述情绪特征叠加后输入到第(M4+M5)+1个解码模块的掩码注意力层,经过所述N个解码模块中的剩余的(N-M4-M5)个解码模块后输入到输出层,在所述输出层输出所述第二语音数据,其中M4和M5为小于N的正整数且M4+M5<N。
4.根据权利要求1所述的方法,其中,所述基于语音合成模型输出第二语音数据,包括:
将所述第二语音内容进行位置编码得到位置向量且将所述第二语音内容输入所述嵌入层得到嵌入向量、将所述第一语音数据输入所述情绪特征分类器得到情绪特征、将所述位置向量、所述嵌入向量和所述情绪特征叠加后输入所述N个解码模块中第一个解码模块的掩码注意力层,经过所述N个解码模块后的输出与所述第一声纹叠加输入到所述输出层,在所述输出层输出所述第二语音数据;或者
将所述第二语音内容进行位置编码得到位置向量且将所述第二语音内容输入所述嵌入层得到嵌入向量、将所述第一语音数据输入所述情绪特征分类器得到情绪特征、将所述第一语音数据输入所述声纹特征提取器得到所述第一声纹,将所述位置向量、所述嵌入向量、所述情绪特征和所述第一声纹输入所述N个解码模块中第一个解码模块的掩码注意力层,以及经过所述N个解码模块后在所述输出层输出所述第二语音数据;或者
将所述第二语音内容进行位置编码得到位置向量且将所述第二语音内容输入所述嵌入层得到嵌入向量、将所述第一语音数据输入所述声纹特征提取器得到所述第一声纹、将所述位置向量、所述嵌入向量和所述第一声纹叠加后输入所述N个解码模块中第一个解码模块的掩码注意力层,经过所述N个解码模块后的输出与所述情绪特征叠加后输入到所述输出层,在所述输出层输出所述第二语音数据;或者
将所述第二语音内容进行位置编码得到位置向量且将所述第二语音内容输入所述嵌入层得到嵌入向量、将所述位置向量和所述嵌入向量输入所述N个解码模块中第一个解码模块的掩码注意力层,经过所述N个解码模块后的输出与所述第一声纹和所述情绪特征叠加后输入到所述输出层,在所述输出层输出所述第二语音数据。
5.根据权利要求1-4任一项所述的方法,其中,
所述每个解码模块采用残差结构,所述残差结构包括将所述每个解码模块的掩码注意力层的输入和输出作为所述第一归一化层的输入、以及将所述前向反馈层的输入和输出作为所述第二归一化层的输入;每个特征提取模块采用残差结构,所述残差结构包括将所述每个特征提取模块的自注意力层的输入和输出作为其归一化层的输入;以及所述输出层包括第三归一化层。
6.根据权利要求1-4任一项所述的方法,其中,所述情绪特征分类器用于确定所述第一语音数据的情绪特征,包括:
所述第一语音数据分别输入所述情绪特征分类器;以及
将所述情绪特征分类器中输出的概率值最高或输出为1所对应的情绪特征的类别确定为所述第一语音数据的情绪特征。
7.根据权利要求1-4任一项所述的方法,其中,
所述情绪特征分类器用于将所述情绪特征分为两类,分别是正性情绪特征和负性情绪;或者
所述情绪特征分类器用于将所述情绪特征分为三类,分别是积极情绪特征、平稳情绪和消极情绪;或者
所述情绪特征分类器用于将所述情绪特征分为四类,分别是快乐、愤怒、悲哀和恐惧;或者
所述情绪特征分类器用于将所述情绪特征分为六类,分别是厌恶、惊讶、悲伤、恐惧、幸福和愤怒。
8.根据权利要求1-4任一项所述的方法,其中,
所述第一语音数据为即时录入的语音数据或者已存储的语音数据。
9.一种基于GPT神经网络的语音合成装置,其特征在于,包括:处理单元和存储单元,
所述处理单元,用于获取第一语音数据并确定待播的第二语音内容,其中所述第一语音数据包括采用第一声纹播放的第一语音内容且播放时长小于时间阈值t;以及用于基于存储单元存储的语音合成模型输出第二语音数据,所述第二语音数据包括采用所述第一声纹播放的所述第二语音内容,其中所述第一语音数据的情绪特征参数和所述第二语音数据的情绪特征为同一类别;
其中,所述语音合成模型包括情绪特征分类器、声纹特征提取器和GPT神经网络,所述情绪特征分类器用于确定所述第一语音数据的情绪特征,所述声纹特征提取器用于根据所述第一语音数据得到所述第一声纹,以及所述GPT神经网络用于根据所述第一声纹、所述第二语音内容和所述第一语音数据的情绪特征合成所述第二语音数据,其中所述GPT神经网络包括依次连接的嵌入层、N个解码模块和输出层,其中所述N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,所述N为大于1的整数;
其中,所述情绪特征分类器输出的情绪特征作为所述GPT神经网络的N个解码模块中任一解码模块的输入的一部分,以及所述声纹特征提取器输出的声纹特征作为所述GPT神经网络的输出层的输入的一部分;或者所述声纹特征提取器输出的声纹特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分,以及所述情绪特征分类器输出的情绪特征作为所述GPT神经网络的输出层的输入的一部分;或者所述情绪特征分类器输出的情绪特征作为该GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,将声纹特征提取器输出的声纹特征均作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,i为正整数且1<i≤N,j为正整数且1<j≤N,i和j可以相同或不同。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被执行时,实现根据权利要求1-8任一项所述的方法。
CN202311317560.5A 2023-10-12 2023-10-12 基于gpt神经网络的语音合成方法和装置 Active CN117423327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311317560.5A CN117423327B (zh) 2023-10-12 2023-10-12 基于gpt神经网络的语音合成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311317560.5A CN117423327B (zh) 2023-10-12 2023-10-12 基于gpt神经网络的语音合成方法和装置

Publications (2)

Publication Number Publication Date
CN117423327A CN117423327A (zh) 2024-01-19
CN117423327B true CN117423327B (zh) 2024-03-19

Family

ID=89531707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311317560.5A Active CN117423327B (zh) 2023-10-12 2023-10-12 基于gpt神经网络的语音合成方法和装置

Country Status (1)

Country Link
CN (1) CN117423327B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020190054A1 (ko) * 2019-03-19 2020-09-24 휴멜로 주식회사 음성 합성 장치 및 그 방법
KR20200138993A (ko) * 2019-06-03 2020-12-11 한국전자통신연구원 감정 토큰을 이용한 감정 음성 합성 방법 및 장치
CN116741149A (zh) * 2023-06-08 2023-09-12 北京家瑞科技有限公司 跨语言语音转换方法、训练方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020190054A1 (ko) * 2019-03-19 2020-09-24 휴멜로 주식회사 음성 합성 장치 및 그 방법
KR20200138993A (ko) * 2019-06-03 2020-12-11 한국전자통신연구원 감정 토큰을 이용한 감정 음성 합성 방법 및 장치
CN116741149A (zh) * 2023-06-08 2023-09-12 北京家瑞科技有限公司 跨语言语音转换方法、训练方法及相关装置

Also Published As

Publication number Publication date
CN117423327A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
Chintha et al. Recurrent convolutional structures for audio spoof and video deepfake detection
Lotfian et al. Building naturalistic emotionally balanced speech corpus by retrieving emotional speech from existing podcast recordings
JP6968908B2 (ja) コンテキスト取得方法及びコンテキスト取得デバイス
CN112328849B (zh) 用户画像的构建方法、基于用户画像的对话方法及装置
CN115668371A (zh) 对听觉和视觉会议数据分类以推断用户话语的重要性
Zhao et al. Multi-modal multi-cultural dimensional continues emotion recognition in dyadic interactions
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
CN112100337B (zh) 交互对话中的情绪识别方法及装置
Li et al. A deep reinforcement learning framework for Identifying funny scenes in movies
WO2024066920A1 (zh) 虚拟场景的对话方法、装置、电子设备、计算机程序产品及计算机存储介质
CN114155860A (zh) 摘要记录方法、装置、计算机设备和存储介质
CN116978370A (zh) 语音处理方法、装置、计算机设备和存储介质
Dixit et al. Review of audio deepfake detection techniques: Issues and prospects
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
CN116741149B (zh) 跨语言语音转换方法、训练方法及相关装置
CN117423327B (zh) 基于gpt神经网络的语音合成方法和装置
KR20230116605A (ko) 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램
CN116708951B (zh) 基于神经网络的视频生成方法和装置
KR20200071996A (ko) 학습 단말기와 서버를 이용한 언어 학습 방법
US11789944B2 (en) User-specific computer interaction recall
CN116579350B (zh) 对话理解模型的鲁棒性分析方法、装置和计算机设备
Kilinc et al. Audio Deepfake Detection by using Machine and Deep Learning
CN116089906B (zh) 基于动态上下文表示和模态融合的多模态分类方法及系统
CN115376512B (zh) 一种基于人物画像的语音识别系统及方法
CN118260679A (zh) 基于多模态特征融合的情感识别方法、系统、终端和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant