CN116888665A - 电子设备及其控制方法 - Google Patents
电子设备及其控制方法 Download PDFInfo
- Publication number
- CN116888665A CN116888665A CN202180093889.0A CN202180093889A CN116888665A CN 116888665 A CN116888665 A CN 116888665A CN 202180093889 A CN202180093889 A CN 202180093889A CN 116888665 A CN116888665 A CN 116888665A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- model
- waveform
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims description 185
- 238000011084 recovery Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 27
- 230000005284 excitation Effects 0.000 claims description 19
- 230000006872 improvement Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 description 29
- 238000013473 artificial intelligence Methods 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 210000005036 nerve Anatomy 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本公开涉及电子设备及其控制方法。该电子设备包括存储器和处理器,该处理器被配置为:通过向第一编码器模型输入第一质量的声学数据来获得用于估计波形的第一特征数据;并且通过将第一特征数据输入到解码器模型来获得比第一质量更高质量的第二质量的波形数据。
Description
技术领域
本公开涉及电子设备及其控制方法,并且更具体地,涉及使用人工智能模型获得高质量波形数据的电子设备及其控制方法。
背景技术
传统上,已经开发并利用了各种算法(例如,用于过滤包括在语音信号中的噪声的算法、基于波束形成的算法等)来改进语音的声音质量。
最近,已经开发了一种基于人工智能系统的用于改进语音的声音质量的算法。人工智能系统是指基于神经网络模型执行训练和推断的系统,不同于现有的基于规则的系统,并且已经在诸如语音识别、图像识别和未来预测的各种领域中被利用。
特别地,最近,已经开发了通过基于深度学习的深度神经网络来解决给定问题的人工智能系统。
同时,在深度神经网络的情况下,计算量(即,模型复杂度)越小,性能越低,并且被训练来执行的任务越复杂或困难,性能越低。因此,需要一种方法来降低深度神经网络执行的任务的难度以在有限的模型复杂度上提高性能。
发明内容
【技术问题】
本公开提供了一种使用被训练为输出高质量波形数据的人工智能模型来获得具有改进质量的波形数据的电子设备及其控制方法。
【技术解决方案】
根据示例实施例的一方面,一种电子设备可以包括存储器;以及处理器,被配置为:将第一质量的声学数据输入到第一编码器模型中;基于将第一质量的声学数据输入到第一编码器模型中,获得用于估计波形的第一特征数据;将第一特征数据输入到解码器模型中;以及基于将第一特征数据输入到解码器模型中,获得比第一质量更高质量的第二质量的波形数据,其中,基于第一质量的训练声学数据被输入,第一编码器模型被训练为输出用于估计第二质量的训练波形数据的特征数据。
根据示例实施例的一方面,一种电子设备的控制方法可以包括:将第一质量的声学数据输入到第一编码器模型中;基于将第一质量的声学数据输入到第一编码器模型中,获得用于估计波形的第一特征数据;将第一特征数据输入到解码器模型中;基于将第一特征数据输入到解码器模型中,获得比第一质量更高质量的第二质量的波形数据,其中基于第一质量的训练声学数据被输入,第一编码器模型被训练为来输出用于估计第二质量的训练波形数据的特征数据。
【有益效果】
如上所述,根据本公开的不同实施例,可以更高效地向用户提供具有改进的声音质量的波形数据。
附图说明
从以下结合附图的描述中,本公开的某些实施例的上述和其他方面、特征和优点将变得更加明显,其中:
图1是示意性示出根据本公开的实施例的电子设备的组件的框图;
图2和图3是用于描述根据本公开的实施例的由电子设备获得第二质量的波形数据的过程的视图;
图4和图5是用于描述根据本公开的实施例的由电子设备获得条件信息的过程的视图;
图6是用于描述根据本公开的实施例的电子设备使用第一恢复模型获得声学数据的过程的视图;
图7是用于描述根据本公开的实施例的电子设备使用第二恢复模型获得声学数据的过程的视图;
图8是用于描述根据本公开的实施例的电子设备使用第三恢复模型获得声学数据的过程的视图;
图9和图10是用于描述根据本公开的实施例的电子设备输出与第一域相关的具有改进质量的波形数据的过程的视图;
图11是用于描述根据本公开的实施例的电子设备输出多个类别的波形数据的过程的视图;
图12是用于描述根据本公开的实施例的电子设备的控制方法的流程图;和
图13是详细示出根据本公开的实施例的电子设备的组件的框图。
具体实施方式
本公开涉及一种通过将第一质量的声学数据(或声学特征数据)输入到神经声码器(neural vocoder)来获得第二质量的波形数据(即,语音波形数据)的电子设备及其控制方法,第二质量的质量高于第一质量。从文本到语音(text-to-speech,TTS)声学模型(acoustic model,AM)等获得的声学特征数据可以被输入到神经声码器模型以输出语音波形。
语音在短区间(例如,帧(大约10到20毫秒的长度区间))内具有静态特性。声学数据是指与在语音的特定帧上提取的声学特性相关的数据。可以通过对语音执行信号处理(例如,短时分析)来提取声学数据。例如,声学数据可以包括频谱、梅尔频谱、倒谱、音高(pitch)滞后和音高相关性中的至少一个。
第一质量的声学数据是指与从第一质量的语音数据中提取的声学特性相关的数据。例如,第一质量的声学数据可以指与从通过移动记录环境(例如,个性化文本到语音(PTTS))或TTS AM或带限语音(band-limited voice)获得的语音中提取的声学特性相关的数据。也就是说,第一质量的声学数据可以包括各种噪声。
另外,比第一质量更高质量的第二质量的声学数据可以指例如与从在录音室录音环境中获得的语音中提取的声学特性相关的数据。根据本公开的电子设备可以通过经由第一质量的声学数据获得第二质量的波形数据来改进PTTS或TTS声音质量并扩展带宽。
神经声码器可以包括编码器模型和解码器模型,编码器模型是基于输入声学数据输出用于估计波形的特征数据的神经网络模型,解码器模型是基于特征数据输出波形数据的神经网络模型。这里,从神经声码器的角度来看,用于输出从编码器模型输出的波形数据的特征数据是从隐藏层输出的数据,因此可以表示为隐藏表示。
同时,使用第一质量的声学数据获得的特征数据的噪声分布可能是各种各样的。当解码器模型基于使用第一质量的声学数据获得的特征数据被训练为输出第二质量的波形数据时,特征数据的分布可以被平滑。根据本公开的解码器模型基于使用第二质量的声学数据获得的特征数据被训练为输出第二质量的波形数据,从而可以提高解码器模型的性能。解码器模型的性能的改进可以指神经声码器模型的高质量波形数据的输出性能的改进。
在下文中,将参照附图详细描述本公开的实施例,使得本公开所属领域的技术人员可以容易地实践本公开。
图1是示意性示出根据本公开的实施例的电子设备100的组件的框图。如图1所示,电子设备100可以包括存储器110和处理器120。然而,图1中示出的组件是用于实现本公开的实施例的示例,并且其他适当的硬件和软件组件可以另外包括在电子设备100中。
存储器110可以存储与电子设备100的至少一个其他组件相关的指令或数据。指令是指处理器120可以用编程语言直接执行的一个动作语句并且是程序执行或操作的最小单位。此外,存储器110由处理器120访问并且存储器110中的数据的读出、记录、校正、删除、更新等可以由处理器120执行。
存储器110可以存储用于神经声码器的数据和包括在神经声码器中的模型,以执行各种操作。用于包括在神经声码器中以执行各种操作的模型的数据可以存储在用作存储器110中的存储装置的存储器(例如,非易失性存储器)中。存储在用作存储装置的存储器中的数据可以被加载到存储器110中用作主存储器的存储器中。
存储器110可以包括对话系统,该对话系统是能够识别和理解语音输入并输出对语音输入的响应消息的人工智能模型。对话系统可以包括自动语音识别(ASR)模块、自然语言单元(NLU)模块、对话管理器(DM)模块、TTS模块等。
处理器120可以电连接到存储器110,以控制电子设备100的一般功能和操作。处理器120可以将第一质量的声学数据输入到第一编码器模型,以获得用于估计波形的第一特征数据。这里,第一编码器模型是指当输入第一质量的训练声学数据时,被训练为输出用于估计第二质量的训练波形数据的特征数据的神经网络模型。
处理器120可以将第一特征数据输入到解码器模型,以获得第二质量的波形数据,该第二质量的质量高于第一质量。
在实施例中,处理器120可以将第一质量的训练声学数据输入到第一编码器模型,以获得第二特征数据。处理器120可以基于第二特征数据和用于估计第二质量的训练波形数据的特征数据之间的误差来训练第一编码器模型。将参照图2详细描述与此相关的实施例。
在另一实施例中,处理器120可将要由解码器模型输出的波形的第一特征数据和条件信息输入到解码器模型,以获得对应于条件信息的波形数据。将参照图3详细描述与此相关的实施例。
根据本公开的与人工智能相关的功能通过处理器120和存储器110来操作。处理器120可以包括一个或多个处理器。在这种情况下,一个或多个处理器是通用处理器,诸如中央处理单元(CPU)、应用处理器(AP)和数字信号处理器(DSP),图形专用处理器(诸如图形处理单元(GPU)和视觉处理单元(VPU)),或者人工智能专用处理器(诸如神经处理单元(NPU))。
一个或多个处理器120根据存储在存储器110中的预定操作规则或人工智能模型执行控制以处理输入数据。或者,当一个或多个处理器是人工智能专用处理器时,人工智能专用处理器可以被设计为专用于处理特定人工智能模型的硬件结构。
通过训练创建预定义的操作规则或人工智能模型。这里,通过训练的创建意味着通过训练算法使用多个训练数据训练基本人工智能模型来创建被设置为执行期望特性(或目的)的预定义操作规则或人工智能模型。这种训练可以在执行根据本公开的人工智能的设备本身中执行,或者可以通过单独的服务器和/或系统来执行。
训练算法的示例包括监督训练、非监督训练、半监督训练或强化训练,但不限于此。
人工智能模型包括多个人工神经网络,并且人工神经网络可以包括多个神经网络层。多个神经网络层中的每一个具有多个权重值,并且通过前一层的运算结果和多个权重之间的运算来执行神经网络运算。多个神经网络层的多个权重可以通过人工智能模型的训练结果来优化。例如,可以更新多个权重,使得在训练过程中从人工智能模型获得的损失值或成本值减小或最小化。
人工神经网络的示例包括卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限玻尔兹曼机器(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、深度Q网络等,并且除了指定的情况之外,本公开中的人工神经网络不限于上述示例。
图2是用于描述根据本公开的实施例的通过电子设备100获得第二质量的波形数据的过程的视图。
如训练步骤所示,处理器120可以训练第一编码器模型210和解码器模型230。具体地,处理器120可以将第一质量的训练声学数据输入到第一编码器模型210,以获得第二特征数据。此外,处理器120可以将第二质量的训练声学数据输入到第二质量的编码器模型220,以获得用于估计第二质量的训练波形数据的特征数据。
在这种情况下,第一质量的训练声学数据和第二质量的训练声学数据中的每一个是仅质量彼此不同而其余分量彼此相同的训练数据。也就是说,第一质量的训练声学数据和第二质量的训练声学数据是一对训练数据。此外,第二质量的编码器模型220是指使用第二质量的声学数据被训练为输出用于估计波形数据的特征数据的编码器模型。第二质量的编码器模型220可以仅在训练步骤中使用。
处理器120可以基于第二特征数据和用于估计第二质量的训练波形数据的特征数据之间的误差215来训练第一编码器模型210。也就是说,第一编码器模型210可以使用第一质量的训练声学数据被训练为输出用于估计第二质量的训练波形数据的特征数据。在这种情况下,误差215可以指第二特征数据和用于估计第二质量的训练波形数据的特征数据之间的均方误差(MSE)损失。当训练完成时,第一编码器模型210可以使用第一质量的训练声学数据输出第一特征数据。
此外,处理器120可以将用于估计第二质量的训练波形数据的特征数据输入到解码器模型230,以获得波形数据。处理器120可以基于所获得的波形数据和第二质量的训练波形数据之间的误差235来训练解码器模型230。在这种情况下,误差235可以指获得的波形数据和第二质量的训练波形数据之间的交叉熵(CE)损失。即,当用于估计第二质量的训练波形数据的特征数据被输入时,解码器模型230可以被训练为输出第二质量的训练波形数据。
因为解码器模型230没有被训练为使用第一质量的特征数据输出第二质量的训练波形数据,所以在训练期间输入的特征数据的分布没有被平滑。也就是说,解码器模型230被训练为使用第二质量的特征数据输出第二质量的训练波形数据,使得声音质量改进性能可以提高。
如图2的推断步骤所示,当在训练第一编码器模型210和解码器模型230之后提取第一质量的声学数据时,处理器120可以将提取的第一质量的声学数据输入到训练的第一编码器模型210,以获得第一特征数据。因为第一编码器模型210在训练步骤中被训练为输出第一特征数据,所以第一编码器模型210的输出可以与第二质量的编码器模型220使用第二质量的声学数据输出的特征数据相似(例如,在误差范围内)或者相同。处理器120可以将第一特征数据输入到训练的解码器模型230,以获得第二质量的波形数据。
图3是用于描述根据本公开的实施例的通过电子设备100获得第二质量的波形数据的过程的视图。如图3的训练步骤所示,处理器120可以训练第一编码器模型310和解码器模型360。
在训练步骤中,作为实施例,处理器120可以通过对抗训练方法训练第一编码器模型310以输出质量无关的第一特征数据。具体地,处理器120可以将第一质量或第二质量的声学数据之一输入到第一编码器模型310,以获得第一质量的特征数据或第二质量的特征数据之一。
处理器120可以将通过第一编码器模型310获得的特征数据输入到梯度反转模块320。梯度反转模块320是指当通过反向传播方法训练第一编码器模型310时,通过将负值分配给梯度(即,将梯度乘以-1),允许第一编码器模型310在特征数据的质量不能被分类的方向上被训练的模块。也就是说,梯度反转模块320是当第一编码器模型310不能对质量进行分类时使用的模块,并且被训练以输出与质量无关的特征数据。梯度反转模块320不影响转发步骤中的输入数据。因此,当在转发步骤中输入特征数据时,可以原样输出与输入到梯度反转模块320的特征数据相同的数据。
处理器120可以将特征数据输入到质量分类器模块330,以将特征数据分类为第一质量或第二质量。处理器120可以基于指示输入到第一编码器模型310的声学数据的质量的标签和通过质量分类器模块330分类的质量之间的误差(例如,CE损失(对抗损失))来训练质量分类器模块330。例如,处理器120可以使用反向传播方法训练质量分类器模块330,以能够准确地对输入特征数据的质量进行分类(即,训练质量分类器模块330以减少误差)。
处理器120可以通过梯度反转模块320在反向传播方法的训练过程中将梯度乘以-1。也就是说,质量分类器模块330被训练为对第一编码器模型310的输出质量进行良好分类,并且第一编码器模型310被训练为使得质量信息不被包括在输出中。此外,处理器120可以训练第一编码器模型310,以输出质量无关的第一特征数据(以下称为“QI特征数据”)340。同时,由于第一编码器模型310,当第一质量的训练声学数据和第二质量的训练声学数据是仅质量彼此不同而其余分量彼此相同的训练数据时,使用第一质量的训练声学数据输出的QI特征数据和使用第二质量的训练声学数据输出的QI特征数据可以隐含地变得彼此相同。也就是说,第一编码器模型310可被训练为输出特征数据,即使输入第一质量或第二质量的声学数据,该特征数据的除质量之外的信息也是相同的。
处理器120可以将QI特征数据340和训练条件信息350输入到解码器模型360,以获得对应于训练条件信息350的波形数据。质量的特性可能不包括在QI特征数据中。也就是说,可以从QI特征数据中分离出质量的因素。条件信息可以包括关于要由解码器模型360输出的波形的信息(例如,关于要输出的波形的质量信息)。
训练条件信息350可以包括对应于输入到第一编码器模型310的声学数据的质量的信息。当第一质量的声学数据被输入到第一编码器模型310时,训练条件信息350可以包括指示要由解码器模型360输出的波形是第一质量的波形的信息。另外,当第二质量的声学数据被输入到第一编码器模型310时,训练条件信息350可以包括指示要由解码器模型360输出的波形是第二质量的波形的信息。
例如,当训练条件信息350包括指示要由解码器模型360输出的波形是第二质量的波形的信息时,解码器模型360可以使用QI特征数据输出第二质量的波形数据。处理器120可以基于解码器模型360输出的波形数据和第二质量的训练波形数据之间的误差来训练解码器模型360输出第二质量的波形数据。
例如,当训练条件信息350包括指示要由解码器模型360输出的波形是第一质量的波形的信息时,解码器模型360可以使用QI特征数据输出第一质量的波形数据。处理器120可以基于解码器模型360输出的波形数据和第一质量的训练波形数据之间的误差来训练解码器模型360输出第一质量的波形数据。
也就是说,解码器模型360可以被训练为基于使用第一质量的训练声学数据获得的特征数据输出第一质量的训练波形数据,并且可以被训练为基于使用第二质量的训练声学数据获得的特征数据输出第二质量的训练波形数据。因此,解码器模型360可以被训练以输出具有改进性能的波形数据。
如图3的推断步骤所示,处理器120可以将第一质量的声学数据输入到训练的第一编码器模型310,以获得QI特征数据345。处理器120可以将QI特征数据345和第二质量的条件信息380输入到训练的解码器模型360,以获得第二质量的波形数据,第二质量的条件信息380包括指示要由解码器模型360输出的波形数据是第二质量的波形数据的信息。因此,解码器模型360可以输出具有改进性能的波形数据。
图4和图5是用于描述根据本公开的实施例的由电子设备100获得条件信息的过程的视图。也就是说,图4和图5是用于描述参照图3描述的获取条件信息的过程的视图。
图4是用于描述由电子设备100以监督训练方式获得条件信息的过程的视图。在训练步骤中,处理器120可以将第一质量的训练声学数据或第二质量的训练声学数据输入到第一编码器模型310,以获得QI特征数据410。上面已经描述了训练第一编码器模型310以输出QI特征数据410的过程,因此将省略重复的描述。
在这种情况下,处理器120可以将与输入到第一编码器模型310的训练声学数据的质量相对应的类别标签输入到嵌入模型400,并允许嵌入模型400输出条件信息420。嵌入模型400是指被训练来输出对应于输入类别标签的条件信息的人工智能模型。也就是说,嵌入模型400可以被训练为输出对应于类别标签的条件信息的嵌入数据。这里,嵌入数据可以以向量的形式实现,但是不限于此,并且可以以矩阵、图形等的形式实现。
作为示例,当包括指示输入到第一编码器模型310的训练声学数据的质量是第一质量的信息的类别标签被输入到嵌入模型400时,嵌入模型400可以被训练为输出包括指示要由解码器模型输出的波形是第一质量的波形的信息的条件信息420。
作为另一个示例,当包括指示输入到第一编码器模型310的训练声学数据的质量是第二质量的信息的类别标签被输入到嵌入模型400时,嵌入模型400可以被训练为输出包括指示要由解码器模型输出的波形是第二质量的波形的信息的条件信息420。
如图4的推断步骤所示,处理器120可以将第一质量的声学数据输入到第一编码器模型310,以获得QI特征数据430。处理器120可以将对应于第二质量的类别标签(即,第二质量的标签)输入到训练的嵌入模型400,以获得第二质量的条件信息440(即,指示要由解码器模型输出的波形是第二质量的波形的信息)。此外,处理器120可以将QI特征数据430和第二质量的条件信息440输入到解码器模型,以获得第二质量的波形数据。
图5是用于描述由电子设备100以无监督训练方式获得条件信息的过程的视图。在图5的训练步骤中,处理器120可以向第一编码器模型310输入第一质量的训练声学数据或第二质量的训练声学数据,以获得QI特征数据510。上面已经描述了训练第一编码器模型310以输出QI特征数据510的过程,因此将省略重复的描述。
在这种情况下,处理器120可以将输入到第一编码器模型310的训练声学数据输入到质量编码器模型500,并且允许质量编码器模型500输出第一质量的条件信息520。质量编码器模型500是指人工智能模型,其被训练为使用包括在输入训练声学数据中的特性等来输出对应于训练声学数据的质量的条件信息。质量编码器模型500可以包括参考编码器结构、全局风格令牌(GST)结构或变分自动编码器(VAE)结构中的至少一个。
当输入训练声学数据时,质量编码器模型500可被训练以检测包括训练声学数据的特性(例如,能够表示训练声学数据的质量的特性)的至少一个特征向量,并基于检测到的特征向量输出对应于训练声学数据的质量的条件信息。
作为示例,当输入第一质量的训练声学数据时,质量编码器模型500可被训练为基于输入训练声学数据中包括的至少一个特征向量来输出第一质量的条件信息(即,指示要由解码器模型输出的波形是第一质量的波形的信息)。
作为另一示例,当输入第二质量的训练声学数据时,质量编码器模型500可被训练为基于输入训练声学数据中包括的至少一个特征向量输出第二质量的条件信息(即,指示要由解码器模型输出的波形是第二质量的波形的信息)。
在推断步骤中,处理器120可以将第一质量的声学数据输入到训练的第一编码器模型310,以获得QI特征数据530。处理器120可以将第二质量的声学数据输入到质量编码器模型500,以获得第二质量的条件信息540。处理器120可以将获得的QI特征数据530和第二质量的条件信息540输入到解码器模型,以获得第二质量的波形数据。
与图4的嵌入模型400不同,图5的质量编码器模型500不输出离散的条件信息,而是输出连续的质量条件信息。因为第一质量的声学数据包括各种噪声,所以即使输入了第一质量的训练声学数据,质量编码器模型500的输出也可能是各种各样的。
同时,分别参考图4和图5描述的嵌入模型400和质量编码器模型500可以被表达为被训练来输出条件信息的条件模型。也就是说,处理器120可以将指示第二质量的标签或第二质量的声学数据输入到训练的条件模型,以获得指示要由解码器模型输出的波形是第二质量的波形的条件信息。此外,处理器120可以将通过条件模型获得的第二质量的条件信息和QI特征数据输入到解码器模型,以获得第二质量的波形数据。
图6是用于描述根据本公开的实施例的电子设备使用第一恢复模型获得声学数据的过程的视图。图6是用于描述当电子设备100以参考图2描述的方式获得第二质量的波形数据时,使用第一恢复模型240将特征数据恢复为声学数据的方法的视图。
恢复的声学数据可以用于各种信号处理模型等。在该实施例中,将描述一种方法,其中解码器模型230估计激励信号,并且信号处理模型650接收估计的激励信号和恢复的声学数据,并且通过线性预测输出第二质量的波形数据。
在训练步骤中,处理器120可以将第一质量的训练声学数据输入到第一编码器模型210,以获得第二特征数据。处理器120可以将第二特征数据输入到第一恢复模型240,以获得(或恢复)具有改进质量的声学数据。
第一恢复模型240是指人工智能模型,其将用于估计从编码器模型输出的波形的特征数据恢复到声学数据。
处理器120可以基于从第一恢复模型240输出的具有改进质量的声学数据和第二质量的训练声学数据之间的误差245来训练第一恢复模型240。也就是说,第一恢复模型240基于误差245可以被训练为基于第二特征数据输出第二质量的训练声学数据。同时,已经参考图2描述了图6的训练步骤中所示的操作,因此将省略重复的描述。
在推断步骤中,处理器120可以将第一质量的声学数据输入到训练的第一编码器模型210,以获得第一特征数据。处理器120可以将第一特征数据输入到解码器模型230,以获得激励信号。稍后将提供对激励信号的描述。同时,处理器120可以将第一特征数据输入到训练的第一恢复模型240,以获得第二质量的声学数据。
处理器120可以将激励信号和第二质量的声学数据输入到信号处理模型650,以获得第二质量的波形数据。这里,信号处理模型650可以是线性预测模块。
具体而言,可使用线性预测技术将语音信号分离成预测信号和激励信号,如等式1所示。在等式1中,pt表示时间t处的预测信号,st表示时间t处的语音信号,ak表示线性预测系数。
[等式1]
另外,激励信号是指语音信号和预测信号之间的差,并且可以由等式2表示。在等式2中,et指激励信号。
[等式2]
st=pt+et
信号处理模型650可以通过声学数据计算线性预测系数。例如,信号处理模型650可以使用莱文森-杜宾算法(Levinson-Dubin algorithm)等通过声学数据来计算线性预测系数。当计算线性预测系数时使用低质量声学数据时,最终输出的波形数据的声音质量可能恶化。因此,处理器120可以使用第一恢复模型240将第二质量的声学数据输入到信号处理模型650,以获得线性预测系数。
此外,处理器120可以使用通过信号处理模型650计算的线性预测系数和激励信号来获得第二质量的波形数据。
由信号处理模型650输出的第二质量的波形数据可以由等式3表示。在等式3中,是指从解码器模型230输出的激励信号,/>是指第二质量的波形数据,ak是指线性预测系数。
[等式3]
图7是用于描述根据本公开的实施例的电子设备使用第二恢复模型获得声学数据的过程的视图。图7是用于描述当电子设备100以参考图3描述的方式获得第二质量的波形数据时,使用第二恢复模型将特征数据恢复为声学数据的方法的视图。
恢复的声学数据可以用于各种信号处理模型等。类似于图6,在图7中,将描述一种方法,其中解码器模型360估计激励信号,信号处理模型650接收估计的激励信号和恢复的声学数据,并通过线性预测输出第二质量的波形数据。在训练步骤中,处理器120可以训练第一编码器模型310,使得第一编码器模型310基于第一质量或第二质量的训练声学数据输出QI特征数据。已经参照图3详细描述了训练第一编码器模型310的过程,因此将省略重复的描述。
同时,处理器120可以训练第二恢复模型370,使得第二恢复模型370基于QI特征数据340和训练条件信息350输出(或恢复)对应于训练条件信息350的质量的声学数据。
例如,当训练条件信息350包括指示QI特征数据340是通过第一质量的训练声学数据获取的信息时,第二恢复模型370可以使用QI特征数据340输出(或恢复)第一质量的声学数据。处理器120可以基于从第二恢复模型370输出的第一质量的声学数据和输入到第一编码器模型310的第一质量的训练声学数据之间的误差来训练第二恢复模型370。也就是说,可以使用QI特征数据340和训练条件信息350来训练第二恢复模型370,以恢复对应于训练条件信息350的质量的声学数据。
在推断步骤中,处理器120可以将第一质量的声学数据输入到训练的第一编码器模型310,以获得QI特征数据370。此外,处理器120可以将QI特征数据370和第二质量的条件信息380输入到解码器模型360,以获得激励信号。
同时,处理器120可以将QI特征数据370和第二质量的条件信息380输入到训练的第二恢复模型370,以获得第二质量的声学数据。处理器120可以将激励信号和第二质量的声学数据输入到信号处理模型650,以获得第二质量的波形数据。已经参照图6详细描述了处理器120使用信号处理模型650获得第二质量的波形数据的过程,因此将省略重复的描述。
图8是用于描述根据本公开的实施例的电子设备100使用第三恢复模型获得声学数据的过程的视图。图8是用于描述当电子设备100以参考图2描述的方式获得第二质量的波形数据时,使用第三恢复模型将特征数据恢复为声学数据的方法的视图。
在训练步骤中,处理器120可以将第一质量的训练声学数据输入到第三恢复模型250,以获得具有改进质量的声学数据。处理器120可以基于从第三恢复模型250输出的声学数据和第二质量的训练声学数据之间的误差260来训练第三恢复模型250。也就是说,当输入第一质量的声学数据时,第三恢复模型250可以被训练为输出(或恢复)第二质量的声学数据。
处理器120可以将通过第三恢复模型250获得的第二质量的声学数据输入到第一编码器模型210,以获得用于估计波形的特征数据。在这种情况下,与参照图2描述的第二特征数据相比,从第一编码器模型210输出的特征数据可以是具有改进质量的数据。
此外,处理器120可以基于具有改进质量的特征数据和用于估计从第二质量的编码器模型220输出的第二质量的训练波形数据的特征数据之间的误差255来训练第一编码器模型210。已经参照图2详细描述了与此相关的实施例,因此将省略重复的描述。
在推断步骤中,处理器120可以将第一质量的声学数据输入到第三恢复模型250,以获得第二质量的声学数据。处理器120可以将第二质量的声学数据输入到第一编码器模型210,以获得与第一特征数据相比具有改进质量的特征数据。处理器120可以将具有改进质量的特征数据输入到解码器模型230,以获得激励信号。
处理器120可以将第二质量的声学数据和激励信号输入到信号处理模型650,以获得第二质量的波形数据。上面已经描述了通过信号处理模型650获得第二质量的波形数据的过程,因此将省略重复的描述。
图9是用于描述根据本公开的实施例的由电子设备100输出与第一域相关的具有改进质量的波形数据的过程的视图。也就是说,图9是用于描述电子设备100仅增强所有声学数据中特定类型的声学数据的方法的视图。
同时,声学数据的域是指声学数据的类型,并且可以包括例如频谱、梅尔频谱、倒谱和音高数据(例如,音高滞后和音高相关性)。
作为示例,当期望扩展语音信号的带宽时,就声音质量改进而言,不改变声学数据的音高数据可能是优选的。作为另一个示例,当期望改进PTTS的声音质量时,就声音质量改进而言,不改变音高相关性可能是优选的。因此,电子设备100可以通过稍后描述的方法,仅改进声学数据中与第一域相关的质量。
在训练步骤中,处理器120可以将第一质量的训练声学数据中与第一域相关的第一声学数据输入到第二编码器模型900,以获得第一质量的与第一域相关的特征数据。与第一域相关的特征数据是指用于估计波形数据的与第一域相关的数据。例如,如图9所示,处理器120可以将第一质量的训练声学数据中的第一质量的倒谱数据输入到第二编码器模型900,以获得第一质量的倒谱特征数据。
同时,处理器120可以将第二质量的训练声学数据中与第一域相关的数据输入到第二质量的编码器模型910,以获得第二质量的与第一域相关的特征数据。例如,处理器120可以将第二质量的训练声学数据中的第二质量的倒谱数据输入到第二质量的编码器模型910以获得第二质量的倒谱特征数据。
处理器120可以基于第一质量的与第一域相关的特征数据和第二质量的与第一域相关的特征数据之间的误差905来训练第二编码器模型900。也就是说,第二编码器模型900可以被训练为使用第一质量的与第一域相关的数据来输出第二质量的与第一域相关的特征数据。
同时,处理器120可以将第二质量的训练声学数据中第二质量的与第二域相关的数据输入到第三编码器模型920,以获得第二质量的与第二域相关的特征数据。此外,处理器120可以将第二质量的与第一域相关的特征数据(例如,第二质量的倒谱特征数据)和第二质量的与第二域相关的特征数据(例如,第二质量的音高特征数据)输入到解码器模型930,以获得波形数据。
此外,处理器120可以基于获得的波形数据和第二质量的训练波形数据之间的误差935来训练解码器模型930。也就是说,解码器模型930可以被训练为使用第二质量的与第一域和第二域相关的特征数据来输出第二质量的训练波形数据。
如图9的推断步骤所示,在实施例中,第一质量的声学数据可以包括倒谱数据和音高数据。倒谱数据可以具有谱包络信息(例如,发音、声道和噪声信息)。因为音高数据不受噪声的影响,所以最好按原样利用音高数据。因此,电子设备100可以仅改进声学数据中的特定域的数据(倒谱数据),并且照原样利用其余域的数据(音高数据)。
处理器120可以将第一质量的声学数据中与第一域相关的数据(例如,倒谱数据)输入到训练的第二编码器模型900,以获得第三特征数据(例如,倒谱特征数据)。此外,处理器120可以将第一质量的声学数据中与第二域相关的数据(例如,音高数据)输入到第三编码器模型920,以获得第四特征数据(例如,音高特征数据)。处理器120可以将第三特征数据和第四特征数据输入到解码器模型930,以获得第二质量的波形数据。
图10是用于描述根据本公开的实施例的由电子设备100输出与第一域相关的具有改进质量的波形数据的过程的视图。图10是用于描述如参考图9所述的仅提高与声学数据中特定领域相关的质量的方法的视图。
处理器120可以将第一质量或第二质量的训练声学数据中的第一质量或第二质量的与第一域相关的数据(例如,倒谱数据)输入到第二编码器模型1010,以获得QI特征数据1040。通过对抗训练方法训练第二编码器模型1010以输出QI特征数据的过程与通过对抗训练方法训练图3的第一编码器模型310以输出QI特征数据的过程相同。
处理器120可将第一质量或第二质量的声学数据中的音高数据输入到第三编码器模型1020,以获得与第二域相关的条件信息1060(例如,音高条件信息)。与第二域相关的信息可以包括估计波形数据时所需的与第二域相关的信息。
处理器120可将QI特征数据1040、对应于输入到第二编码器模型的与第一域相关的数据质量的训练条件信息1050以及与第二域相关的条件信息1060输入到解码器模型1030,以获得对应于训练条件信息1050的质量的波形数据。处理器120可以基于获得的对应于训练条件信息1050的质量的波形数据和对应于训练条件信息1050的波形的训练波形数据之间的误差1065来训练解码器模型1030。也就是说,解码器模型1030可以被训练以输出具有与第一域相关的改进质量的波形数据。
在推断步骤中,处理器120可以将第一质量的声学数据中与第一域相关的数据(例如,倒谱数据)输入到训练的第二编码器模型1010,以获得第三特征数据1070。处理器120可将第一质量的声学数据中与第二域相关的数据(例如,音高数据)输入到第三编码器模型1020,以获得与第二域相关的条件信息1090(例如,音高条件信息)。
处理器120可将QI特征数据1070、与第二域相关的条件信息1090和第二质量的条件信息1080输入到解码器模型1030,以获得第二质量的波形数据。也就是说,处理器120可通过解码器模型1030获得与第一域相关的改进质量的波形数据。
图11是用于描述根据本公开的实施例的电子设备100输出多个类别的波形数据的过程的视图。
在训练步骤中,处理器120可以向第四编码器模型1110输入训练声学数据,以获得特征数据。处理器120可以将特征数据输入到类别分类器模块1140,以获得对应于特征数据的类别。如图11所示,在将特征数据输入到类别分类器模块1140之前,处理器120将特征数据输入到梯度反转模块1135,但是在转发步骤中,梯度反转模块1135原样输出特征数据。
处理器120可以基于对应于特征数据的类别的标签和对应于输入到第四编码器模型1110的声学数据的类别的标签之间的误差1115,通过反向传播方法等来训练类别分类器模块1140。
处理器120可以训练第四编码器模型1110,使得第四编码器模型1110通过梯度反转模块1135将梯度乘以负值(例如-1)来输出类别无关特征数据(以下称为“CI特征数据”)1130。CI特征数据中可能不包括该类别的特性。该类别的因素可以从CI特征数据中分离出来。类别条件信息可以包括关于要由解码器模型1120输出的波形的信息(例如,关于要输出的波形的类别信息)。
处理器120可以将对应于输入到第四编码器模型1110的声学数据的类别的训练类别条件信息1145和CI特征数据1130输入到解码器模型1120,以获得具有对应于训练类别条件信息1145的类别的波形数据。也就是说,训练类别条件信息1145可以包括关于要由解码器模型1120输出的波形的类别的信息。
处理器120可以基于获得的波形数据和具有对应于训练类别条件信息1145的类别的训练波形数据之间的误差1125来训练解码器模型1120。也就是说,解码器模型1120可被训练以输出具有对应于训练类别条件信息的类别的波形数据。
在推断步骤中,处理器120可以将第一类别的声学数据输入到第四编码器模型1110,以获得CI特征数据(例如,独立于第一类别的第四特征数据)。处理器120可以将CI特征数据1150和第二类别条件信息1160输入到解码器模型1120,以获得第二类别的波形数据。第二类别条件信息1160可以包括关于将由解码器模型1120输出的波形的类别的信息。
例如,假设第一类别是钢琴声音,第二类别是小提琴声音。处理器120可以使用针对钢琴声音的声学数据训练的第四编码器模型1110将钢琴声音转换(或合成)为小提琴声音。作为另一个示例,假设第一类别是男性语音,第二类别是女性语音。处理器120可以通过使用针对男性语音的声学数据训练的第四编码器模型1110,将男性语音转换(或合成)为女性语音。
也就是说,处理器120可以改变输入到第四编码器模型1110的声学数据的类别和输入到解码器模型1120的类别的条件信息,以获得各种波形数据。
同时,参考图2至图11描述的训练步骤可以在电子设备100外部执行。例如,可以在存储训练数据的外部设备(例如,服务器)中训练每个编码器模型和解码器模型。
此外,作为示例,电子设备100可以使用通信模块从外部设备接收训练的编码器模型和解码器模型。作为另一个示例,电子设备100可以安装有硬件模块,该硬件模块包括来自外部设备的训练的编码器模型和解码器模型。电子设备100可以使用训练的编码器模型和解码器模型来执行在每个图的推断步骤中描述的操作。
图12是用于描述根据本公开的实施例的电子设备100的控制方法的流程图。
电子设备100可将第一质量的声学数据输入到第一编码器模型,以获得用于估计波形的第一特征数据(操作S1210)。在这种情况下,第一编码器模型是指,当输入第一质量的训练声学数据时,被训练为输出用于估计高于第一质量的第二质量的训练波形数据的特征数据的人工智能模型。
在实施例中,电子设备100可以基于通过将第一质量的训练声学数据输入到第一编码器模型而获得的第二特征数据和用于估计具有第二质量的训练波形数据的特征数据之间的误差来训练第一编码器模型。在另一实施例中,电子设备100可以通过对抗训练方法来训练第一编码器模型以输出质量无关的第一特征数据。
电子设备100可将第一特征数据输入到解码器模型,以获得第二质量的波形数据(操作S1220)。
在实施例中,电子设备100可以训练解码器模型以基于用于估计第二质量的训练波形数据的特征数据来输出第二质量的训练波形数据。在另一实施例中,电子设备100可以训练解码器模型,以基于要由解码器模型输出的波形的条件信息和第一特征数据,输出对应于条件信息的质量的波形数据。
图13是详细示出根据本公开的实施例的电子设备100的组件的框图。如图13所示,电子设备100可以包括存储器110、处理器120、扬声器130、通信接口140、麦克风150、用户接口160、显示器170和相机180。已经参考图1至11详细描述了存储器110和处理器120,因此将省略重复的描述。
扬声器130是被配置为输出各种警报或语音消息以及各种音频数据的组件,处理器120对这些音频数据执行各种处理工作,诸如解码、放大和噪声过滤。例如,处理器120可以对从训练的解码器模型输出的波形数据执行各种处理。扬声器130可以输出已经执行了处理的波形数据。
同时,用于输出音频的组件可以被实现为扬声器,但是这仅仅是示例,并且用于输出音频的组件可以被实现为可以输出音频数据的输出终端。
通信接口140可以包括电路,并且执行与多组服务器、多组外部设备或其他设备的通信。通信接口140可以包括各种通信模块,以执行与外部设备的通信。
作为示例,通信接口140可以包括无线通信模块,诸如,例如使用长期演进(LTE)、高级LTE(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)、第五代(5G)或全球移动通信系统(GSM)中的至少一种的蜂窝通信模块。作为另一个示例,无线通信模块可以使用例如无线保真(Wi-Fi)、蓝牙、蓝牙低能量(BLE)或Zigbee中的至少一种。
通信接口140可以从外部设备接收用于训练每个编码器模型和解码器模型的训练数据。作为另一个示例,通信接口140可以从外部设备接收训练的编码器模型和解码器模型。作为另一个示例,通信接口140可以从外部设备接收要输入到编码器模型的声学数据。
麦克风150接收用户的语音输入。例如,麦克风150可以通过对话系统接收指示语音识别开始的触发语音输入(或唤醒语音输入),并且可以接收用于请求特定信息的用户查询。例如,从麦克风150接收的语音输入可以由处理器120输入到对话系统。
同时,麦克风150可以设置在电子设备100内部,但是可以设置在电子设备100外部并且电连接到电子设备100。作为另一个示例,麦克风150可以设置在电子设备100的外部,并且通信连接到电子设备100。
用户接口160可以接收用于控制电子设备100的用户输入。具体地,用户接口160可以包括用于接收使用用户的手、手写笔等的用户触摸的触摸面板、用于接收用户操纵的按钮等。此外,用户接口160可以被实现为另一输入设备(例如,键盘、鼠标或运动输入)。
显示器170可以根据处理器120的控制显示各种信息。作为示例,显示器170可以显示指示波形数据已经通过解码器模型输出的指示符。作为另一示例,显示器170可以显示与输入到每个编码器和解码器模型的声学数据或特征数据相对应的类别(例如,质量的类型)。
显示器170可以通过各种显示技术来实现,诸如液晶显示器(LCD)、有机发光二极管(OLED)、有源矩阵OLED(AM-OLED)、硅上液晶(LcoS)和数字光处理(DLP)。
此外,显示器170可以以柔性显示器的形式耦合到电子设备100的前部区域、侧部区域或后部区域中的至少一个。此外,显示器170可以被实现为包括触摸传感器的触摸屏。
相机180是能够通过拍摄电子设备100的周围获得一个或多个图像的组件。例如,相机180可以通过拍摄电子设备100的周围来获得包括多个图像帧的运动图片。作为示例,处理器120可以将通过相机180获得的运动画面中包括的声音的声学数据输入到编码器模型。
同时,应当理解,本公开中提到的技术不限于特定实施例,而是包括根据本公开的实施例的所有修改、等同物和/或替代物。在所有附图中,相似的组件将由相似的附图标记表示。
在本公开中,表述“具有”、“可以具有”、“包括”或“可以包括”表示对应特征(例如,数值、函数、操作或诸如部件的组件)的存在,并且不排除附加特征的存在。
在本公开中,表述“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或多个”可以包括一起列举的项目的所有可能组合。例如“,A或B”、“A和B中的至少一个”或“A或B中的至少一个”可以表示所有1)包括至少一个A的情况,2)包括至少一个B的情况,或3)包括至少一个A和至少一个B的情况。
在本公开中使用的表达“第一”或“第二”可以指示各种组件,而不管组件的顺序和/或重要性,将仅用于将一个组件与其他组件区分开来,并且不限制对应的组件。
当提到任何组件(例如,第一组件)被(可操作地或通信地)耦合到或连接到另一组件(例如,第二组件)时,应当理解,任何组件被直接耦合到另一组件,或者可以通过另一组件(例如,第三组件)耦合到另一组件。另一方面,当提到任何组件(例如,第一组件)“直接耦合”或“直接连接”到另一组件(例如,第二组件)时,应当理解,另一组件(例如,第三组件)不存在于任何组件和另一组件之间。
根据情况,本公开中使用的表述“被配置(或设置)为”可以由表述“适合于”、“具有能力”、“设计成”、“适应于”、“制成”或“能够”来代替。术语“被配置(或设置)为”未必意味着硬件中的“专门设计为”。相反,在一些情况下,表述“装置被配置为”可以意味着该装置可以与其他装置或组件一起“做”。例如,“被配置(或设置)为执行A、B和C的处理器”可以表示用于执行对应的操作的专用处理器(例如,嵌入式处理器),或者可以通过执行存储在存储器设备中的一个或多个软件程序来执行对应的操作的通用处理器(例如,中央处理单元(CPU)或应用处理器)。
同时,本公开中使用的术语“器/者”(~er/or)或“模块”可以包括由硬件、软件或固件配置的单元,并且可以与诸如逻辑、逻辑块、组件、电路等术语兼容使用。术语“器/者”(~er/or)或“模块”可以是整体配置的组件或执行一个或多个功能的最小单元或其一部分。例如,该模块可以由专用集成电路(ASIC)来配置。
本公开的各种实施例可以由包括存储在机器可读存储介质(例如,计算机可读存储介质)中的指令的软件来实现。机器可以是从存储介质调用所存储的指令的设备,并且可以根据所调用的指令来操作,并且可以包括根据所公开的实施例的电子设备(例如,电子设备100)。在处理器执行命令的情况下,处理器可以直接执行对应于该命令的功能,或者其他组件可以在处理器的控制下执行对应于该命令的功能。该命令可以包括由编译器或解释器创建或执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。这里,术语“非暂时性存储介质”意味着存储介质是有形的,不包括信号,并且不区分数据是半永久地还是临时地存储在存储介质中。例如,“非暂时性存储介质”可以包括缓冲器。
根据实施例,根据该文献中公开的不同实施例的方法可以包括在计算机程序产品中并在其中提供。计算机程序产品可以作为产品在卖方和买方之间交易。计算机程序产品可以以存储介质(例如,光盘只读存储器(CD-ROM))的形式分发,该存储介质可以由机器读取或者通过应用商店(例如,PlayStoreTM)在线读取。在在线分发的情况下,计算机程序产品的至少一部分可以至少临时存储在诸如制造商的服务器、应用商店的服务器或中继服务器的存储器的存储介质中,或者被临时创建。
根据不同实施例的每个组件(例如,模块或程序)可以包括单个实体或多个实体,并且上述一些对应的子组件可以被省略,或者其他子组件可以还包括在不同实施例中。替代地或附加地,一些组件(例如,模块或程序)可以被集成到一个实体中,并且可以在以相同或相似的方式被集成之前执行由相应的相应组件执行的功能。由根据不同实施例的模块、程序或其他组件执行的操作可以以顺序方式、并行方式、迭代方式或启发式方式执行,至少一些操作可以以不同的顺序执行或被省略,或者可以添加其他操作。
Claims (15)
1.一种电子设备,包括:
存储器;以及
处理器,被配置为:
将第一质量的声学数据输入到第一编码器模型中;
基于将第一质量的声学数据输入到第一编码器模型中,获得用于估计波形的第一特征数据;
将第一特征数据输入到解码器模型中;和
基于将第一特征数据输入到解码器模型中,获得比第一质量更高质量的第二质量的波形数据,
其中,基于第一质量的训练声学数据被输入,第一编码器模型被训练为输出用于估计第二质量的训练波形数据的特征数据。
2.根据权利要求1所述的电子设备,其中,所述处理器还被配置为:
基于通过将第一质量的训练声学数据输入到第一编码器模型中而获得的第二特征数据和用于估计第二质量的训练波形数据的特征数据之间的误差来训练第一编码器模型;和
基于用于估计第二质量的训练波形数据的特征数据,训练解码器模型以输出第二质量的训练波形数据。
3.根据权利要求1所述的电子设备,其中,所述处理器还被配置为:
将第一特征数据输入到用于将用于估计波形的特征数据恢复为声学数据的第一恢复模型中;和
基于将第一特征数据输入到用于将用于估计波形的特征数据恢复为声学数据的第一恢复模型中,获得第二质量的声学数据,
其中,基于第一质量的训练特征数据被输入,第一恢复模型被训练为输出第二质量的训练声学数据。
4.根据权利要求1所述的电子设备,其中,所述处理器还被配置为:
将第一质量的声学数据中与第一域相关的第一声学数据输入到第二编码器模型中;
基于将第一质量的声学数据中与第一域相关的第一声学数据输入到第二编码器模型,获得第三特征数据;
将第一质量的声学数据中与第二域相关的第二声学数据输入到第三编码器模型中;
基于将第一质量的声学数据中与第二域相关的第二声学数据输入到第三编码器模型,获得第四特征数据;和
基于将第三特征数据和第四特征数据输入到解码器模型中,获得对应于第一域的第二质量的波形数据,
其中,基于第一质量的训练声学数据中与第一域相关的第一训练声学数据被输入,第二编码器模型被训练为输出用于估计对应于第一域的第二质量的训练波形数据的特征数据。
5.根据权利要求1所述的电子设备,其中,所述处理器还被配置为:
将要由解码器模型输出的波形的第一特性数据和条件信息输入到解码器模型中;和
基于将要由解码器模型输出的波形的第一特性数据和条件信息输入到解码器模型中,获得对应于条件信息的波形数据,
其中,第一编码器模型通过对抗训练方法被训练为输出质量无关的第一特征数据。
6.根据权利要求5所述的电子设备,其中,所述处理器还被配置为:
基于训练条件信息指示要由解码器模型输出的波形是第二质量的波形,使用第一特征数据来训练解码器模型输出第二质量的波形数据;和
基于训练条件信息指示要由解码器模型输出的波形是第一质量的波形,使用第一特征数据来训练解码器模型输出第一质量的波形数据。
7.根据权利要求6所述的电子设备,其中,所述处理器还被配置为:
将第一特征数据和条件信息输入到用于将用于估计波形的特征数据恢复为声学数据的第二恢复模型中;和
基于将第一特征数据和条件信息输入到用于将用于估计波形的特征数据恢复为声学数据的第二恢复模型中,获得对应于所述条件信息的声学数据,
其中,基于第一质量的训练特征数据和训练条件信息被输入,第二恢复模型被训练为输出对应于训练条件信息的声学数据。
8.根据权利要求6所述的电子设备,其中,所述处理器还被配置为:
将指示第二质量的标签或第二质量的声学数据输入到被训练为输出条件信息的条件模型中;
基于将指示第二质量的标签或第二质量的声学数据输入到被训练为输出条件信息的条件模型中,获得指示要由解码器模型输出的波形是第二质量的波形的条件信息;
将指示要由解码器模型输出的波形是第二质量的波形的条件信息和第一特征输入到解码器模型中;和
基于将指示要由解码器模型输出的波形是第二质量的波形的条件信息和第一特征输入到解码器模型中,获得第二质量的波形数据。
9.根据权利要求1所述的电子设备,其中,所述处理器还被配置为:
将第一质量的声学数据输入到被训练为改进质量的改进模型;
基于将第一质量的声学数据输入到被训练为改进声学数据的质量的改进模型,获得第二质量的声学数据;
将第二质量的声学数据输入到第一编码器模型中;
基于将第二质量的声学数据输入到第一编码器模型中,获得与第一特征数据相比具有改进质量的特征数据;
将与第一特征数据相比具有改进质量的特征数据输入到解码器模型中;
基于将与第一特征数据相比具有改进质量的特征数据输入到解码器模型中,获得激励信号;
将激励信号和第二质量的声学数据输入到信号处理模型中;和
基于将激励信号和第二质量的声学数据输入到信号处理模型中,获得第二质量的波形数据。
10.根据权利要求1所述的电子设备,其中,所述处理器还被配置为:
将多个类别中的第一类别的声学数据输入到通过对抗训练方法被训练为输出独立于所述多个类别的特征数据的第四编码器模型中;
基于将所述多个类别中的第一类别的声学数据输入到通过对抗训练方法被训练为输出独立于所述多个类别的特征数据的第四编码器模型中,获得独立于第一类别的第五特征数据;
将第五特征数据和指示要由解码器模型输出的波形是所述多个类别中的第二类别的波形的条件信息输入到解码器模型中;和
基于将第五特征数据和指示要由解码器模型输出的波形是所述多个类别中的第二类别的波形的条件信息输入到解码器模型中,获得第二类别的波形数据。
11.一种电子设备的控制方法,所述方法包括:
将第一质量的声学数据输入到第一编码器模型中;
基于将第一质量的声学数据输入到第一编码器模型中,获得用于估计波形的第一特征数据;
将第一特征数据输入到解码器模型中;以及
基于将第一特征数据输入到解码器模型中,获得比第一质量更高质量的第二质量的波形数据,
其中,基于第一质量的训练声学数据被输入,第一编码器模型被训练为输出用于估计第二质量的训练波形数据的特征数据。
12.根据权利要求11所述的控制方法,还包括:
基于通过将第一质量的训练声学数据输入到第一编码器模型中而获得的第二特征数据和用于估计第二质量的训练波形数据的特征数据之间的误差来训练第一编码器模型;以及
基于用于估计第二质量的训练波形数据的特征数据,训练解码器模型以输出第二质量的训练波形数据。
13.根据权利要求11所述的控制方法,还包括:
将第一特征数据输入到用于将用于估计波形的特征数据恢复为声学数据的第一恢复模型中;以及
基于将第一特征数据输入到用于将用于估计波形的特征数据恢复为声学数据的第一恢复模型中,获得第二质量的声学数据,
其中,基于第一质量的训练特征数据被输入,第一恢复模型被训练为输出第二质量的训练声学数据。
14.根据权利要求11所述的控制方法,还包括:
将第一质量的声学数据中与第一域相关的第一声学数据输入到第二编码器模型中;
基于将第一质量的声学数据中与第一域相关的第一声学数据输入到第二编码器模型,获得第三特征数据;
将第一质量的声学数据中与第二域相关的第二声学数据输入到第三编码器模型中;
基于将第一质量的声学数据中与第二域相关的第二声学数据输入到第三编码器模型,获得第四特征数据;
将第三特征数据和第四特征数据输入到解码器模型中;以及
基于将第三特征数据和第四特征数据输入到解码器模型中,获得对应于第一域的具有第二质量的波形数据,
其中,基于第一质量的训练声学数据中与第一域相关的第一训练声学数据被输入,第二编码器模型被训练为输出用于估计对应于第一域的具有改进的质量的训练波形数据的特征数据。
15.根据权利要求11所述的控制方法,还包括:
将要由解码器模型输出的波形的第一特性数据和条件信息输入到解码器模型中;和
基于将要由解码器模型输出的波形的第一特性数据和条件信息输入到解码器模型中,获得对应于条件信息的波形数据,
其中,第一编码器模型通过对抗训练方法被训练以输出质量无关的第一特征数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210021583A KR20220118009A (ko) | 2021-02-18 | 2021-02-18 | 전자 장치 및 이의 제어 방법 |
KR10-2021-0021583 | 2021-02-18 | ||
PCT/KR2021/012853 WO2022177091A1 (ko) | 2021-02-18 | 2021-09-17 | 전자 장치 및 이의 제어 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116888665A true CN116888665A (zh) | 2023-10-13 |
Family
ID=82800463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180093889.0A Pending CN116888665A (zh) | 2021-02-18 | 2021-09-17 | 电子设备及其控制方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220262377A1 (zh) |
EP (1) | EP4207192A4 (zh) |
CN (1) | CN116888665A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230153532A1 (en) * | 2021-11-16 | 2023-05-18 | Microsoft Technology Licensing, Llc | Language-model pretraining with gradient-disentangled embedding sharing |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7003953B2 (ja) * | 2019-03-14 | 2022-01-21 | オムロン株式会社 | 学習装置、推定装置、データ生成装置、学習方法、及び学習プログラム |
-
2021
- 2021-09-17 EP EP21926890.1A patent/EP4207192A4/en active Pending
- 2021-09-17 CN CN202180093889.0A patent/CN116888665A/zh active Pending
-
2022
- 2022-04-04 US US17/712,417 patent/US20220262377A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220262377A1 (en) | 2022-08-18 |
EP4207192A1 (en) | 2023-07-05 |
EP4207192A4 (en) | 2024-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109741736B (zh) | 使用生成对抗网络进行鲁棒语音识别的系统和方法 | |
US11538463B2 (en) | Customizable speech recognition system | |
CN108520741B (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
CN111179961B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
Sriram et al. | Robust speech recognition using generative adversarial networks | |
JP2019522810A (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
KR20170053525A (ko) | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 | |
CN111192576A (zh) | 解码方法、语音识别设备和系统 | |
CN116134453A (zh) | 机器学习模型层的无监督联邦学习 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN113886643A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
CN113963715A (zh) | 语音信号的分离方法、装置、电子设备及存储介质 | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
CN116888665A (zh) | 电子设备及其控制方法 | |
US10991363B2 (en) | Priors adaptation for conservative training of acoustic model | |
CN113886644A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
US11875809B2 (en) | Speech denoising via discrete representation learning | |
KR102409873B1 (ko) | 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템 | |
JP2023169230A (ja) | コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法 | |
CN113795880A (zh) | 电子设备及其控制方法 | |
KR20220118009A (ko) | 전자 장치 및 이의 제어 방법 | |
KR102663654B1 (ko) | 적응형 시각적 스피치 인식 | |
US20240119922A1 (en) | Text to speech synthesis without using parallel text-audio data | |
WO2023281717A1 (ja) | 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム | |
CN115249483A (zh) | 用于管理声码器模型的方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |