CN108847215A - 基于用户音色进行语音合成的方法及装置 - Google Patents
基于用户音色进行语音合成的方法及装置 Download PDFInfo
- Publication number
- CN108847215A CN108847215A CN201810996446.2A CN201810996446A CN108847215A CN 108847215 A CN108847215 A CN 108847215A CN 201810996446 A CN201810996446 A CN 201810996446A CN 108847215 A CN108847215 A CN 108847215A
- Authority
- CN
- China
- Prior art keywords
- user
- audio
- data
- subdata
- user data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 38
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 42
- 230000001755 vocal effect Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Telephone Function (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于用户音色进行语音合成的方法及装置,其中,该方法包括:获取用户输入的用户音频数据,并确定用户音频数据的用户音色特征;根据用户音色特征和测试数据合成与测试数据对应的测试音频数据并播放,并接收用户指向测试音频数据的播放调整指令;根据播放调整指令修正用户音色特征,将修正后的用户音色特征作为最终的标准音色特征;根据标准音色特征和待播放数据合成与待播放数据对应的目标音频数据并播放。该方法提取用户的音色特征并基于用户的音色特征来播放音频数据,从而可以模仿用户发声,提高播放音频时的真实性;基于用户的播放调整指令可对音色特征进行调整,使得最终播放音频数据时更加符合用户的特征和需求。
Description
技术领域
本发明涉及语音处理技术领域,特别涉及一种基于用户音色进行语音合成的方法及装置。
背景技术
随着智能设备的普及,目前大多数智能设备(比如智能手机、机器人等)具有自动发音功能。但目前大部分智能设备只是单纯的发出机器声音,对于需要通过语音进行人机交互的智能设备,机器声音比较单调乏味,听起来没有自然语言那样生动形象,且过于生硬,并不能体现出用户本身的特色。而现有智能设备并不支持用户自主改变机器发声的音色。
发明内容
本发明提供一种基于用户音色进行语音合成的方法及装置,用以解决用户不能自主改变机器发声的音色的缺陷。
本发明提供的一种基于用户音色进行语音合成的方法,包括:
获取用户输入的用户音频数据,并确定所述用户音频数据的用户音色特征;
根据所述用户音色特征和测试数据合成与所述测试数据对应的测试音频数据并播放,并接收用户指向所述测试音频数据的播放调整指令;
根据所述播放调整指令修正所述用户音色特征,将修正后的用户音色特征作为最终的标准音色特征;
根据所述标准音色特征和待播放数据合成与所述待播放数据对应的目标音频数据;
获取用户输入的发送指令,所述发送指令中包括音频接收端标识;
将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端,由所述音频接收端将所述目标音频数据作为自身的音频播放源。
在一种可能的实现方式中,所述获取用户输入的用户音频数据包括:
以预设采样率依次采集当前的环境噪声和用户音频数据,所述预设采样率不小于预设阈值;
在所述环境噪声和所述用户音频数据的幅值均不超过相应的预设幅值时,根据所述环境噪声和所述用户音频数据确定信噪比;
在所述信噪比不小于预设信噪比阈值时,将当前采集的所述用户音频数据作为有效的用户音频数据。
在一种可能的实现方式中,在所述信噪比不小于预设信噪比阈值时,将当前采集的所述用户音频数据作为有效的用户音频数据包括:
根据所述环境噪声对所述用户音频数据进行补偿处理,将补偿处理后的用户音频数据作为最终有效的用户音频数据。
在一种可能的实现方式中,所述获取用户输入的用户音频数据包括:
分段获取用户输入的用户音频子数据,将所有的所述用户音频子数据组合成为与所述用户对应的用户音频数据。
在一种可能的实现方式中,所述将所有的所述用户音频子数据组合成为与所述用户对应的用户音频数据包括:
对每段用户音频子数据进行声纹识别处理,并确定每段用户音频子数据的声纹特征;
分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度,在所述当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时,将所述当前用户音频子数据作为无效的用户音频子数据;
清除无效的用户音频子数据,并将剩余的所有的用户音频子数据组合成为与所述用户对应的用户音频数据。
基于同样的发明构思,本发明还提供一种基于用户音色进行语音合成的装置,包括:
获取模块,用于获取用户输入的用户音频数据,并确定所述用户音频数据的用户音色特征;
第一合成模块,用于根据所述用户音色特征和测试数据合成与所述测试数据对应的测试音频数据并播放,并接收用户指向所述测试音频数据的播放调整指令;
修正模块,用于根据所述播放调整指令修正所述用户音色特征,将修正后的用户音色特征作为最终的标准音色特征;
第二合成模块,用于根据所述标准音色特征和待播放数据合成与所述待播放数据对应的目标音频数据;
第二获取模块,用于获取用户输入的发送指令,所述发送指令中包括音频接收端标识;
发送模块,用于将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端,由所述音频接收端将所述目标音频数据作为自身的音频播放源。
在一种可能的实现方式中,所述第一获取模块包括:
采集单元,用于以预设采样率依次采集当前的环境噪声和用户音频数据,所述预设采样率不小于预设阈值;
处理单元,用于在所述环境噪声和所述用户音频数据的幅值均不超过相应的预设幅值时,根据所述环境噪声和所述用户音频数据确定信噪比;在所述信噪比不小于预设信噪比阈值时,将当前采集的所述用户音频数据作为有效的用户音频数据。
在一种可能的实现方式中,在所述信噪比不小于预设信噪比阈值时,所述处理单元用于:
根据所述环境噪声对所述用户音频数据进行补偿处理,将补偿处理后的用户音频数据作为最终有效的用户音频数据。
在一种可能的实现方式中,所述第一获取模块用于:
分段获取用户输入的用户音频子数据,将所有的所述用户音频子数据组合成为与所述用户对应的用户音频数据。
在一种可能的实现方式中,所述第一获取模块包括:
声纹识别单元,用于对每段用户音频子数据进行声纹识别处理,并确定每段用户音频子数据的声纹特征;
相似度确定单元,用于分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度,在所述当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时,将所述当前用户音频子数据作为无效的用户音频子数据;
组合单元,用于清除无效的用户音频子数据,并将剩余的所有的用户音频子数据组合成为与所述用户对应的用户音频数据。
本发明提供的一种基于用户音色进行语音合成的方法及装置,提取用户的音色特征并基于用户的音色特征来播放音频数据,从而可以模仿用户发声,提高播放音频时的真实性;基于用户的播放调整指令可对音色特征进行调整,使得最终播放音频数据时更加符合用户的特征和需求。通过检测环境噪声以及用户音频数据的噪声比来确定用户当前所处的环境是否符合要求,从而可以提高用户音频数据的质量,使得提取的音色特征更加精准,方便用户实时定制自己的音色。通过噪声补偿可有效消除环境噪声对采集的用户音频数据的影响,进一步提高用户音频数据的质量。分段录制用户音频数据,可以降低重录成本,方便用户快速准确地完成录制;基于声纹特征相似度可以剔除无效的音频数据,进一步提高采集音频数据的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中基于用户音色进行语音合成的方法流程图;
图2为本发明实施例中基于用户音色进行语音合成的装置结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供的一种基于用户音色进行语音合成的方法,由本地终端执行,该本地终端具体可以为智能手机、平板电脑、掌上电脑、PC等,该方法可依托于安装在本地终端的APP(应用程序)、微信小程序、或其他载体实现,本实施例对此不做限定。参见图1所示,该方法包括步骤101-106:
步骤101:获取用户输入的用户音频数据,并确定用户音频数据的用户音色特征。
本发明实施例中,当用户需要调整设备发声的音色、或者将设备发声的音色改成自己的音色时,可以利用设备(比如智能手机等)的录音功能输入音频数据,即步骤101中的用户音频数据;也可采用其他方式输入,此处不做限定。在获取到用户音频数据后,即可确定该用户音频数据的音色特征,即“用户音色特征”。其中,音色特征一般包括音频数据的频谱特征和基频特征,还可包括幅值特征、声纹特征等。
步骤102:根据用户音色特征和测试数据合成与测试数据对应的测试音频数据并播放,并接收用户指向测试音频数据的播放调整指令。
本发明实施例中,在获取到用户音频数据后还包括试播的过程,即该步骤102。其中,测试数据为用于测试的文本或音频;当测试数据为文本格式时,基于TTS(Text ToSpeech,从文本到语音)技术可将该测试文本转换为语音格式,此时根据该用户音色特征即可生成与该测试文本对应的测试音频数据;若测试数据本身即为音频格式,此时可以基于语音音色变换技术(VC,Voice Conversion)生成与该音频格式的测试数据对应的测试音频数据。之后播放该测试音频数据以方便用户确定该测试音频数据与用户自己的音色特征或播放习惯是否相符。具体的,可基于隐马尔科夫模型(HMM,Hidden Markov Model)构建语音库,进而进行语音合成。
在播放该测试音频数据时,可以接收用户输入的用来调整播放参数的播放调整指令,该播放调整指令具体可用于调整语速、音高、音量中的一项或多项。用户通过播放调整指令来调整测试音频数据的播放情况,以使得更加符合用户自身的特征或需求。例如,用户希望听到更快的播放效果,则可调高语速;若用户听力不是很好,则可适当的调高音量等。当直接生成的测试音频数据与用户的音色特征相符时,用户也可不输入播放调整指令,此时的播放调整指令为空(null)。
步骤103:根据播放调整指令修正用户音色特征,将修正后的用户音色特征作为最终的标准音色特征。
本发明实施例中,根据用户输入的播放调整指令来修正音色特征,可以使得最终生成的音色特征(即标准音色特征)更加符合该用户的特点或需求。
步骤104:根据标准音色特征和待播放数据合成与待播放数据对应的目标音频数据。
本发明实施例中,上述步骤101-103为预处理过程,在完成该预处理过程后即可确定后续语音合成过程所需的标准音色特征。当用户需要播放某个数据(即待播放数据)时,此时基于该标准音色特征即可生成与该待播放数据对应的音频数据,即目标音频数据;播放目标音频数据时可以模仿是该用户在发出相应的声音,可以提高发声的真实性。例如,家长可以设置与自己音色对应的标准音色特征,在需要利用设备给孩子讲故事时,基于家长的音色特征合成目标音频数据并播放,营造家长给孩子讲故事的体验感。其中,合成目标音频数据与上述合成测试音频数据的原理相同,此处不做赘述。
步骤105:获取用户输入的发送指令,发送指令中包括音频接收端标识。
步骤106:将目标音频数据发送给音频接收端标识所对应的音频接收端,由音频接收端将目标音频数据作为自身的音频播放源。
本发明实施例中,在合成目标音频数据后,本地终端可以将该目标音频数据发送至其他设备播放;具体的,用户通过本地终端输入发送指令,之后本地终端将该目标音频数据发送至相应的音频接收端。例如,本地终端可以为智能手机,音频接收端为某一简单的音乐播放设备,比如儿童用的音乐播放玩具或机器人等;本地终端合成具有特定音色的目标音频数据后即可发送至其他的音乐播放设备,使得其他的音乐播放设备也可播放具有用户音色的音频。
本发明实施例提供的一种基于用户音色进行语音合成的方法,提取用户的音色特征并基于用户的音色特征来播放音频数据,从而可以模仿用户发声,提高播放音频时的真实性;基于用户的播放调整指令可对音色特征进行调整,使得最终播放音频数据时更加符合用户的特征和需求。通过将目标音频数据发送至音频接收端,还可使得音频接收端不具有较强处理能力的情况下也可播放具有用户音色的音频。
本发明另一实施例提供一种基于用户音色进行语音合成的方法,该方法包括上述实施例中的步骤101-104,其实现原理以及技术效果参见图1对应的实施例。同时,本发明实施例中,步骤101“获取用户输入的用户音频数据”具体包括步骤A1-A3:
步骤A1:以预设采样率依次采集当前的环境噪声和用户音频数据,预设采样率不小于预设阈值。
步骤A2:在环境噪声和用户音频数据的幅值均不超过相应的预设幅值时,根据环境噪声和用户音频数据确定信噪比。
步骤A3:在信噪比不小于预设信噪比阈值时,将当前采集的用户音频数据作为有效的用户音频数据。
由于一般用户录制声音的环境比较复杂,很难保证用户所在环境没有噪声污染;使用专业录音棚谁会减小噪声影响,但会产生额外的消费、且不方便。本发明实施例中,同时采集环境噪声,以确定用户所处环境是否符合要求。具体的,为了提高采集精度,采集时所使用的预设采样率需要大于预设阈值(例如22050Hz);其中,可以先采集环境噪声、再采集用户音频噪声。同时,环境噪声和用户音频数据均需要不存在截幅现象,即环境噪声和用户音频数据的幅值均不超过相应的预设幅值;其中,环境噪声和用户音频数据对应的预设幅值可以相同,也可以不同,具体根据实际情况而定。可选的,还可检测混响时长,以避免混响时长过大。
在在环境噪声和用户音频数据的幅值均不超过相应的预设幅值时,说明采集的环境噪声和用户音频数据均符合基本的要求,此时确定信噪比,在用户音频数据的信噪比大于预设信噪比阈值(比如20dB)时,说明用户音频数据中的噪声比较小,此时可以基于该用户音频数据来进行后续处理。
本发明实施例中,通过检测环境噪声以及用户音频数据的噪声比来确定用户当前所处的环境是否符合要求,从而可以提高用户音频数据的质量,使得提取的音色特征更加精准,方便用户实时定制自己的音色。
在上述实施例的基础上,在信噪比不小于预设信噪比阈值时,步骤A3“将当前采集的用户音频数据作为有效的用户音频数据”具体包括:根据环境噪声对用户音频数据进行补偿处理,将补偿处理后的用户音频数据作为最终有效的用户音频数据。
本发明实施例中,通过噪声补偿可有效消除环境噪声对采集的用户音频数据的影响,进一步提高用户音频数据的质量。
在上述实施例的基础上,步骤101“获取用户输入的用户音频数据”中具体可以分段获取数据,具体的,获取用户音频数据的过程包括:分段获取用户输入的用户音频子数据,将所有的用户音频子数据组合成为与用户对应的用户音频数据。
本发明实施例中,可预先设置用户需要录制的内容,用户根据该内容发出相应的声音即可。例如,预设20个句子,用户依次念出每个句子即可,每个句子可以对应一段音频子数据。分段获取用户输入的音频数据(每段对应一个用户音频子数据),方便用户录制音频,避免因一次性录制时间过长导致出错率过高;同时,某一段的用户音频子数据若存在问题或用户不满意,用户可重新录制,不需要从头全部重新录制,从而降低重录成本,方便用户快速准确地完成录制。
在上述实施例的基础上,“将所有的用户音频子数据组合成为与用户对应的用户音频数据”具体包括步骤B1-B3:
步骤B1:对每段用户音频子数据进行声纹识别处理,并确定每段用户音频子数据的声纹特征。
步骤B2:分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度,在当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时,将当前用户音频子数据作为无效的用户音频子数据。
步骤B3:清除无效的用户音频子数据,并将剩余的所有的用户音频子数据组合成为与用户对应的用户音频数据。
本发明实施例中,在确定所有的用户音频子数据的声纹特征后,即可两两确定两段用户音频子数据的声纹特征之间的相似度,若该相似度大于预设相似度,则说明该两段用户音频子数据的声纹相似,是同一个人发出的声音;相反的,若相似度小于预设相似度,则说明该两段用户音频子数据的声纹差异较大,可能是两个人的声音,或者用户在录制某一个音频子数据时因为某些原因导致与自己本身的声纹不同,则该段的用户音频子数据应该删除以避免影响最终结果的准确性。
具体的,在步骤B2中,对于所有用户音频子数据中的一个数据(即当前用户音频子数据),分别确定该当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度,并确定小于预设相似度的声纹特征相似度的数量(即相似度数量),该数量表示该当前用户音频子数据与多少个其他用户音频子数据的差异较大;若该相似度数量大于预设数值或相似度数量占总数量的比例大于预设比例时,说明该当前用户音频子数据与较多的其他用户音频子数据是不同的,该当前用户音频子数据可能是异常数据,需要删除。之后在将另一个用户音频子数据作为当前用户音频子数据并执行步骤B2,直至遍历所有的用户音频子数据。
同时,若当确定一个用户音频子数据为无效后立即清除,则后续确定另一个用户音频子数据是否有效时,不能基于该被清除的用户音频子数据作为参考,可能会影响判断是否有效的准确性。故在步骤B3中,在确定所有的无效的用户音频子数据后,一次性清楚无效的用户音频子数据。可选的,若某个用户音频子数据为无效的,可以提醒用户重新录制,直至录制的用户音频子数据为有效的。
本发明实施例提供的一种基于用户音色进行语音合成的方法,提取用户的音色特征并基于用户的音色特征来播放音频数据,从而可以模仿用户发声,提高播放音频时的真实性;基于用户的播放调整指令可对音色特征进行调整,使得最终播放音频数据时更加符合用户的特征和需求。通过检测环境噪声以及用户音频数据的噪声比来确定用户当前所处的环境是否符合要求,从而可以提高用户音频数据的质量,使得提取的音色特征更加精准,方便用户实时定制自己的音色。通过噪声补偿可有效消除环境噪声对采集的用户音频数据的影响,进一步提高用户音频数据的质量。分段录制用户音频数据,可以降低重录成本,方便用户快速准确地完成录制;基于声纹特征相似度可以剔除无效的音频数据,进一步提高采集音频数据的准确性。
以上详细介绍了基于用户音色进行语音合成的方法流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种基于用户音色进行语音合成的装置,参见图2所示,包括:
获取模块21,用于获取用户输入的用户音频数据,并确定用户音频数据的用户音色特征;
第一合成模块22,用于根据用户音色特征和测试数据合成与测试数据对应的测试音频数据并播放,并接收用户指向测试音频数据的播放调整指令;
修正模块23,用于根据播放调整指令修正用户音色特征,将修正后的用户音色特征作为最终的标准音色特征;
第二合成模块24,用于根据标准音色特征和待播放数据合成与待播放数据对应的目标音频数据;
第二获取模块25,用于获取用户输入的发送指令,所述发送指令中包括音频接收端标识;
发送模块26,用于将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端,由所述音频接收端将所述目标音频数据作为自身的音频播放源。
在一种可能的实现方式中,第一获取模块21包括:
采集单元,用于以预设采样率依次采集当前的环境噪声和用户音频数据,预设采样率不小于预设阈值;
处理单元,用于在环境噪声和用户音频数据的幅值均不超过相应的预设幅值时,根据环境噪声和用户音频数据确定信噪比;在信噪比不小于预设信噪比阈值时,将当前采集的用户音频数据作为有效的用户音频数据。
在一种可能的实现方式中,在信噪比不小于预设信噪比阈值时,处理单元用于:
根据环境噪声对用户音频数据进行补偿处理,将补偿处理后的用户音频数据作为最终有效的用户音频数据。
在一种可能的实现方式中,第一获取模块21用于:
分段获取用户输入的用户音频子数据,将所有的用户音频子数据组合成为与用户对应的用户音频数据。
在一种可能的实现方式中,第一获取模块21包括:
声纹识别单元,用于对每段用户音频子数据进行声纹识别处理,并确定每段用户音频子数据的声纹特征;
相似度确定单元,用于分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度,在当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时,将当前用户音频子数据作为无效的用户音频子数据;
组合单元,用于清除无效的用户音频子数据,并将剩余的所有的用户音频子数据组合成为与用户对应的用户音频数据。
本发明提供的一种基于用户音色进行语音合成的装置,提取用户的音色特征并基于用户的音色特征来播放音频数据,从而可以模仿用户发声,提高播放音频时的真实性;基于用户的播放调整指令可对音色特征进行调整,使得最终播放音频数据时更加符合用户的特征和需求。通过检测环境噪声以及用户音频数据的噪声比来确定用户当前所处的环境是否符合要求,从而可以提高用户音频数据的质量,使得提取的音色特征更加精准,方便用户实时定制自己的音色。通过噪声补偿可有效消除环境噪声对采集的用户音频数据的影响,进一步提高用户音频数据的质量。分段录制用户音频数据,可以降低重录成本,方便用户快速准确地完成录制;基于声纹特征相似度可以剔除无效的音频数据,进一步提高采集音频数据的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于用户音色进行语音合成的方法,其特征在于,包括:
获取用户输入的用户音频数据,并确定所述用户音频数据的用户音色特征;
根据所述用户音色特征和测试数据合成与所述测试数据对应的测试音频数据并播放,并接收用户指向所述测试音频数据的播放调整指令;
根据所述播放调整指令修正所述用户音色特征,将修正后的用户音色特征作为最终的标准音色特征;
根据所述标准音色特征和待播放数据合成与所述待播放数据对应的目标音频数据;
获取用户输入的发送指令,所述发送指令中包括音频接收端标识;
将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端,由所述音频接收端将所述目标音频数据作为自身的音频播放源。
2.根据权利要求1所述的方法,其特征在于,所述获取用户输入的用户音频数据包括:
以预设采样率依次采集当前的环境噪声和用户音频数据,所述预设采样率不小于预设阈值;
在所述环境噪声和所述用户音频数据的幅值均不超过相应的预设幅值时,根据所述环境噪声和所述用户音频数据确定信噪比;
在所述信噪比不小于预设信噪比阈值时,将当前采集的所述用户音频数据作为有效的用户音频数据。
3.根据权利要求2所述的方法,其特征在于,在所述信噪比不小于预设信噪比阈值时,将当前采集的所述用户音频数据作为有效的用户音频数据包括:
根据所述环境噪声对所述用户音频数据进行补偿处理,将补偿处理后的用户音频数据作为最终有效的用户音频数据。
4.根据权利要求1所述的方法,其特征在于,所述获取用户输入的用户音频数据包括:
分段获取用户输入的用户音频子数据,将所有的所述用户音频子数据组合成为与所述用户对应的用户音频数据。
5.根据权利要求4所述的方法,其特征在于,所述将所有的所述用户音频子数据组合成为与所述用户对应的用户音频数据包括:
对每段用户音频子数据进行声纹识别处理,并确定每段用户音频子数据的声纹特征;
分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度,在所述当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时,将所述当前用户音频子数据作为无效的用户音频子数据;
清除无效的用户音频子数据,并将剩余的所有的用户音频子数据组合成为与所述用户对应的用户音频数据。
6.一种基于用户音色进行语音合成的装置,其特征在于,包括:
第一获取模块,用于获取用户输入的用户音频数据,并确定所述用户音频数据的用户音色特征;
第一合成模块,用于根据所述用户音色特征和测试数据合成与所述测试数据对应的测试音频数据并播放,并接收用户指向所述测试音频数据的播放调整指令;
修正模块,用于根据所述播放调整指令修正所述用户音色特征,将修正后的用户音色特征作为最终的标准音色特征;
第二合成模块,用于根据所述标准音色特征和待播放数据合成与所述待播放数据对应的目标音频数据;
第二获取模块,用于获取用户输入的发送指令,所述发送指令中包括音频接收端标识;
发送模块,用于将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端,由所述音频接收端将所述目标音频数据作为自身的音频播放源。
7.根据权利要求6所述的装置,其特征在于,所述第一获取模块包括:
采集单元,用于以预设采样率依次采集当前的环境噪声和用户音频数据,所述预设采样率不小于预设阈值;
处理单元,用于在所述环境噪声和所述用户音频数据的幅值均不超过相应的预设幅值时,根据所述环境噪声和所述用户音频数据确定信噪比;在所述信噪比不小于预设信噪比阈值时,将当前采集的所述用户音频数据作为有效的用户音频数据。
8.根据权利要求7所述的装置,其特征在于,在所述信噪比不小于预设信噪比阈值时,所述处理单元用于:
根据所述环境噪声对所述用户音频数据进行补偿处理,将补偿处理后的用户音频数据作为最终有效的用户音频数据。
9.根据权利要求6所述的装置,其特征在于,所述第一获取模块用于:
分段获取用户输入的用户音频子数据,将所有的所述用户音频子数据组合成为与所述用户对应的用户音频数据。
10.根据权利要求9所述的装置,其特征在于,所述第一获取模块包括:
声纹识别单元,用于对每段用户音频子数据进行声纹识别处理,并确定每段用户音频子数据的声纹特征;
相似度确定单元,用于分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度,在所述当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时,将所述当前用户音频子数据作为无效的用户音频子数据;
组合单元,用于清除无效的用户音频子数据,并将剩余的所有的用户音频子数据组合成为与所述用户对应的用户音频数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810996446.2A CN108847215B (zh) | 2018-08-29 | 2018-08-29 | 基于用户音色进行语音合成的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810996446.2A CN108847215B (zh) | 2018-08-29 | 2018-08-29 | 基于用户音色进行语音合成的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108847215A true CN108847215A (zh) | 2018-11-20 |
CN108847215B CN108847215B (zh) | 2020-07-17 |
Family
ID=64233898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810996446.2A Active CN108847215B (zh) | 2018-08-29 | 2018-08-29 | 基于用户音色进行语音合成的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108847215B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110012059A (zh) * | 2019-02-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 电子红包实现方法以及装置 |
CN110459201A (zh) * | 2019-08-22 | 2019-11-15 | 云知声智能科技股份有限公司 | 一种产生新音色的语音合成方法 |
CN110867177A (zh) * | 2018-08-16 | 2020-03-06 | 林其禹 | 音色可选的人声播放系统、其播放方法及可读记录介质 |
CN111081244A (zh) * | 2019-12-23 | 2020-04-28 | 广州小鹏汽车科技有限公司 | 一种语音交互方法和装置 |
CN111429882A (zh) * | 2019-01-09 | 2020-07-17 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN111627417A (zh) * | 2019-02-26 | 2020-09-04 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN111667812A (zh) * | 2020-05-29 | 2020-09-15 | 北京声智科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN112270920A (zh) * | 2020-10-28 | 2021-01-26 | 北京百度网讯科技有限公司 | 一种语音合成方法、装置、电子设备和可读存储介质 |
CN112309419A (zh) * | 2020-10-30 | 2021-02-02 | 浙江蓝鸽科技有限公司 | 多路音频的降噪、输出方法及其系统 |
CN112365752A (zh) * | 2020-12-03 | 2021-02-12 | 安徽信息工程学院 | 一款亲子互动类早教系统 |
CN112562638A (zh) * | 2020-11-26 | 2021-03-26 | 北京达佳互联信息技术有限公司 | 语音预览的方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3707872B2 (ja) * | 1996-03-18 | 2005-10-19 | 株式会社東芝 | 音声出力装置及びその方法 |
CN104299619B (zh) * | 2014-09-29 | 2017-09-19 | 广东欧珀移动通信有限公司 | 一种音频文件的处理方法及装置 |
CN104464716B (zh) * | 2014-11-20 | 2018-01-12 | 北京云知声信息技术有限公司 | 一种语音播报系统和方法 |
CN107749301B (zh) * | 2017-09-18 | 2021-03-09 | 得理电子(上海)有限公司 | 一种音色样本重构方法及系统、存储介质及终端设备 |
CN107731220B (zh) * | 2017-10-18 | 2019-01-22 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置和服务器 |
-
2018
- 2018-08-29 CN CN201810996446.2A patent/CN108847215B/zh active Active
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867177A (zh) * | 2018-08-16 | 2020-03-06 | 林其禹 | 音色可选的人声播放系统、其播放方法及可读记录介质 |
CN111429882A (zh) * | 2019-01-09 | 2020-07-17 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN111429882B (zh) * | 2019-01-09 | 2023-08-08 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN110012059A (zh) * | 2019-02-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 电子红包实现方法以及装置 |
CN111627417A (zh) * | 2019-02-26 | 2020-09-04 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN111627417B (zh) * | 2019-02-26 | 2023-08-08 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN110459201B (zh) * | 2019-08-22 | 2022-01-07 | 云知声智能科技股份有限公司 | 一种产生新音色的语音合成方法 |
CN110459201A (zh) * | 2019-08-22 | 2019-11-15 | 云知声智能科技股份有限公司 | 一种产生新音色的语音合成方法 |
CN111081244A (zh) * | 2019-12-23 | 2020-04-28 | 广州小鹏汽车科技有限公司 | 一种语音交互方法和装置 |
CN111667812A (zh) * | 2020-05-29 | 2020-09-15 | 北京声智科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN111667812B (zh) * | 2020-05-29 | 2023-07-18 | 北京声智科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN112270920A (zh) * | 2020-10-28 | 2021-01-26 | 北京百度网讯科技有限公司 | 一种语音合成方法、装置、电子设备和可读存储介质 |
CN112309419A (zh) * | 2020-10-30 | 2021-02-02 | 浙江蓝鸽科技有限公司 | 多路音频的降噪、输出方法及其系统 |
CN112562638A (zh) * | 2020-11-26 | 2021-03-26 | 北京达佳互联信息技术有限公司 | 语音预览的方法、装置及电子设备 |
CN112365752A (zh) * | 2020-12-03 | 2021-02-12 | 安徽信息工程学院 | 一款亲子互动类早教系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108847215B (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847215A (zh) | 基于用户音色进行语音合成的方法及装置 | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
Robinson et al. | WSJCAMO: a British English speech corpus for large vocabulary continuous speech recognition | |
CN105245917B (zh) | 一种多媒体语音字幕生成的系统和方法 | |
Ball et al. | Phonetics for communication disorders | |
CN102930866B (zh) | 一种用于口语练习的学生朗读作业的评判方法 | |
CN101739870B (zh) | 交互式语言学习系统及交互式语言学习方法 | |
McLoughlin | Speech and audio processing: a MATLAB-based approach | |
CN110136687B (zh) | 一种基于语音训练克隆口音及声韵方法 | |
CN107293286A (zh) | 一种基于网络配音游戏的语音样本收集方法 | |
CN102867526A (zh) | 用于分布式音频文件编辑的门户网站 | |
CN106548785A (zh) | 一种语音处理方法及装置、终端设备 | |
CN111883103B (zh) | 语音合成的方法及装置 | |
CN117854478B (zh) | 基于可控文本的语音合成方法、装置和系统 | |
CN111105776A (zh) | 有声播放装置及其播放方法 | |
CN114927122A (zh) | 一种情感语音的合成方法及合成装置 | |
CN113345407B (zh) | 一种风格语音合成方法、装置、电子设备及存储介质 | |
CN110767233A (zh) | 一种语音转换系统及方法 | |
CN114386406B (zh) | 一种文本处理方法、装置、计算机设备及存储介质 | |
CN110503941A (zh) | 语言能力评测方法、装置、系统、计算机设备及存储介质 | |
JP2006178334A (ja) | 語学学習システム | |
CN112242152B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN112992118B (zh) | 一种少语料的语音模型训练及合成方法 | |
CN111724764B (zh) | 一种合成音乐的方法和装置 | |
CN107452408A (zh) | 一种音频播放方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096 Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd. Address before: 100089 a503, 5th floor, Mudan science and technology building, No.2 Huayuan Road, Haidian District, Beijing Patentee before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd. |