CN106920547A - 语音转换方法和装置 - Google Patents

语音转换方法和装置 Download PDF

Info

Publication number
CN106920547A
CN106920547A CN201710093860.8A CN201710093860A CN106920547A CN 106920547 A CN106920547 A CN 106920547A CN 201710093860 A CN201710093860 A CN 201710093860A CN 106920547 A CN106920547 A CN 106920547A
Authority
CN
China
Prior art keywords
machine
unit
voice
talk
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710093860.8A
Other languages
English (en)
Other versions
CN106920547B (zh
Inventor
袁豪磊
梅晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shanghai Co Ltd
Original Assignee
Tencent Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shanghai Co Ltd filed Critical Tencent Technology Shanghai Co Ltd
Priority to CN201710093860.8A priority Critical patent/CN106920547B/zh
Publication of CN106920547A publication Critical patent/CN106920547A/zh
Priority to PCT/CN2018/074435 priority patent/WO2018153223A1/zh
Priority to EP18756788.8A priority patent/EP3588490B1/en
Priority to JP2019542154A priority patent/JP6893246B2/ja
Priority to KR1020197013802A priority patent/KR102239650B1/ko
Priority to US16/361,654 priority patent/US10878803B2/en
Application granted granted Critical
Publication of CN106920547B publication Critical patent/CN106920547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种语音转换方法和装置,该方法包括:获取目标文本;合成与所述目标文本对应的第一机器语音;从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音。本申请提供的方案提高了语音转换效果。

Description

语音转换方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种语音转换方法和装置。
背景技术
随着计算机技术的发展,语音内容转换的应用越来越广泛,如在有声小说朗读或者语音导航中实现个性化的声音等。伴随着生活水平的提高,人们对语音内容转换已经不仅仅满足于单纯对音色实现转换,还要求转换的语音更符合特定的说话人的口语习惯和说话风格。
传统的语音内容转换技术中,在需要转换得到目标说话人语音时,主要是通过音色转换的方法,将其他说话人的语音转换为目标说话人的语音。然而,传统的语音转换方法得到的语音无法真实地反应说话人的语音风格,导致语音转换效果与真实说话人相比有一定的差距。
发明内容
基于此,有必要针对传统的语音转化方法在转换符合说话人语音风格的语音时效果不理想的问题,提供一种语音转换方法和装置。
一种语音转换方法,所述方法包括:
获取目标文本;
合成与所述目标文本对应的第一机器语音;
从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;
在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;
根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;
从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;
将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音;
其中,所述同步机器语音库、所述异步机器语音库和所述说话人语音库的文本内容相同,且所述说话人语音库与所述同步机器语音库的韵律特征相匹配。
一种语音转换装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本;
第一合成模块,用于合成与所述目标文本对应的第一机器语音;
第一筛选模块,用于从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;
查找模块,用于在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;
第二合成模块,用于根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;
第二筛选模块,用于从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;
拼接模块,将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音;
其中,所述同步机器语音库、所述异步机器语音库和所述说话人语音库的文本内容相同,且所述说话人语音库与所述同步机器语音库的韵律特征相匹配。
上述语音转换方法和装置,用于拼接得到说话人目标语音的语音单元选自说话人语音库,拼接转换的语音保留了说话人的音色。而且利用异步机器语音库中符合机器韵律特征的异步机器语音单元序列,与同步机器语音库中符合说话人韵律特征的同步机器语音单元序列的对应关系,在合成符合机器韵律特征的第一机器语音后,根据对应关系确定符合说话人语音风格的韵律特征。再根据该韵律特征合成第二机器语音,以第二机器语音的声学特征为依据从同步机器语音库中挑选与第二机器语音声学特征匹配的同步机器语音单元,再将说话人语音库中与挑选出的同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音,保留了说话人的韵律特征。这样即又保留了说话人音色,又保留了说话人的韵律特征,使得转换得到的语音更自然,更符合需求的说话人的语音风格,从而提高了语音转换效果。
附图说明
图1为一个实施例中用于实现语音转换方法的终端的内部结构示意图;
图2为一个实施例中在终端上实现语音转换方法时的界面示意图;
图3为一个实施例中语音转换方法的流程示意图;
图4为一个实施例中从异步机器语音库中,筛选出韵律特征与第一机器语音的韵律特征匹配的异步机器语音单元序列的步骤的流程示意图;
图5为一个实施例中从同步机器语音库中,挑选与第二机器语音声学特征匹配的同步机器语音单元的步骤的流程示意图;
图6为一个实施例中将说话人语音库中与同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音的步骤的流程示意图;
图7为一个实施例中相邻的说话人语音单元拼接的示意图;
图8为一个实施例中构建语音库的逻辑框图;
图9为一个实施例中语音转换方法的逻辑框图;
图10为一个实施例中语音转换装置的结构框图;
图11为另一个实施例中语音转换装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中用于实现语音转换方法的终端的内部结构示意图。该终端可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。如图1所示,该终端包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口、显示屏和输入装置。其中,终端的非易失性存储介质存储有操作系统,还包括一种语音转换装置,该语音转换装置用于实现一种语音转换方法。该处理器用于提供计算和控制能力,支撑整个终端的运行。终端中的内存储器为非易失性存储介质中的语音转换装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被所述处理器执行时,可使得所述处理器执行一种语音转换方法。网络接口用于与服务器进行网络通信,如将说话人语音库发送至服务器进行存储等。终端的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图2示出了一个实施例中,在终端上实现语音转换方法时的界面示意图。参考图2,用户可通过终端会话界面提供的文本输入框210输入文本内容,终端在获取到用户输入的文本内容后,将该文本内容作为目标文本,合成与该目标文本对应的第一机器语音,再从异步机器语音库中,筛选出韵律特征与第一机器语音的韵律特征匹配的异步机器语音单元序列,并在同步机器语音库中,查找与该异步机器语音单元序列对应的同步机器语音单元序列,从而得到符合说话人语音风格的韵律特征。
进一步地,终端可再根据该同步机器语音单元序列的韵律特征,合成与目标文本对应的第二机器语音,再从所述同步机器语音库中,挑选与第二机器语音声学特征匹配的同步机器语音单元,并将说话人语音库中与该同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音。终端可在得到说话人目标语音后,将得到的该说话人目标语音发送至当前会话中的另一会话用户对应的终端。
其中,同步机器语音库、异步机器语音库和说话人语音库的文本内容相同,且说话人语音库与同步机器语音库的韵律特征相匹配。在其他实施例中,终端也可将异步机器语音库、同步机器语音库和说话人语音库上传至服务器,使得服务器也可基于异步机器语音库、同步机器语音库和说话人语音库实现该语音转换方法。
如图3所示,在一个实施例中,提供了一种语音转换方法,本实施例以该方法应用于上述图1中的终端来举例说明。该方法具体包括如下步骤:
S302,获取目标文本。
其中,目标文本是指待转换的说话人目标语音对应的文本内容。文本内容是指多于一个的字符按照顺序构成的字符串。在本实施例中,待转换的说话人目标语音对应的文本内容可以是说话人未曾说过的内容。
具体地,终端可提供输入界面,以获取用户通过输入界面输入的需要进行语音转换的文本内容,将获取的文本内容作为目标文本。
S304,合成与目标文本对应的第一机器语音。
其中,机器语音是指通过自动语音合成系统处理得到的符合自动语音合成系统语音风格的音频数据。第一机器语音是指音色与韵律特征均符合自动语音合成系统语音风格的机器语音。音色是指发声体发出声音的特色,不同的发声体由于材料、结构不同,发出声音的音色也就不同。在物理学上通过频谱参数来表征音色。韵律特征是指发声体发出声音的基础音调与节奏,在物理学上通过基频参数、时长分布以及信号强度来表征韵律特征。自动语音合成系统是用于进行语音合成的系统,具体可以是TTS(Text To Speech从文本到语音)参数合成系统。
具体地,终端在获取到目标文本后,可基于TTS参数合成系统进行语音合成。终端可先对目标文本进行语言学分析,以确定句子的层结构和每个字的音素组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。终端可再将处理好的文本用自动语音合成系统合成声音,按照TTS韵律特征转化成语音波形,得到第一机器语音。
S306,从异步机器语音库中,筛选出韵律特征与第一机器语音的韵律特征匹配的异步机器语音单元序列;其中,同步机器语音库、异步机器语音库和说话人语音库的文本内容相同,且说话人语音库与同步机器语音库的韵律特征相匹配。
其中,说话人语音库包括若干说话人语音单元序列。说话人语音单元序列是指至少一个的说话人语音单元按照顺序构成的序列。说话人语音单元库中的各说话人语音单元序列均选择说话人历史语音。音色与韵律特征均符合说话人语音风格。
说话人语音库中各说话人语音单元序列均存在一个文本内容相同的机器语音单元序列,由于这些机器语音单元序列的韵律特征不符合说话人韵律特征,故称为异步机器语音单元序列。这些异步机器语音单元序列构成异步机器语音库。
说话人语音库中各说话人语音单元序列均存在一个文本内容相同且韵律特征匹配的机器语音单元序列,由于这些机器语音单元序列的韵律特征符合说话人韵律特征,故称为同步机器语音单元序列。这些同步机器语音单元序列构成同步机器语音库。
进一步地,可将异步机器语音库、同步机器语音库和说话人语音库按照文本内容对齐,合并作为平行语音库。异步机器语音库、同步机器语音库和说话人语音库均可存储在文件、数据库或者缓存中,在需要时从文件、数据库或者缓存中获取。
具体地,终端可采用枚举的方式,依次获取异步机器语音库中的异步机器语音单元序列,并将获取的异步机器语音单元序列与第一机器语音进行韵律特征比较,在完成异步机器语音库中所包括的各异步机器语音单元序列与第一机器语音的比较后,选取与第一机器语音韵律特征最相近的异步机器语音单元序列作为匹配的异步机器语音单元序列。
其中,韵律特征比较包括各异步机器语音单元序列与第一机器语音对应的基频参数的比较以及各异步机器语音单元序列与第一机器语音对应的时长分布的比较。
S308,在同步机器语音库中,查找与异步机器语音单元序列对应的同步机器语音单元序列。
其中,语音单元是终端自定义的时间尺度。在本实施例中,终端按照汉语拼音的构建方式对说话人历史语音进行语音单元划分。举例说明,汉字“单元”的拼音为“danyuan”,按照汉语拼音的构建方式划分可得到4个语音单元,分别为“d”、“an”、“y”和“uan”。在其他实施例中,终端也可按照字符或者音素等进行语音单元划分。
具体地,终端可在同步机器语音库中,查找与异步机器语音单元序列通过文本内容建立对应关系的同步机器语音单元序列,获取该同步机器语音单元序列。
S310,根据同步机器语音单元序列的韵律特征,合成与目标文本对应的第二机器语音。
其中,第二机器语音是指音色符合自动语音合成系统语音风格,但韵律特征符合说话人语音风格的机器语音。第二机器语音与第一机器语音均为机器语音,但是不同的机器语音。
具体地,终端可通过自动语音合成系统按照同步机器语音单元序列的韵律特征合成符合说话人韵律特征的第二机器语音。
举例说明,假设目标文本内容为“小桥流水人家”,基于TTS参数合成系统根据TTS自有韵律特征合成的第一机器语音为“小桥流-水-人家”。在同步机器语音库中查找到的同步机器语音单元序列为“枯藤-老树-昏鸦”,基于TTS参数合成系统根据同步机器语音单元序列的韵律特征合成的第二机器语音为“小桥-流水-人家”。其中“-”表示停顿。
S312,从同步机器语音库中,挑选与第二机器语音声学特征匹配的同步机器语音单元。
其中,声学特征是指发声体振动产生的声波在物理学上的特征。声学参数是用来表征声学特征的参数,具体包括基频参数、频谱参数和非周期性信号参数等。
具体地,终端可根据第二机器语音在生成阶段的单元划分,得到相应的机器语音单元序列,再根据生成阶段每个语音单元的读音标注,从同步机器语音库查找读音相同的同步机器语音单元作为候选同步机器语音单元。
终端可再查找同步机器语音库中存储的与候选同步机器语音单元存在对应关系的单元声学参数,将查找到的单元声学参数逐一与相应的第二机器语音中的语音单元的单元声学参数进行比较,在完成单元声学参数的比较后,选取与第二机器语音声学参数最相近的候选同步机器语音单元作为声学特征匹配的说话人语音单元。
S314,将说话人语音库中与同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音。
具体地,终端可在说话人语音库中,查找与同步机器语音单元通过文本内容建立对应关系的说话人语音单元,将查找到的说话人语音单元进行拼接,得到说话人目标语音。
上述语音转换方法,用于拼接得到说话人目标语音的语音单元选自说话人语音库,拼接转换的语音保留了说话人的音色。而且利用异步机器语音库中符合机器韵律特征的异步机器语音单元序列,与同步机器语音库中符合说话人韵律特征的同步机器语音单元序列的对应关系,在合成符合机器韵律特征的第一机器语音后,根据对应关系确定符合说话人语音风格的韵律特征。再根据该韵律特征合成第二机器语音,以第二机器语音的声学特征为依据从同步机器语音库中挑选与第二机器语音声学特征匹配的同步机器语音单元,再将说话人语音库中与挑选出的同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音,保留了说话人的韵律特征。这样即又保留了说话人音色,又保留了说话人的韵律特征,使得转换得到的语音更自然,更符合需求的说话人的语音风格,从而提高了语音转换效果。
如图4所示,在一个实施例中,步骤S306包括以下步骤:
S402,按照第一机器语音,从异步机器语音库中获取候选异步机器语音单元序列。
具体地,终端可事先对异步机器语音库中的异步机器语音单元序列按照异步机器语音单元序列所包括的异步机器语音单元的数量进行分类。终端在合成第一机器语音后,可根据生成第一机器语音是的语音单元划分,统计划分得到的机器语音单元的数量,从异步机器语音库中获取包括的异步机器语音单元的数量大于或者等于统计的数量的异步机器语音单元序列作为候选语音单元序列。
在一个实施例中,步骤S402具体包括:确定第一机器语音所包括的机器语音单元的数量;从异步机器语音库中,获取包括的异步机器语音单元的数量与确定的数量相等的候选异步机器语音单元序列。
具体地,终端可预先配置用于选择异步机器语音单元序列的候选条件,该候选条件是包括的异步机器语音单元数量与第一机器语音所包括的机器语言单元数量相同。当异步机器语音单元序列包括的异步机器语音单元数量大于或者等于第一机器语音所包括的机器语言单元数量时,判定候选条件被满足,将该异步机器语音单元序列或者该异步机器语音单元序列中包括的异步机器语音单元子序列作为候选异步机器语音单元序列。
在本实施例中,以第一机器语音所包括的机器语音单元的数量为依据选取候选异步机器语音单元序列进行韵律特征差异度的计算,提高了韵律特征差异度的计算结果的可靠性。
在一个实施例中,从异步机器语音库中,获取包括的异步机器语音单元的数量与确定的数量相等的候选异步机器语音单元序列的步骤具体包括:遍历异步机器语音库所包括的异步机器语音单元序列;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量小于确定的数量时,则继续遍历;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量等于确定的数量时,则将遍历至的异步机器语音单元序列作为候选异步机器语音单元序列;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量大于确定的数量时,则将遍历至的异步机器语音单元序列,按照所包括的异步机器语音单元的顺序以及确定的数量,拆分出候选异步机器语音单元序列。
在本实施例中,对所包括的异步机器语音单元的数量大于第二机器语音所包括的机器语音单元的数量的异步机器语音单元序列,按照所包括的异步机器语音单元的顺序以及确定的数量,拆分出异步机器语音单元子序列作为候选异步机器语音单元序列,既符合自然语言的连贯性,保证了韵律特征差异度的计算结果的可靠性,又提高了异步机器语音库中语料的利用率。
举例说明,假设第一机器语音单元可划分得到3个机器语言单元:a-b-c,终端在遍历异步机器语音库所包括的异步机器语音单元序列时,当遍历至的异步机器语音单元序列为:d-e,该异步机器语音单元序列包括2个异步机器语言单元,不符合候选条件,继续进行遍历。当遍历至的异步机器语音单元序列为:f-g-h,该异步机器语音单元序列包括3个异步机器语言单元,符合候选条件,终端可将“f-g-h”直接作为候选异步机器语音单元序列。
当遍历至的异步机器语音单元序列为:i-j-k-l,该异步机器语音单元序列包括4个异步机器语言单元,符合候选条件,但由于该异步机器语音单元序列包括的异步机器语音单元数量大于第一机器语音所包括的机器语音单元的数量,则需从该异步机器语音单元序列中差分出包括的异步机器语音单元数量等于第一机器语音所包括的机器语音单元的数量的异步机器语音单元子序列。由于异步机器语音单元序列具有单向性,终端可将异步机器语音单元子序列“i-j-k”、“j-k-l”、“i-k-l”和“i-j-l”作为候选异步机器语音单元序列。
S404,确定候选异步机器语音单元序列与第一机器语音的韵律特征差异度。
具体地,终端可在选取候选异步机器语音单元序列后,依次计算各候选异步机器语音单元序列与第一机器语音的韵律特征差异度。
在一个实施例中,步骤S404具体包括:从第一机器语音中划分出机器语音单元;根据候选异步机器语音单元序列所包括的各异步机器语音单元与各自对应的划分出的机器语音单元之间的韵律参数差异值,生成候选异步机器语音单元序列与第一机器语音的韵律特征差异度;其中,韵律参数差异值包括时长差异值、基频变化率差异值、声学参数的时长分布差异和基频变化率的概率分布差异中的至少一种。
具体地,终端可利用合成第一机器语音时得到的第一机器语音的韵律参数和相应的机器语音单元划分,得到单元韵律参数。终端可再获取候选异步机器语音单元序列所包括的各异步机器语音单元所对应的单元韵律参数,计算异步机器语音单元对应的单元韵律参数与相应的划分的机器语音单元对应的单元韵律参数的差异值,从而计算候选异步机器语音单元序列与第一机器语音的韵律特征差异度。
在本实施例中,通过候选异步机器语音单元序列所包括的各异步机器语音单元与各自对应的划分出的机器语音单元之间的各韵律参数差异值来计算韵律特征差异度,利用影响韵律特征的各参数进行计算,提高了韵律特征匹配的准确性。
异步机器语音单元序列与第一机器语音的韵律特征差异度可按照以下公式计算得到:
其中,fA表示候选异步机器语音单元序列A的韵律特征参数,fB表示第一机器语音B的韵律特征参数,N表示计算韵律特征差异度时选取的韵律特征的个数,wn表示第n个韵律特征的权值,Cprosody表示韵律特征差异度,Cprosody的值越小表示候选异步机器语音单元序列A与第一机器语音B的韵律特征越匹配。候选异步机器语音单元序列A与第一机器语音B的韵律参数差异值|fA-fB|包括时长差异值、基频变化率差异值、声学参数的时长分布差异和基频变化率的概率分布差异中的至少一种。
时长差异值包括异步机器语音单元之前的语音停顿时长与相应的划分出的机器语音单元之前的语音停顿时长的差异值ΔThead、异步机器语音单元读音时长与相应的划分出的机器语音单元读音时长的差异值ΔTcurr和异步机器语音单元之后的语音停顿时长与相应的划分出的机器语音单元之后的语音停顿时长的差异值ΔTtail
ΔF0,A表示候选异步机器语音单元序列A的基频变化率,ΔF0,B表示第一机器语音B的基频变化率。基频变化率为基频的一阶导数。|ΔF0,A-ΔF0,B|表示候选异步机器语音单元序列A与第一机器语音B基频变化率的差异值。
PT,A表示候选异步机器语音单元序列A对应的声学参数的时长分布,PT,B表示第一机器语音B对应的声学参数的时长分布,KLD(PT,A,PT,B)表示对候选异步机器语音单元序列A与第一机器语音B各自对应的声学参数的时长分布求取KL散度(Kullback–Leiblerdivergence KLD)。在本实施例中采用高斯分布对声学参数的时长分布进行建模,将PT,A等价为异步机器语音单元序列A时长分布的均值和方差,将PT,B等价为第一机器语音B时长分布的均值和方差。
表示候选异步机器语音单元序列A对应的基频变化率的概率分布,表示第一机器语音B对应的基频变化率的概率分布,表示对候选异步机器语音单元序列A与第一机器语音B各自对应的基频变化率的概率分布求取KL散度。在本实施例中采用高斯分布对基频变化率的概率分布进行建模,将等价为异步机器语音单元序列A基频变化率的概率分布的均值和方差,将等价为第一机器语音B基频变化率的概率分布的均值和方差。
在一维单高斯模型情况下,KLD的具体定义如下:
KLD(pA(x|u11),pB(x|u22))=-∫pA(x)logpB(x)dx+∫pA(x)logpA(x)dx (2)
其中,pA(x|u11)表示异步机器语音单元序列A的韵律参数服从均值为u1方差为σ1的高斯分布。pA(x|u22)表示第一机器语音B的韵律参数服从均值为u2方差为σ2的高斯分布。
S406,将对应最小韵律特征差异度的候选异步机器语音单元序列,作为与第一机器语音的韵律特征匹配的异步机器语音单元序列。
在本实施例中,以异步机器语音库中异步机器语音单元序列与第一机器语音计算韵律特征差异度为约束条件,选取与第一机器语音的韵律特征匹配的异步机器语音单元序列,提高了韵律特征选取的准确性,使得转换得到的语音更自然,更符合需求的说话人的语音风格。
如图5所示,在一个实施例中,步骤S312具体包括以下步骤:
S502,从第二机器语音中划分出机器语音单元。
S504,确定划分出的各机器语音单元的读音特征。
S506,从同步机器语音库中,筛选读音特征与划分出的各机器语音单元的读音特征匹配的同步机器语音单元子集。
具体地,终端可遍历同步机器语音库中的同步机器语音单元,在遍历时将遍历的同步机器语音单元的读音与第二机器语音中标注出的读音进行比对,当遍历的同步机器语音单元的读音与第二机器语音中标注出的读音一致时,选取该同步机器语音单元,得到读音特征与划分出的各机器语音单元的读音特征匹配的同步机器语音单元子集。
S508,对于各同步机器语音单元子集中的各同步机器语音单元,确定与相应的划分出的机器语音单元的声学特征差异度。
具体地,终端可遍历各同步机器语音单元子集中的各同步机器语音单元,在遍历时获取遍历的同步机器语音单元对应的声学参数,将获取的声学参数逐一与相应的划分出的机器语音单元对应的声学参数计算声学特征差异度。
在一个实施例中,步骤S508具体包括以下步骤:确定各同步机器语音单元子集中各同步机器语音单元的声学参数;确定划分出的各机器语音单元的声学参数;对于各同步机器语音单元和相应的划分出的机器语音单元,计算相应的声学参数的差异值;根据计算得到的差异值,生成与该差异值正相关的声学特征差异度。
具体地,终端可在同步机器语音库中查找与同步机器语音单元对应的单元声学参数。终端也可获取在合成第二机器语音时,通过声学模型输出的第二机器语音中各语音单元对应的单元声学参数。
其中,同步机器语音单元与相应的划分出的机器语音单元的声学特征差异度可按照以下公式计算得到:
公式(3)中,TC表示声学特征差异度,N表示计算声学特征差异度时使用的声学参数的个数,fa表示同步机器语音单元a对应的声学参数,fb表示相应的划分出的机器语音单元b对应的声学参数,wn表示第n个韵律特征的权值。TC的值越小,表示同步机器语音单元a与相应的划分出的机器语音单元b的声学特征越匹配。
在本实施例中,通过同步机器语音单元与各自对应的划分出的机器语音单元之间的各声学参数差异值来计算声学特征差异度,利用影响声学特征的各参数进行计算,提高了声学特征匹配的准确性。
S510,挑选出对应最小声学特征差异度的同步机器语音单元,作为与第二机器语音声学特征匹配的同步机器语音单元。
在本实施例中,以同步机器语音库中同步机器语音单元与第二机器语音所包括的机器语言单元计算的声学特征差异度为约束条件,选取与第二机器语音的声学特征匹配的同步机器语音单元,提高了声学特征选取的准确性,使得转换得到的语音更自然,更符合需求的说话人的语音风格。
如图6所示,在一个实施例中,步骤S314具体包括如下步骤:
S602,将挑选出的同步机器语音单元,按照所对应的目标文本中的读音顺序排序。
具体地,终端在构建同步机器语音库时,相应构建了同步机器语音库中各同步机器语音单元与各同步机器语音单元的单元读音的对应关系。终端在挑选出的同步机器语音单元后,可根据各同步机器语音单元对应的单元读音,按照目标文本中的读音顺序对挑选出的同步机器语音单元进行排序。
S604,确定排序后的同步机器语音单元中相邻的同步机器语音单元的拼接位置。
具体地,终端可在同步机器语音库中获取相邻的同步机器语音单元各自对应的单元声学参数,计算同步机器语音单元中相邻的同步机器语音单元对应的单元声学参数的相似度,根据计算的相似度的确定排序后的同步机器语音单元中相邻的同步机器语音单元的拼接位置。
在一个实施例中,步骤S604具体包括:获取从挑选出的各同步机器语音单元划分出的语音帧;确定相邻的同步机器语音单元的拼接重叠语音帧数;其中,相邻的同步机器语音单元各自的与拼接重叠语音帧数对应的语音帧之间的差异度最小化;根据拼接重叠语音帧数确定排序后的同步机器语音单元中相邻的同步机器语音单元的拼接位置。
具体地,终端可预先设置语音帧的时长,比如5ms或者10ms等。终端可再将各同步机器语音单元按照预先设置的时长在时域上进行划分,得到多个语音帧。在本实施例中,终端可采用枚举的方式,依次增加相邻的同步机器语音单元的拼接重叠语音帧数,按照拼接重叠语音帧数的递增,逐一计算相邻的同步机器语音单元各自的与拼接重叠语音帧数对应的语音帧之间的差异度,选取差异度最小时对应的拼接重叠语音帧数为确定的拼接重叠语音帧数。
进一步地,终端在相邻的同步机器语音单元的拼接重叠语音帧数后,可获取事先配置的拼接函数,根据拼接函数确定排序在前的同步机器语音单元所包括的拼接重叠语音帧需要保留的部分和排序在后的同步机器语音单元所包括的拼接重叠语音帧需要保留的部分,使得拼接后的声学参数过渡更符合自然语音。
在本实施例中,以相邻的同步机器语音单元各自的与拼接重叠语音帧数对应的语音帧之间的差异度为约束条件,选取相邻的同步机器语音单元的拼接位置,提高了拼接位置选取的准确性,使得转换得到的语音更自然,更符合需求的说话人的语音风格。
在另一个实施例中,终端可获取从挑选出的各同步机器语音单元中按照HMM(Hidden Markov Model隐马尔可夫模型)模型划分出的语音状态,确定相邻的同步机器语音单元的拼接重叠语音状态数;其中,相邻的同步机器语音单元各自的与拼接重叠语音状态数对应的语音状态之间的差异度最小化;根据拼接重叠语音状态数确定排序后的同步机器语音单元中相邻的同步机器语音单元的拼接位置。
在一个实施例中,终端可按照以下公式确定相邻的同步机器语音单元的拼接重叠语音帧数:
其中,T表示相邻的同步机器语音单元的拼接重叠语音帧数,t表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧,CCt表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧语音帧的差异度,表示求取T使得最小。
在一个实施例中,可由以下公式计算得到:
其中,CCΔt表示相邻的同步机器语音单元中拼接重叠Δt帧语音帧时的差异度。fa,t表示相邻的同步机器语音单元中排序在前的语音单元a所包括的拼接重叠语音帧中第t帧的声学参数,fb,t表示相邻的同步机器语音单元中排序在后的语音单元b所包括的拼接重叠语音帧中第t帧的声学参数。N表示计算语音镇差异度时选取的声学参数的个数,wn表示分配给每个选取的声学参数的权值,wt表示分配给每帧语音帧的权值。
在本实施例中,提供了具体用于求取使得相邻的同步机器语音单元各自的与拼接重叠语音帧数对应的语音帧之间的差异度最小的拼接重叠帧数的方法,使得拼接位置选取更准确。
S606,在说话人语音库中,查找与同步机器语音单元对应的说话人语音单元。
S608,按照确定的相邻的同步机器语音单元的拼接位置拼接相应的说话人语音单元,得到说话人目标语音。
具体地,终端在确定每个同步机器语音单元的拼接位置之后,将该拼接位置作为相应的说话人语音单元的拼接位置,将说话人语音单元进行拼接,得到说话人目标语音。
在本实施例中,按照确定的拼接位置拼接相邻的说话人语音单元,使得拼接过渡更自然,从而使得转换得到的语音更自然,更符合需求的说话人的语音风格。
如图7所示为一个实施例中相邻的说话人语音单元拼接的示意图。参考图7,该示意图包括排序在前的说话人语音单元710和排序在后的说话人语音单元720。其中,说话人语音单元710包括拼接重叠部分711,拼接重叠部分711包括T帧语音帧,语音帧712为说话人语音单元710拼接重叠部分的第t帧。说话人语音单元720包括拼接重叠部分721,拼接重叠部分721包括T帧语音帧,语音帧722为说话人语音单元720拼接重叠部分的第t帧。语音单元710拼接重叠部分的第t帧与语音帧722为说话人语音单元720拼接重叠部分的第t帧重叠。
在一个实施例中,终端可在对各同步机器语音单元子集中的各同步机器语音单元,确定与相应的划分出的机器语音单元的声学特征差异度后,在说话人语音库中获取各同步机器语音单元对应的说话人语音单元。终端可再将获取的说话人语音单元按照所对应的目标文本中的读音顺序进行排列组合,得到多组待拼接的说话人语音单元序列,并确定各组待拼接的说话人语音单元序列中相邻的说话人语音单元之间的差异度,再将各同步机器语音单元与相应的划分出的机器语音单元的声学特征差异度作为相应的说话人语音单元与相应的划分出的机器语音单元的声学特征差异度。
终端可将各组待拼接的说话人语音单元序列中各说话人语音单元序列与相应的划分出的机器语音单元的声学特征差异度加权求和,得到各组待拼接的说话人语音单元序列对应的目标代价。再将各组待拼接的说话人语音单元序列中相邻的说话人语音单元之间的差异度加权求和,得到各组待拼接的说话人语音单元序列对应的拼接代价。
终端在分别得到各组待拼接的说话人语音单元序列对应的目标代价和拼接代价后,通过动态规划的方法确定使得目标代价和拼接代价之和最小的拼接方式。其中,动态规划是数据计算方法上一种用于求解最优解的方法。
在一个实施例中,步骤S302之前,语音转换方法还包括构建异步机器语音库和同步机器语音库的过程,具体包括:收集说话人历史语音;识别说话人历史语音对应的文本内容;根据识别得到的文本内容生成异步机器语音单元序列;根据生成的异步机器语音单元序列构建异步机器语音库;获取收集的说话人历史语音的韵律特征;根据识别得到的文本内容和获取的韵律特征,生成同步机器语音单元序列;根据生成的同步机器语音单元序列构建同步机器语音库。
参考图8,图8示出了本实施例中构建语音库的逻辑框图。具体地,终端可事先收集说话人历史语音,收集的说话人历史语音可以是通过声音采集装置采集的语音波形。终端可对各历史语音波形用语音识别系统进行语音单元划分,得到相应的说话人语音单元序列,以及各单元波形;再用语音识别系统识别出各说话人语音单元序列对应的文本内容,并标注出各说话人语音单元序列中每个语音单元的读音和时长分布,得到各语音单元的单元读音。终端可根据得到的单元读音、各单元波形和各说话人语音单元序列构建说话人语音库。
终端可根据各语音单元的读音标注,用自动语音合成系统合成出与各语音单元读音相同的异步机器语音单元序列,并得到与异步机器语音单元序列对应的语音波形,和通过声学模型输出与异步机器语音单元序列对应的声学参数。进一步地,终端可将异步机器语音单元序列对应的语音波形和声学参数按照异步机器语音单元进行划分,得到与各异步机器语音单元对应的单元波形和单元声学参数,再根据单元读音、各单元波形、各单元声学参数以及各异步机器语音单元序列构建异步机器语音库。
终端可再根据各语音单元的读音标注和时长分布标注,用自动语音合成系统合成出与各语音单元读音与时长分布均相同的同步机器语音单元序列,并得到与同步机器语音单元序列对应的语音波形,和通过声学模型输出与同步机器语音单元序列对应的声学参数。进一步地,终端可将同步机器语音单元序列对应的语音波形和声学参数按照同步机器语音单元进行划分,得到与各同步机器语音单元对应的单元波形和单元声学参数,再根据单元读音、各单元波形、各单元声学参数以及各同步机器语音单元序列构建同步机器语音库。
更进一步地,终端可将说话人语音库中的说话人语音单元序列、异步机器语音库中的异步机器语音单元序列和同步机器语音库中的同步机器语音单元序列按照对应的文本内容对齐,合并构建平行语音库。
举例说明,说话人历史语音(广东口音)为:“他-在灰机上-拿着一朵-鲜发”,识别得到的文本内容为:“他在飞机上拿着一朵鲜花”,合成的异步机器语音单元序列为:“他在-飞机上-拿着-一朵鲜花”,读音与文本内容读音相同,韵律特征符合机器韵律特征;合成的同步机器语音单元序列为:“他-在飞机上-拿着一朵-鲜花”,读音与文本内容读音相同,韵律特征符合说话人韵律特征。其中,“-”表示语音之间的韵律停顿。
在本实施例中,构建包括与说话人语音库中说话人语音单元序列文本内容相同的异步机器语音单元序列的异步机器语音库,建立说话人语音风格和机器语音风格的对应关系,使得对目标文本的韵律特征选取更为准确性。构建包括与说话人语音库中说话人语音单元序列文本内容相同,且韵律特征相同的同步机器语音单元序列的同步机器语音库,建立韵律特征相同的机器语音与说话人语音的对应关系,使得对用于拼接得到说话人目标语音的说话人语音单元的选取更为准确性。
图9示出了一个实施例中语音转换方法的流逻辑框图。如图9所示,终端可事先收集说话人历史语音,在对说话人历史语音进行语音识别,得到说话人语音库。再标注出每个语音单元的读音和时长分布,采用TTS参数合成系统根据读音标注合成异步机器语音单元序列构建异步机器语音库,采用TTS参数合成系统根据读音标注和时长分布标注合成同步机器语音单元序列构建同步机器语音库。
终端可获取目标文本,根据目标文本合成第一机器语音,从异步机器语音库中,筛选出韵律特征与第一机器语音的韵律特征匹配的异步机器语音单元序列。在同步机器语音库中,查找与异步机器语音单元序列对应的同步机器语音单元序列,根据同步机器语音单元序列的韵律特征,合成与目标文本对应的第二机器语音;终端可再根据第二机器语音的声学特征,从同步机器语音库中挑选与第二机器语音声学特征匹配的同步机器语音单元;再从说话人语音库中,挑选与同步机器语音单元对应的说话人语音单元;拼接挑选出的说话人语音单元,得到说话人目标语音。其中,由于同步机器语音单元序列与说话人语音单元序列的时长分布相同,故可将同步机器语音单元序列的韵律特征作为说话人语音单元序列的韵律特征。
如图10所示,在一个实施例中,提供了一种语音转换装置1000,包括:获取模块1001、第一合成模块1002、第一筛选模块1003、查找模块1004、第二合成模块1005、第二筛选模块1006和拼接模块1007。
获取模块1001,用于获取目标文本。
第一合成模块1002,用于合成与目标文本对应的第一机器语音。
第一筛选模块1003,用于从异步机器语音库中,筛选出韵律特征与第一机器语音的韵律特征匹配的异步机器语音单元序列。
查找模块1004,用于在同步机器语音库中,查找与异步机器语音单元序列对应的同步机器语音单元序列。
第二合成模块1005,用于根据同步机器语音单元序列的韵律特征,合成与目标文本对应的第二机器语音。
第二筛选模块1006,用于从同步机器语音库中,挑选与第二机器语音声学特征匹配的同步机器语音单元。
拼接模块1007,用于将说话人语音库中与同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音。
其中,同步机器语音库、异步机器语音库和说话人语音库的文本内容相同,且说话人语音库与同步机器语音库的韵律特征相匹配。
上述语音合成装置1000,用于拼接得到说话人目标语音的语音单元选自说话人语音库,拼接转换的语音保留了说话人的音色。而且利用异步机器语音库中符合机器韵律特征的异步机器语音单元序列,与同步机器语音库中符合说话人韵律特征的同步机器语音单元序列的对应关系,在合成符合机器韵律特征的第一机器语音后,根据对应关系确定符合说话人语音风格的韵律特征。再根据该韵律特征合成第二机器语音,以第二机器语音的声学特征为依据从同步机器语音库中挑选与第二机器语音声学特征匹配的同步机器语音单元,再将说话人语音库中与挑选出的同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音,保留了说话人的韵律特征。这样即又保留了说话人音色,又保留了说话人的韵律特征,使得转换得到的语音更自然,更符合需求的说话人的语音风格,从而提高了语音转换效果。
在一个实施例中,第一筛选模块1003还用于按照第一机器语音,从异步机器语音库中获取候选异步机器语音单元序列;确定候选异步机器语音单元序列与第一机器语音的韵律特征差异度;将对应最小韵律特征差异度的候选异步机器语音单元序列,作为与第一机器语音的韵律特征匹配的异步机器语音单元序列。
在本实施例中,以异步机器语音库中异步机器语音单元序列与第一机器语音计算韵律特征差异度为约束条件,选取与第一机器语音的韵律特征匹配的异步机器语音单元序列,提高了韵律特征选取的准确性,使得转换得到的语音更自然,更符合需求的说话人的语音风格。
在一个实施例中,第一筛选模块1003还用于确定第一机器语音所包括的机器语音单元的数量;从异步机器语音库中,获取包括的异步机器语音单元的数量与确定的数量相等的候选异步机器语音单元序列。
在本实施例中,以第一机器语音所包括的机器语音单元的数量为依据选取候选异步机器语音单元序列进行韵律特征差异度的计算,提高了韵律特征差异度的计算结果的可靠性。
在一个实施例中,第一筛选模块1003还用于遍历异步机器语音库所包括的异步机器语音单元序列;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量小于确定的数量时,则继续遍历;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量等于确定的数量时,则将遍历至的异步机器语音单元序列作为候选异步机器语音单元序列;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量大于确定的数量时,则将遍历至的异步机器语音单元序列,按照所包括的异步机器语音单元的顺序以及确定的数量,拆分出候选异步机器语音单元序列。
在本实施例中,对所包括的异步机器语音单元的数量大于第二机器语音所包括的机器语音单元的数量的异步机器语音单元序列,按照所包括的异步机器语音单元的顺序以及确定的数量,拆分出异步机器语音单元子序列作为候选异步机器语音单元序列,既符合自然语言的连贯性,保证了韵律特征差异度的计算结果的可靠性,又提高了异步机器语音库中语料的利用率。
在一个实施例中,第一筛选模块1003还用于从第一机器语音中划分出机器语音单元;根据候选异步机器语音单元序列所包括的各异步机器语音单元与各自对应的划分出的机器语音单元之间的韵律参数差异值,生成候选异步机器语音单元序列与第一机器语音的韵律特征差异度;其中,韵律参数差异值包括时长差异值、基频变化率差异值、声学参数的时长分布差异和基频变化率的概率分布差异中的至少一种。
在本实施例中,通过候选异步机器语音单元序列所包括的各异步机器语音单元与各自对应的划分出的机器语音单元之间的各韵律参数差异值来计算韵律特征差异度,利用影响韵律特征的各参数进行计算,提高了韵律特征匹配的准确性。
在一个实施例中,第二筛选模块1006还用于从第二机器语音中划分出机器语音单元;确定划分出的各机器语音单元的读音特征;从同步机器语音库中,筛选读音特征与划分出的各机器语音单元的读音特征匹配的同步机器语音单元子集;对于各同步机器语音单元子集中的各同步机器语音单元,确定与相应的划分出的机器语音单元的声学特征差异度;挑选出对应最小声学特征差异度的同步机器语音单元,作为与第二机器语音声学特征匹配的同步机器语音单元。
在本实施例中,以同步机器语音库中同步机器语音单元与第二机器语音所包括的机器语言单元计算的声学特征差异度为约束条件,选取与第二机器语音的声学特征匹配的同步机器语音单元,提高了声学特征选取的准确性,使得转换得到的语音更自然,更符合需求的说话人的语音风格。
在一个实施例中,第二筛选模块1006还用于确定各同步机器语音单元子集中各同步机器语音单元的声学参数;确定划分出的各机器语音单元的声学参数;对于各同步机器语音单元和相应的划分出的机器语音单元,计算相应的声学参数的差异值;根据差异值,生成与差异值正相关的声学特征差异度。
在本实施例中,通过同步机器语音单元与各自对应的划分出的机器语音单元之间的各声学参数差异值来计算声学特征差异度,利用影响声学特征的各参数进行计算,提高了声学特征匹配的准确性。
在一个实施例中,拼接模块1007还用于将同步机器语音单元,按照所对应的目标文本中的读音顺序排序;确定排序后的同步机器语音单元中相邻的同步机器语音单元的拼接位置;在说话人语音库中,查找与同步机器语音单元对应的说话人语音单元;按照确定的相邻的同步机器语音单元的拼接位置拼接相应的说话人语音单元,得到说话人目标语音。
在本实施例中,按照确定的拼接位置拼接相邻的说话人语音单元,使得拼接过渡更自然,从而使得转换得到的语音更自然,更符合需求的说话人的语音风格。
在一个实施例中,拼接模块1007还用于获取从挑选出的各同步机器语音单元划分出的语音帧;确定相邻的同步机器语音单元的拼接重叠语音帧数;其中,相邻的同步机器语音单元各自的与拼接重叠语音帧数对应的语音帧之间的差异度最小化;根据拼接重叠语音帧数确定排序后的同步机器语音单元中相邻的同步机器语音单元的拼接位置。
在本实施例中,以相邻的说话人语音单元各自的与拼接重叠语音帧数对应的语音帧之间的差异度为约束条件,选取相邻的说话人语音单元的拼接位置,提高了拼接位置选取的准确性,使得转换得到的语音更自然,更符合需求的说话人的语音风格。
在一个实施例中,拼接模块1007还用于按照以下公式确定相邻的同步机器语音单元的拼接重叠语音帧数:
其中,T表示相邻的同步机器语音单元的拼接重叠语音帧数,t表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧,CCt表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧语音帧的差异度,表示求取T使得最小。
在本实施例中,提供了具体用于求取使得相邻的同步机器语音单元各自的与拼接重叠语音帧数对应的语音帧之间的差异度最小的拼接重叠帧数的方法,使得拼接位置选取更准确。
如图11所示,在一个实施例中,语音合成装置1000还包括语音库创建模块1008。
语音库创建模块1008,用于收集说话人历史语音;识别说话人历史语音对应的文本内容;根据识别得到的文本内容生成异步机器语音单元序列;根据生成的异步机器语音单元序列构建异步机器语音库;获取收集的说话人历史语音的韵律特征;根据识别得到的文本内容和获取的韵律特征,生成同步机器语音单元序列;根据生成的同步机器语音单元序列构建同步机器语音库。
在本实施例中,构建包括与说话人语音库中说话人语音单元序列文本内容相同的异步机器语音单元序列的异步机器语音库,建立说话人语音风格和机器语音风格的对应关系,使得对目标文本的韵律特征选取更为准确性。构建包括与说话人语音库中说话人语音单元序列文本内容相同,且韵律特征相同的同步机器语音单元序列的同步机器语音库,建立韵律特征相同的机器语音与说话人语音的对应关系,使得对用于拼接得到说话人目标语音的说话人语音单元的选取更为准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (22)

1.一种语音转换方法,所述方法包括:
获取目标文本;
合成与所述目标文本对应的第一机器语音;
从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;
在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;
根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;
从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;
将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音;
其中,所述同步机器语音库、所述异步机器语音库和所述说话人语音库的文本内容相同,且所述说话人语音库与所述同步机器语音库的韵律特征相匹配。
2.根据权利要求1所述的方法,其特征在于,所述从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列,包括:
按照所述第一机器语音,从异步机器语音库中获取候选异步机器语音单元序列;
确定所述候选异步机器语音单元序列与所述第一机器语音的韵律特征差异度;
将对应最小韵律特征差异度的候选异步机器语音单元序列,作为与所述第一机器语音的韵律特征匹配的异步机器语音单元序列。
3.根据权利要求2所述的方法,其特征在于,所述按照所述第一机器语音,从异步机器语音库中获取候选异步机器语音单元序列,包括:
确定所述第一机器语音所包括的机器语音单元的数量;
从异步机器语音库中,获取包括的异步机器语音单元的数量与确定的所述数量相等的候选异步机器语音单元序列。
4.根据权利要求3所述的方法,其特征在于,所述从异步机器语音库中,获取包括的异步机器语音单元的数量与确定的所述数量相等的候选异步机器语音单元序列,包括:
遍历异步机器语音库所包括的异步机器语音单元序列;
当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量小于确定的所述数量时,则继续所述遍历;
当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量等于确定的所述数量时,则将遍历至的异步机器语音单元序列作为候选异步机器语音单元序列;
当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量大于确定的所述数量时,则将遍历至的异步机器语音单元序列,按照所包括的异步机器语音单元的顺序以及确定的所述数量,拆分出候选异步机器语音单元序列。
5.根据权利要求2所述的方法,其特征在于,所述确定所述候选异步机器语音单元序列与所述第一机器语音的韵律特征差异度,包括:
从所述第一机器语音中划分出机器语音单元;
根据所述候选异步机器语音单元序列所包括的各异步机器语音单元与各自对应的划分出的机器语音单元之间的韵律参数差异值,生成所述候选异步机器语音单元序列与所述第一机器语音的韵律特征差异度;
其中,所述韵律参数差异值包括时长差异值、基频变化率差异值、声学参数的时长分布差异和基频变化率的概率分布差异中的至少一种。
6.根据权利要求1所述的方法,其特征在于,所述从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元,包括:
从所述第二机器语音中划分出机器语音单元;
确定划分出的各机器语音单元的读音特征;
从所述同步机器语音库中,筛选读音特征与所述划分出的各机器语音单元的读音特征匹配的同步机器语音单元子集;
对于各所述同步机器语音单元子集中的各同步机器语音单元,确定与相应的划分出的机器语音单元的声学特征差异度;
挑选出对应最小声学特征差异度的同步机器语音单元,作为与所述第二机器语音声学特征匹配的同步机器语音单元。
7.根据权利要求6所述的方法,其特征在于,所述对于各所述同步机器语音单元子集中的各同步机器语音单元,确定与相应的划分出的机器语音单元的声学特征差异度,包括:
确定各所述同步机器语音单元子集中各同步机器语音单元的声学参数;
确定划分出的各所述机器语音单元的声学参数;
对于各同步机器语音单元和相应的划分出的机器语音单元,计算相应的声学参数的差异值;
根据所述差异值,生成与所述差异值正相关的声学特征差异度。
8.根据权利要求1所述的方法,其特征在于,所述将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音,包括:
将挑选出的所述同步机器语音单元,按照所对应的目标文本中的读音顺序排序;
确定排序后的所述同步机器语音单元中相邻的同步机器语音单元的拼接位置;
在说话人语音库中,查找与所述同步机器语音单元对应的说话人语音单元;
按照确定的相邻的同步机器语音单元的拼接位置拼接相应的所述说话人语音单元,得到说话人目标语音。
9.根据权利要求8所述的方法,其特征在于,所述确定排序后的所述同步机器语音单元中相邻的同步机器语音单元的拼接位置,包括:
获取从挑选出的各所述同步机器语音单元划分出的语音帧;
确定相邻的同步机器语音单元的拼接重叠语音帧数;其中,相邻的同步机器语音单元各自的与所述拼接重叠语音帧数对应的语音帧之间的差异度最小化;
根据所述拼接重叠语音帧数确定排序后的所述同步机器语音单元中相邻的同步机器语音单元的拼接位置。
10.根据权利要求9所述的方法,其特征在于,所述确定相邻的同步机器语音单元的拼接重叠语音帧数包括:
按照以下公式确定相邻的同步机器语音单元的拼接重叠语音帧数:
min ( Σ t = 1 T CC t )
其中,T表示相邻的同步机器语音单元的拼接重叠语音帧数,t表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧,CCt表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧语音帧的差异度,表示求取T使得最小。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述获取目标文本之前,所述方法还包括:
收集说话人历史语音;
识别所述说话人历史语音对应的文本内容;
根据识别得到的所述文本内容生成异步机器语音单元序列;
根据生成的所述异步机器语音单元序列构建异步机器语音库;
获取收集的所述说话人历史语音的韵律特征;
根据识别得到的所述文本内容和获取的所述韵律特征,生成同步机器语音单元序列;
根据生成的所述同步机器语音单元序列构建同步机器语音库。
12.一种语音转换装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本;
第一合成模块,用于合成与所述目标文本对应的第一机器语音;
第一筛选模块,用于从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;
查找模块,用于在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;
第二合成模块,用于根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;
第二筛选模块,用于从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;
拼接模块,用于将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音;
其中,所述同步机器语音库、所述异步机器语音库和所述说话人语音库的文本内容相同,且所述说话人语音库与所述同步机器语音库的韵律特征相匹配。
13.根据权利要求12所述的装置,其特征在于,所述从第一筛选模块用于按照所述第一机器语音,从异步机器语音库中获取候选异步机器语音单元序列;确定所述候选异步机器语音单元序列与所述第一机器语音的韵律特征差异度;将对应最小韵律特征差异度的候选异步机器语音单元序列,作为与所述第一机器语音的韵律特征匹配的异步机器语音单元序列。
14.根据权利要求13所述的装置,其特征在于,所述第一筛选模块还用于确定所述第一机器语音所包括的机器语音单元的数量;从异步机器语音库中,获取包括的异步机器语音单元的数量与确定的所述数量相等的候选异步机器语音单元序列。
15.根据权利要求15所述的装置,其特征在于,所述第一筛选模块还用于遍历异步机器语音库所包括的异步机器语音单元序列;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量小于确定的所述数量时,则继续所述遍历;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量等于确定的所述数量时,则将遍历至的异步机器语音单元序列作为候选异步机器语音单元序列;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量大于确定的所述数量时,则将遍历至的异步机器语音单元序列,按照所包括的异步机器语音单元的顺序以及确定的所述数量,拆分出候选异步机器语音单元序列。
16.根据权利要求13所述的装置,其特征在于,所述第一筛选模块还用于从所述第一机器语音中划分出机器语音单元;根据所述候选异步机器语音单元序列所包括的各异步机器语音单元与各自对应的划分出的机器语音单元之间的韵律参数差异值,生成所述候选异步机器语音单元序列与所述第一机器语音的韵律特征差异度;其中,所述韵律参数差异值包括时长差异值、基频变化率差异值、声学参数的时长分布差异和基频变化率的概率分布差异中的至少一种。
17.根据权利要求12所述的装置,其特征在于,所述第二筛选模块还用于从所述第二机器语音中划分出机器语音单元;确定划分出的各机器语音单元的读音特征;从所述同步机器语音库中,筛选读音特征与所述划分出的各机器语音单元的读音特征匹配的同步机器语音单元子集;对于各所述同步机器语音单元子集中的各同步机器语音单元,确定与相应的划分出的机器语音单元的声学特征差异度;挑选出对应最小声学特征差异度的同步机器语音单元,作为与所述第二机器语音声学特征匹配的同步机器语音单元。
18.根据权利要求17所述的装置,其特征在于,所述第二筛选模块还用于确定各所述同步机器语音单元子集中各同步机器语音单元的声学参数;确定划分出的各所述机器语音单元的声学参数;对于各同步机器语音单元和相应的划分出的机器语音单元,计算相应的声学参数的差异值;根据所述差异值,生成与所述差异值正相关的声学特征差异度。
19.根据权利要求12所述的装置,其特征在于,所述拼接模块还用于将所述同步机器语音单元,按照所对应的目标文本中的读音顺序排序;确定排序后的所述同步机器语音单元中相邻的同步机器语音单元的拼接位置;在说话人语音库中,查找与所述同步机器语音单元对应的说话人语音单元;按照确定的相邻的同步机器语音单元的拼接位置拼接相应的所述说话人语音单元,得到说话人目标语音。
20.根据权利要求19所述的装置,其特征在于,所述拼接模块还用于获取从挑选出的各所述同步机器语音单元划分出的语音帧;确定相邻的同步机器语音单元的拼接重叠语音帧数;其中,相邻的同步机器语音单元各自的与所述拼接重叠语音帧数对应的语音帧之间的差异度最小化;根据所述拼接重叠语音帧数确定排序后的所述同步机器语音单元中相邻的同步机器语音单元的拼接位置。
21.根据权利要求20所述的装置,其特征在于,所述拼接模块还用于按照以下公式确定相邻的同步机器语音单元的拼接重叠语音帧数:
min ( Σ t = 1 T CC t )
其中,T表示相邻的同步机器语音单元的拼接重叠语音帧数,t表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧,CCt表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧语音帧的差异度,表示求取T使得最小。
22.根据权利要求12至21中任一项所述的装置,其特征在于,所述获取目标文本之前,所述方法还包括:
语音库创建模块,用于收集说话人历史语音;识别所述说话人历史语音对应的文本内容;根据识别得到的所述文本内容生成异步机器语音单元序列;根据生成的所述异步机器语音单元序列构建异步机器语音库;获取收集的所述说话人历史语音的韵律特征;根据识别得到的所述文本内容和获取的所述韵律特征,生成同步机器语音单元序列;根据生成的所述同步机器语音单元序列构建同步机器语音库。
CN201710093860.8A 2017-02-21 2017-02-21 语音转换方法和装置 Active CN106920547B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201710093860.8A CN106920547B (zh) 2017-02-21 2017-02-21 语音转换方法和装置
PCT/CN2018/074435 WO2018153223A1 (zh) 2017-02-21 2018-01-29 语音转换方法、计算机设备和存储介质
EP18756788.8A EP3588490B1 (en) 2017-02-21 2018-01-29 Speech conversion method, computer device, and storage medium
JP2019542154A JP6893246B2 (ja) 2017-02-21 2018-01-29 音声変換方法、コンピュータ機器、及びコンピュータプログラム
KR1020197013802A KR102239650B1 (ko) 2017-02-21 2018-01-29 음성 변환 방법, 컴퓨터 장치 및 저장 매체
US16/361,654 US10878803B2 (en) 2017-02-21 2019-03-22 Speech conversion method, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710093860.8A CN106920547B (zh) 2017-02-21 2017-02-21 语音转换方法和装置

Publications (2)

Publication Number Publication Date
CN106920547A true CN106920547A (zh) 2017-07-04
CN106920547B CN106920547B (zh) 2021-11-02

Family

ID=59454008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710093860.8A Active CN106920547B (zh) 2017-02-21 2017-02-21 语音转换方法和装置

Country Status (6)

Country Link
US (1) US10878803B2 (zh)
EP (1) EP3588490B1 (zh)
JP (1) JP6893246B2 (zh)
KR (1) KR102239650B1 (zh)
CN (1) CN106920547B (zh)
WO (1) WO2018153223A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN107818795A (zh) * 2017-11-15 2018-03-20 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
WO2018153223A1 (zh) * 2017-02-21 2018-08-30 腾讯科技(深圳)有限公司 语音转换方法、计算机设备和存储介质
CN109948124A (zh) * 2019-03-15 2019-06-28 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN110689885A (zh) * 2019-09-18 2020-01-14 平安科技(深圳)有限公司 机器合成语音识别方法、装置、存储介质及电子设备
CN110782875A (zh) * 2019-10-16 2020-02-11 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律处理方法及装置
CN111213205A (zh) * 2019-12-30 2020-05-29 深圳市优必选科技股份有限公司 一种流式语音转换方法、装置、计算机设备及存储介质
CN111317316A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 模拟指定人声进行人机对话的照片框
CN111640456A (zh) * 2020-06-04 2020-09-08 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN113223513A (zh) * 2020-02-05 2021-08-06 阿里巴巴集团控股有限公司 语音转换方法、装置、设备和存储介质
CN113470664A (zh) * 2021-06-30 2021-10-01 平安科技(深圳)有限公司 语音转换方法、装置、设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190019497A1 (en) * 2017-07-12 2019-01-17 I AM PLUS Electronics Inc. Expressive control of text-to-speech content
CN110288682B (zh) * 2019-06-28 2023-09-26 北京百度网讯科技有限公司 用于控制三维虚拟人像口型变化的方法和装置
KR102281600B1 (ko) * 2019-09-19 2021-07-29 엘지전자 주식회사 합성 음성에 대한 보정을 수행하는 인공 지능 장치 및 그 방법
CN111785247A (zh) * 2020-07-13 2020-10-16 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN112509552B (zh) * 2020-11-27 2023-09-26 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
US11605370B2 (en) 2021-08-12 2023-03-14 Honeywell International Inc. Systems and methods for providing audible flight information

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
EP1640968A1 (en) * 2004-09-27 2006-03-29 Multitel ASBL Method and device for speech synthesis
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
CN101064103A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
KR20120117041A (ko) * 2011-04-14 2012-10-24 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US20140142946A1 (en) * 2012-09-24 2014-05-22 Chengjun Julian Chen System and method for voice transformation
CN105206257A (zh) * 2015-10-14 2015-12-30 科大讯飞股份有限公司 一种声音转换方法及装置
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN105654940A (zh) * 2016-01-26 2016-06-08 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
US20160365087A1 (en) * 2015-06-12 2016-12-15 Geulah Holdings Llc High end speech synthesis
CN106356052A (zh) * 2016-10-17 2017-01-25 腾讯科技(深圳)有限公司 语音合成方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3850885D1 (de) * 1987-10-09 1994-09-01 Sound Entertainment Inc Spracherzeugung aus digital gespeicherten koartikulierten sprachsegmenten.
ATE102731T1 (de) * 1988-11-23 1994-03-15 Digital Equipment Corp Namenaussprache durch einen synthetisator.
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5987412A (en) * 1993-08-04 1999-11-16 British Telecommunications Public Limited Company Synthesising speech by converting phonemes to digital waveforms
JPH09305197A (ja) 1996-05-16 1997-11-28 N T T Data Tsushin Kk 音声変換方法及び装置
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
JP3576066B2 (ja) 1999-03-25 2004-10-13 松下電器産業株式会社 音声合成システム、および音声合成方法
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
JP5665780B2 (ja) 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
CN106297765B (zh) * 2015-06-04 2019-10-18 科大讯飞股份有限公司 语音合成方法及系统
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
CN106920547B (zh) * 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
EP1640968A1 (en) * 2004-09-27 2006-03-29 Multitel ASBL Method and device for speech synthesis
CN101064103A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
KR20120117041A (ko) * 2011-04-14 2012-10-24 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
US20140142946A1 (en) * 2012-09-24 2014-05-22 Chengjun Julian Chen System and method for voice transformation
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US20160365087A1 (en) * 2015-06-12 2016-12-15 Geulah Holdings Llc High end speech synthesis
CN105206257A (zh) * 2015-10-14 2015-12-30 科大讯飞股份有限公司 一种声音转换方法及装置
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN105654940A (zh) * 2016-01-26 2016-06-08 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN106356052A (zh) * 2016-10-17 2017-01-25 腾讯科技(深圳)有限公司 语音合成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭国安 等: "《多媒体应用技术》", 31 January 2011, 武汉大学出版社 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018153223A1 (zh) * 2017-02-21 2018-08-30 腾讯科技(深圳)有限公司 语音转换方法、计算机设备和存储介质
US10878803B2 (en) 2017-02-21 2020-12-29 Tencent Technology (Shenzhen) Company Limited Speech conversion method, computer device, and storage medium
CN107818795A (zh) * 2017-11-15 2018-03-20 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
CN107818795B (zh) * 2017-11-15 2020-11-17 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN107705783B (zh) * 2017-11-27 2022-04-26 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN111317316A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 模拟指定人声进行人机对话的照片框
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN109948124A (zh) * 2019-03-15 2019-06-28 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN110689885A (zh) * 2019-09-18 2020-01-14 平安科技(深圳)有限公司 机器合成语音识别方法、装置、存储介质及电子设备
CN110689885B (zh) * 2019-09-18 2023-05-23 平安科技(深圳)有限公司 机器合成语音识别方法、装置、存储介质及电子设备
CN110782875A (zh) * 2019-10-16 2020-02-11 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律处理方法及装置
CN111213205A (zh) * 2019-12-30 2020-05-29 深圳市优必选科技股份有限公司 一种流式语音转换方法、装置、计算机设备及存储介质
CN111213205B (zh) * 2019-12-30 2023-09-08 深圳市优必选科技股份有限公司 一种流式语音转换方法、装置、计算机设备及存储介质
CN113223513A (zh) * 2020-02-05 2021-08-06 阿里巴巴集团控股有限公司 语音转换方法、装置、设备和存储介质
CN111640456A (zh) * 2020-06-04 2020-09-08 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN113470664A (zh) * 2021-06-30 2021-10-01 平安科技(深圳)有限公司 语音转换方法、装置、设备及存储介质
CN113470664B (zh) * 2021-06-30 2024-01-30 平安科技(深圳)有限公司 语音转换方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR20190065408A (ko) 2019-06-11
JP6893246B2 (ja) 2021-06-23
KR102239650B1 (ko) 2021-04-12
JP2020505652A (ja) 2020-02-20
EP3588490A1 (en) 2020-01-01
WO2018153223A1 (zh) 2018-08-30
US10878803B2 (en) 2020-12-29
US20190221201A1 (en) 2019-07-18
EP3588490B1 (en) 2023-07-19
CN106920547B (zh) 2021-11-02
EP3588490A4 (en) 2020-04-08

Similar Documents

Publication Publication Date Title
CN106920547A (zh) 语音转换方法和装置
CN109949783B (zh) 歌曲合成方法及系统
CN111402843B (zh) 说唱音乐生成方法、装置、可读介质及电子设备
CN111326136B (zh) 语音处理方法、装置、电子设备及存储介质
CN110189741A (zh) 音频合成方法、装置、存储介质和计算机设备
CN108806655A (zh) 歌曲的自动生成
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
CN111370024B (zh) 一种音频调整方法、设备及计算机可读存储介质
CN107864410A (zh) 一种多媒体数据处理方法、装置、电子设备以及存储介质
CN106898345A (zh) 语音合成方法及语音合成装置
CN104392716B (zh) 高表现力的语音合成方法和装置
CN110111778A (zh) 一种语音处理方法、装置、存储介质及电子设备
Indumathi et al. Survey on speech synthesis
WO2008147649A1 (en) Method for synthesizing speech
KR20220165666A (ko) 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템
CN111354325A (zh) 自动词曲创作系统及其方法
CN1331113C (zh) 语音合成装置和方法
CN112242134A (zh) 语音合成方法及装置
KR100759172B1 (ko) 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을기억한 기억 매체
Benita et al. Diffar: Denoising diffusion autoregressive model for raw speech waveform generation
Pitrelli et al. Expressive speech synthesis using American English ToBI: questions and contrastive emphasis
Chandra et al. Towards the development of accent conversion model for (l1) bengali speaker using cycle consistent adversarial network (cyclegan)
CN105719641A (zh) 用于波形拼接语音合成的选音方法和装置
JPH09152884A (ja) 音声合成装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant