CN111754977A - 一种基于互联网的语音实时合成系统 - Google Patents

一种基于互联网的语音实时合成系统 Download PDF

Info

Publication number
CN111754977A
CN111754977A CN202010547215.0A CN202010547215A CN111754977A CN 111754977 A CN111754977 A CN 111754977A CN 202010547215 A CN202010547215 A CN 202010547215A CN 111754977 A CN111754977 A CN 111754977A
Authority
CN
China
Prior art keywords
module
voice
sentence
text
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010547215.0A
Other languages
English (en)
Inventor
蒲瑶
何国涛
李全忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pachira Technology Beijing Co ltd
Original Assignee
Pachira Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pachira Technology Beijing Co ltd filed Critical Pachira Technology Beijing Co ltd
Priority to CN202010547215.0A priority Critical patent/CN111754977A/zh
Publication of CN111754977A publication Critical patent/CN111754977A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于互联网的语音实时合成系统;包括控制模块,所述控制模块上电性连接有调压模块和市电网,所述控制模块上电性连接有分析模块和咪头,所述控制模块上电性连接有语音模块和蜂鸣器,所述控制模块上电性连接有传输模块和云互联网,所述控制模块上电性连接存储模块和显示模块;本发明通过分析模块实现对输入的语音进行分析,将语句中的特征提取出来,将语句的声纹提取出来,辨别声音的语种,设有语音模块对输出的语音进行规划和填充,并且对语调进行调节,设有传输模块对数据流进行过滤处理,且数据流进行放大,防止在传输的时候发生丢失或者失真,并且将语音发送到云互联网上,实现实时传输。

Description

一种基于互联网的语音实时合成系统
技术领域
本发明属于语音合成技术领域,具体涉及一种基于互联网的语音实时合成系统。
背景技术
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术,然而市面上各种的语音合成系统仍存在各种各样的问题。
如授权公告号为CN111128126A所公开的多语种智能语音对话的方法及系统,其虽然实现了语种识别根据获取声音快速识别所属语种,判断是否需要切换通话语种;语音识别支持多种语种的语音识别,不同的语种有不同的处理方式;语义分析使用BERT与词库模型结合的方式,每个模型均基于不同语种及不同的应用场景分别训练;话术生成设置多语种话术组,其中每个语种需单独设置单套话术;文字转语音支持多种语种的文字转语音,包括人工录音模型和语音合成模型,从而实现在通话中根据客户交互中使用语言所属语种实时切换到对方语种与之交互,但是并未解决现有的语音合成系统对于语言进行分析,提取语义和声纹,并且在输出的时候不能够对语义和声调进行转化调节,并且在传输的时候不能够对数据流进行放大和过滤等的问题,为此我们提出一种基于互联网的语音实时合成系统。
发明内容
本发明的目的在于提供一种基于互联网的语音实时合成系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于互联网的语音实时合成系统,包括控制模块,所述控制模块上电性连接有调压模块和市电网,所述控制模块上电性连接有分析模块和咪头,所述控制模块上电性连接有语音模块和蜂鸣器,所述控制模块上电性连接有传输模块和云互联网,所述控制模块上电性连接存储模块和显示模块;
所述分析模块内包括有语句特征提取、语句语义检测、语句断句、声纹检测模块、和语句转化文字,所述语句特征提取用于将输入的语音中的特征进行提取,所述语句语义检测通过对语句特征提取的语句中的语义进行翻译,所述声纹检测模块用于对声音的语种进行检测,且使得输出的语音以相同的语种输出,所述语句转化文字用于将语音转化成文字进行传输;
所述语音模块内包括有文本规划模块、文字断句填充、语意语法对比、文字语音转化和语句语调调节,所述文本规划模块用于对回答的语句文本进行规划长短,所述文字断句填充用于提取回答话语中的主谓宾进行填充,然后在进行修饰词的填充,所述语意语法对比用于对问答话语中的语意进行对比并且做出相应的回答,所述文字语音转化用于将文字转化成语音,并且通过蜂鸣器进行输出,所述语句语调调节用于对回答的话语进行语调的修成,使得话语能够具有高低语调,方便对话者快速的理解;
所述传输模块内部包括有数模转化模块、语音除杂模块、数据放大模块和通讯模块,所述数模转化模块用于将文字转化成数据流便于传输,所述语音除杂模块用于将数据流中的杂波进行过滤除去,所述数据放大模块用于将数据流进行放大处理,使得数据流在接收的时候不会发生丢失或者失真,所述通讯模块用于将数据流进行传输,使得合成语音能够实现互联网进行传输。
优选的,所述调压模块内包括有整流模块、降压模块、稳压模块和滤波模块,所述整流模块采用的是同步整流器将交流电压转化成直流电压,所述降压模块用于将电压降至3-5V之间用于控制模块使用,所述稳压模块和滤波模块用于将电压稳定的输出。
优选的,所述储存模块至少包括有四组,一组用于对控制模块的运行系统进行存储,一组用于对分析模块中的声纹、特征、语义和训练模块进行存储、一组用于对语音模块中的文字、语法和语调模型进行存储,另一组用于通讯记录和更新记录进行存储。
优选的,所述蜂鸣器内包括有驱动器,所述驱动器用于对蜂鸣器进行驱动。
优选的,所述显示模块采用的是触摸液晶显示屏,所述液晶显示模块用于对合成系统进行数据显示。
优选的,所述通讯模块采用的是无线传输、4G传输或者5G传输中的一种。
优选的,所述文字语音转化和语句转化文字采用的是基于PSOLA方法的时域波形拼接技术的KDTALK系统。
优选的,所述语音模块采用的是TTS结构,所述TTS结构包括有语言处理、韵律处理和声学处理,所述语言处理包括有文本规整、词的切分、语法分析和语义分析,所述韵律处理为合成语音规划出音段特征,所述声学处理根据语言处理和韵律处理两部分处理结果的要求输出语音。
与现有技术相比,本发明的有益效果是:
(1)本发明通过分析模块实现对输入的语音进行分析,对语句进行分析,将语句中的语义特征进行提取出来,并且将语句的声纹提取出来,辨别声音的语种,以及设有语音模块对即将输出的语音进行规划和填充,并且对语调进行调节,使得语调能够显示处语义。
(2)本发明在传输模块中设有转化模块,将语音或者文字转化成数据流,并且对数据流进行过滤处理,以及对数据流进行放大,防止在传输的时候发生丢失或者失真,并且将语音发送到云互联网上,实现实时传输。
附图说明
图1为本发明的系统结构示意图;
图2为本发明的分析模块示意图;
图3为本发明的语音模块示意图;
图4为本发明的传输模块示意图;
图5为本发明的调压模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图5,本发明提供一种技术方案:一种基于互联网的语音实时合成系统,包括控制模块,所述控制模块上电性连接有调压模块和市电网,所述控制模块上电性连接有分析模块和咪头,所述控制模块上电性连接有语音模块和蜂鸣器,所述控制模块上电性连接有传输模块和云互联网,所述控制模块上电性连接存储模块和显示模块;
所述分析模块内包括有语句特征提取、语句语义检测、语句断句、声纹检测模块、和语句转化文字,所述语句特征提取用于将输入的语音中的特征进行提取,所述语句语义检测通过对语句特征提取的语句中的语义进行翻译,所述声纹检测模块用于对声音的语种进行检测,且使得输出的语音以相同的语种输出,所述语句转化文字用于将语音转化成文字进行传输;
所述语音模块内包括有文本规划模块、文字断句填充、语意语法对比、文字语音转化和语句语调调节,所述文本规划模块用于对回答的语句文本进行规划长短,所述文字断句填充用于提取回答话语中的主谓宾进行填充,然后在进行修饰词的填充,所述语意语法对比用于对问答话语中的语意进行对比并且做出相应的回答,所述文字语音转化用于将文字转化成语音,并且通过蜂鸣器进行输出,所述语句语调调节用于对回答的话语进行语调的修成,使得话语能够具有高低语调,方便对话者快速的理解;
所述传输模块内部包括有数模转化模块、语音除杂模块、数据放大模块和通讯模块,所述数模转化模块用于将文字转化成数据流便于传输,所述语音除杂模块用于将数据流中的杂波进行过滤除去,所述数据放大模块用于将数据流进行放大处理,使得数据流在接收的时候不会发生丢失或者失真,所述通讯模块用于将数据流进行传输,使得合成语音能够实现互联网进行传输。
为了使得市电网能够稳定的对控制模块进行输出电压,实现对系统的运行,本实施例中,优选的,所述调压模块内包括有整流模块、降压模块、稳压模块和滤波模块,所述整流模块采用的是同步整流器将交流电压转化成直流电压,所述降压模块用于将电压降至3-5V之间用于控制模块使用,所述稳压模块和滤波模块用于将电压稳定的输出。
为了使得系统的运行能够保持稳定不会发生混乱,并且实现对系统的声纹、训练模块、文字、语法和语调等进行存储,本实施例中,优选的,所述储存模块至少包括有四组,一组用于对控制模块的运行系统进行存储,一组用于对分析模块中的声纹、特征、语义和训练模块进行存储、一组用于对语音模块中的文字、语法和语调模型进行存储,另一组用于通讯记录和更新记录进行存储。
为了实现对蜂鸣器进行运行,防止蜂鸣器在运行的时候不稳定,本实施例中,优选的,所述蜂鸣器内包括有驱动器,所述驱动器用于对蜂鸣器进行驱动。
为了实现对系统进行的运行情况进行显示,本实施例中,优选的,所述显示模块采用的是触摸液晶显示屏,所述液晶显示模块用于对合成系统进行数据显示。
为了实现对数据流进行传输,使得语音合成系统能够实现有云互联网进行数据传输,本实施例中,优选的,所述通讯模块采用的是无线传输、4G传输或者5G传输中的一种。
为了使得系统能够实现语音和文字之间的快速稳定的转化,本实施例中,优选的,所述文字语音转化和语句转化文字采用的是基于PSOLA方法的时域波形拼接技术的KDTALK系统。
为了实现对合成语音中的语法、语义和语调进行控制调节,本实施例中,优选的,所述语音模块采用的是TTS结构,所述TTS结构包括有语言处理、韵律处理和声学处理,所述语言处理包括有文本规整、词的切分、语法分析和语义分析,所述韵律处理为合成语音规划出音段特征,所述声学处理根据语言处理和韵律处理两部分处理结果的要求输出语音。
本发明的工作原理及使用流程:在使用的时候,对话的时候咪头会接收到语音,然后分析模块中的语句特征提取将会提取语句中的主谓宾,并且通过语句语义检测实现对语句的意思进行转化,并且通过声纹检测模块检测到语音的语种类型,然后将语句转化成文字实现传输,然后通过TTS结构实现对输出对话进行合成,先对文本进行规划,然后选择回答语句的主谓宾,然后填充到规划文本中,然后再将修饰词填充到规划文本中,并且在根据对话的语义和语法进行确定回答话语的语义和语法,然后将文字转化成语音,最后在通过语句语调调节对声音进行控制调节,然后通过驱动器带动蜂鸣器进行语音的播放,然后再将语音对话通过传输模块与云互联网进行数据传输,并且在进行数据传输的时候,会对数据流进行除杂操作,使得数据流中杂波能够较少以对数据流进行放大处理,使得数据在传输的时候不会造成丢失或者失真。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于互联网的语音实时合成系统,包括控制模块,其特征在于:所述控制模块上电性连接有调压模块和市电网,所述控制模块上电性连接有分析模块和咪头,所述控制模块上电性连接有语音模块和蜂鸣器,所述控制模块上电性连接有传输模块和云互联网,所述控制模块上电性连接存储模块和显示模块;
所述分析模块内包括有语句特征提取、语句语义检测、语句断句、声纹检测模块、和语句转化文字,所述语句特征提取用于将输入的语音中的特征进行提取,所述语句语义检测通过对语句特征提取的语句中的语义进行翻译,所述声纹检测模块用于对声音的语种进行检测,且使得输出的语音以相同的语种输出,所述语句转化文字用于将语音转化成文字进行传输;
所述语音模块内包括有文本规划模块、文字断句填充、语意语法对比、文字语音转化和语句语调调节,所述文本规划模块用于对回答的语句文本进行规划长短,所述文字断句填充用于提取回答话语中的主谓宾进行填充,然后在进行修饰词的填充,所述语意语法对比用于对问答话语中的语意进行对比并且做出相应的回答,所述文字语音转化用于将文字转化成语音,并且通过蜂鸣器进行输出,所述语句语调调节用于对回答的话语进行语调的修成,使得话语能够具有高低语调,方便对话者快速的理解;
所述传输模块内部包括有数模转化模块、语音除杂模块、数据放大模块和通讯模块,所述数模转化模块用于将文字转化成数据流便于传输,所述语音除杂模块用于将数据流中的杂波进行过滤除去,所述数据放大模块用于将数据流进行放大处理,使得数据流在接收的时候不会发生丢失或者失真,所述通讯模块用于将数据流进行传输,使得合成语音能够实现互联网进行传输。
2.根据权利要求1所述的一种基于互联网的语音实时合成系统,其特征在于:所述调压模块内包括有整流模块、降压模块、稳压模块和滤波模块,所述整流模块采用的是同步整流器将交流电压转化成直流电压,所述降压模块用于将电压降至3-5V之间用于控制模块使用,所述稳压模块和滤波模块用于将电压稳定的输出。
3.根据权利要求1所述的一种基于互联网的语音实时合成系统,其特征在于:所述储存模块至少包括有四组,一组用于对控制模块的运行系统进行存储,一组用于对分析模块中的声纹、特征、语义和训练模块进行存储、一组用于对语音模块中的文字、语法和语调模型进行存储,另一组用于通讯记录和更新记录进行存储。
4.根据权利要求1所述的一种基于互联网的语音实时合成系统,其特征在于:所述蜂鸣器内包括有驱动器,所述驱动器用于对蜂鸣器进行驱动。
5.根据权利要求1所述的一种基于互联网的语音实时合成系统,其特征在于:所述显示模块采用的是触摸液晶显示屏,所述液晶显示模块用于对合成系统进行数据显示。
6.根据权利要求1所述的一种基于互联网的语音实时合成系统,其特征在于:所述通讯模块采用的是无线传输、4G传输或者5G传输中的一种。
7.根据权利要求1所述的一种基于互联网的语音实时合成系统,其特征在于:所述文字语音转化和语句转化文字采用的是基于PSOLA方法的时域波形拼接技术的KDTALK系统。
8.根据权利要求1所述的一种基于互联网的语音实时合成系统,其特征在于:所述语音模块采用的是TTS结构,所述TTS结构包括有语言处理、韵律处理和声学处理,所述语言处理包括有文本规整、词的切分、语法分析和语义分析,所述韵律处理为合成语音规划出音段特征,所述声学处理根据语言处理和韵律处理两部分处理结果的要求输出语音。
CN202010547215.0A 2020-06-16 2020-06-16 一种基于互联网的语音实时合成系统 Pending CN111754977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010547215.0A CN111754977A (zh) 2020-06-16 2020-06-16 一种基于互联网的语音实时合成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010547215.0A CN111754977A (zh) 2020-06-16 2020-06-16 一种基于互联网的语音实时合成系统

Publications (1)

Publication Number Publication Date
CN111754977A true CN111754977A (zh) 2020-10-09

Family

ID=72676207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010547215.0A Pending CN111754977A (zh) 2020-06-16 2020-06-16 一种基于互联网的语音实时合成系统

Country Status (1)

Country Link
CN (1) CN111754977A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149180A (ja) * 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
US20040225503A1 (en) * 2003-05-07 2004-11-11 Hollander Milton Bernard Speech generating means for use with signal sensors
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天系统及其实现方法
CN101345819A (zh) * 2008-08-19 2009-01-14 中山大学 一种用于机顶盒的语音控制系统
US20100057435A1 (en) * 2008-08-29 2010-03-04 Kent Justin R System and method for speech-to-speech translation
WO2018121757A1 (zh) * 2016-12-31 2018-07-05 深圳市优必选科技有限公司 文本语音播报方法及系统
CN109377798A (zh) * 2018-11-22 2019-02-22 江苏海事职业技术学院 一种英文教学用辅助装置
CN109688276A (zh) * 2018-12-29 2019-04-26 苏州意能通信息技术有限公司 一种基于人工智能技术的来电过滤系统及其方法
CN110782895A (zh) * 2019-11-04 2020-02-11 温州大卖客网络科技有限公司 一种基于人工智能的人机语音系统
CN111128126A (zh) * 2019-12-30 2020-05-08 上海浩琨信息科技有限公司 多语种智能语音对话的方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149180A (ja) * 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
US20040225503A1 (en) * 2003-05-07 2004-11-11 Hollander Milton Bernard Speech generating means for use with signal sensors
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天系统及其实现方法
CN101345819A (zh) * 2008-08-19 2009-01-14 中山大学 一种用于机顶盒的语音控制系统
US20100057435A1 (en) * 2008-08-29 2010-03-04 Kent Justin R System and method for speech-to-speech translation
WO2018121757A1 (zh) * 2016-12-31 2018-07-05 深圳市优必选科技有限公司 文本语音播报方法及系统
CN109377798A (zh) * 2018-11-22 2019-02-22 江苏海事职业技术学院 一种英文教学用辅助装置
CN109688276A (zh) * 2018-12-29 2019-04-26 苏州意能通信息技术有限公司 一种基于人工智能技术的来电过滤系统及其方法
CN110782895A (zh) * 2019-11-04 2020-02-11 温州大卖客网络科技有限公司 一种基于人工智能的人机语音系统
CN111128126A (zh) * 2019-12-30 2020-05-08 上海浩琨信息科技有限公司 多语种智能语音对话的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐贵宝: "语音控制互联网交互及其关键技术研究", 《电信网技术》, no. 01, 15 January 2013 (2013-01-15) *
清华大学,吴密,陈远春: "《最新通信网络技术与规范实务全书 第1册》", 《西安电子科技大学出版社》, pages: 375 - 142 *

Similar Documents

Publication Publication Date Title
US5546500A (en) Arrangement for increasing the comprehension of speech when translating speech from a first language to a second language
JP4536323B2 (ja) 音声−音声生成システムおよび方法
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
US8566098B2 (en) System and method for improving synthesized speech interactions of a spoken dialog system
US9922641B1 (en) Cross-lingual speaker adaptation for multi-lingual speech synthesis
KR20230003056A (ko) 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
JPH08328813A (ja) 改良した声送信方法と装置
CN111986646B (zh) 一种基于小语料库的方言合成方法及系统
EP4154247A1 (en) Self-training wavenet for text-to-speech
EP4295354A1 (en) Phonemes and graphemes for neural text-to-speech
CN111754977A (zh) 一种基于互联网的语音实时合成系统
Reddy et al. Speech-to-Text and Text-to-Speech Recognition Using Deep Learning
CN113724684A (zh) 一种空中交通管制指令的语音合成方法及系统
JPH07200554A (ja) 文章読み上げ装置
JP3685648B2 (ja) 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
JP2536896B2 (ja) 音声合成装置
CN112750423B (zh) 个性化语音合成模型构建方法、装置、系统及电子设备
KR960025319A (ko) 음성인식시스템에 있어서 자동 학습 훈련장치
Anand et al. Email access by visually impaired
CN101419660A (zh) 一种条形码信息的光声转换方法及阅读器
JPS5854400A (ja) 音声出力編集方式
CN114283784A (zh) 一种基于视觉驱动的文本转语音的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination