CN111754977A

CN111754977A - 一种基于互联网的语音实时合成系统

Info

Publication number: CN111754977A
Application number: CN202010547215.0A
Authority: CN
Inventors: 蒲瑶; 何国涛; 李全忠
Original assignee: Pachira Technology Beijing Co ltd
Current assignee: Pachira Technology Beijing Co ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-09

Abstract

本发明公开了一种基于互联网的语音实时合成系统；包括控制模块，所述控制模块上电性连接有调压模块和市电网，所述控制模块上电性连接有分析模块和咪头，所述控制模块上电性连接有语音模块和蜂鸣器，所述控制模块上电性连接有传输模块和云互联网，所述控制模块上电性连接存储模块和显示模块；本发明通过分析模块实现对输入的语音进行分析，将语句中的特征提取出来，将语句的声纹提取出来，辨别声音的语种，设有语音模块对输出的语音进行规划和填充，并且对语调进行调节，设有传输模块对数据流进行过滤处理，且数据流进行放大，防止在传输的时候发生丢失或者失真，并且将语音发送到云互联网上，实现实时传输。

Description

一种基于互联网的语音实时合成系统

技术领域

本发明属于语音合成技术领域，具体涉及一种基于互联网的语音实时合成系统。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术，然而市面上各种的语音合成系统仍存在各种各样的问题。

如授权公告号为CN111128126A所公开的多语种智能语音对话的方法及系统，其虽然实现了语种识别根据获取声音快速识别所属语种，判断是否需要切换通话语种；语音识别支持多种语种的语音识别，不同的语种有不同的处理方式；语义分析使用BERT与词库模型结合的方式，每个模型均基于不同语种及不同的应用场景分别训练；话术生成设置多语种话术组，其中每个语种需单独设置单套话术；文字转语音支持多种语种的文字转语音，包括人工录音模型和语音合成模型，从而实现在通话中根据客户交互中使用语言所属语种实时切换到对方语种与之交互，但是并未解决现有的语音合成系统对于语言进行分析，提取语义和声纹，并且在输出的时候不能够对语义和声调进行转化调节，并且在传输的时候不能够对数据流进行放大和过滤等的问题，为此我们提出一种基于互联网的语音实时合成系统。

发明内容

本发明的目的在于提供一种基于互联网的语音实时合成系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于互联网的语音实时合成系统，包括控制模块，所述控制模块上电性连接有调压模块和市电网，所述控制模块上电性连接有分析模块和咪头，所述控制模块上电性连接有语音模块和蜂鸣器，所述控制模块上电性连接有传输模块和云互联网，所述控制模块上电性连接存储模块和显示模块；

所述分析模块内包括有语句特征提取、语句语义检测、语句断句、声纹检测模块、和语句转化文字，所述语句特征提取用于将输入的语音中的特征进行提取，所述语句语义检测通过对语句特征提取的语句中的语义进行翻译，所述声纹检测模块用于对声音的语种进行检测，且使得输出的语音以相同的语种输出，所述语句转化文字用于将语音转化成文字进行传输；

所述语音模块内包括有文本规划模块、文字断句填充、语意语法对比、文字语音转化和语句语调调节，所述文本规划模块用于对回答的语句文本进行规划长短，所述文字断句填充用于提取回答话语中的主谓宾进行填充，然后在进行修饰词的填充，所述语意语法对比用于对问答话语中的语意进行对比并且做出相应的回答，所述文字语音转化用于将文字转化成语音，并且通过蜂鸣器进行输出，所述语句语调调节用于对回答的话语进行语调的修成，使得话语能够具有高低语调，方便对话者快速的理解；

所述传输模块内部包括有数模转化模块、语音除杂模块、数据放大模块和通讯模块，所述数模转化模块用于将文字转化成数据流便于传输，所述语音除杂模块用于将数据流中的杂波进行过滤除去，所述数据放大模块用于将数据流进行放大处理，使得数据流在接收的时候不会发生丢失或者失真，所述通讯模块用于将数据流进行传输，使得合成语音能够实现互联网进行传输。

优选的，所述调压模块内包括有整流模块、降压模块、稳压模块和滤波模块，所述整流模块采用的是同步整流器将交流电压转化成直流电压，所述降压模块用于将电压降至3-5V之间用于控制模块使用，所述稳压模块和滤波模块用于将电压稳定的输出。

优选的，所述储存模块至少包括有四组，一组用于对控制模块的运行系统进行存储，一组用于对分析模块中的声纹、特征、语义和训练模块进行存储、一组用于对语音模块中的文字、语法和语调模型进行存储，另一组用于通讯记录和更新记录进行存储。

优选的，所述蜂鸣器内包括有驱动器，所述驱动器用于对蜂鸣器进行驱动。

优选的，所述显示模块采用的是触摸液晶显示屏，所述液晶显示模块用于对合成系统进行数据显示。

优选的，所述通讯模块采用的是无线传输、4G传输或者5G传输中的一种。

优选的，所述文字语音转化和语句转化文字采用的是基于PSOLA方法的时域波形拼接技术的KDTALK系统。

优选的，所述语音模块采用的是TTS结构，所述TTS结构包括有语言处理、韵律处理和声学处理，所述语言处理包括有文本规整、词的切分、语法分析和语义分析，所述韵律处理为合成语音规划出音段特征，所述声学处理根据语言处理和韵律处理两部分处理结果的要求输出语音。

与现有技术相比，本发明的有益效果是：

(1)本发明通过分析模块实现对输入的语音进行分析，对语句进行分析，将语句中的语义特征进行提取出来，并且将语句的声纹提取出来，辨别声音的语种，以及设有语音模块对即将输出的语音进行规划和填充，并且对语调进行调节，使得语调能够显示处语义。

(2)本发明在传输模块中设有转化模块，将语音或者文字转化成数据流，并且对数据流进行过滤处理，以及对数据流进行放大，防止在传输的时候发生丢失或者失真，并且将语音发送到云互联网上，实现实时传输。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的分析模块示意图；

图3为本发明的语音模块示意图；

图4为本发明的传输模块示意图；

图5为本发明的调压模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图5，本发明提供一种技术方案：一种基于互联网的语音实时合成系统，包括控制模块，所述控制模块上电性连接有调压模块和市电网，所述控制模块上电性连接有分析模块和咪头，所述控制模块上电性连接有语音模块和蜂鸣器，所述控制模块上电性连接有传输模块和云互联网，所述控制模块上电性连接存储模块和显示模块；

为了使得市电网能够稳定的对控制模块进行输出电压，实现对系统的运行，本实施例中，优选的，所述调压模块内包括有整流模块、降压模块、稳压模块和滤波模块，所述整流模块采用的是同步整流器将交流电压转化成直流电压，所述降压模块用于将电压降至3-5V之间用于控制模块使用，所述稳压模块和滤波模块用于将电压稳定的输出。

为了使得系统的运行能够保持稳定不会发生混乱，并且实现对系统的声纹、训练模块、文字、语法和语调等进行存储，本实施例中，优选的，所述储存模块至少包括有四组，一组用于对控制模块的运行系统进行存储，一组用于对分析模块中的声纹、特征、语义和训练模块进行存储、一组用于对语音模块中的文字、语法和语调模型进行存储，另一组用于通讯记录和更新记录进行存储。

为了实现对蜂鸣器进行运行，防止蜂鸣器在运行的时候不稳定，本实施例中，优选的，所述蜂鸣器内包括有驱动器，所述驱动器用于对蜂鸣器进行驱动。

为了实现对系统进行的运行情况进行显示，本实施例中，优选的，所述显示模块采用的是触摸液晶显示屏，所述液晶显示模块用于对合成系统进行数据显示。

为了实现对数据流进行传输，使得语音合成系统能够实现有云互联网进行数据传输，本实施例中，优选的，所述通讯模块采用的是无线传输、4G传输或者5G传输中的一种。

为了使得系统能够实现语音和文字之间的快速稳定的转化，本实施例中，优选的，所述文字语音转化和语句转化文字采用的是基于PSOLA方法的时域波形拼接技术的KDTALK系统。

为了实现对合成语音中的语法、语义和语调进行控制调节，本实施例中，优选的，所述语音模块采用的是TTS结构，所述TTS结构包括有语言处理、韵律处理和声学处理，所述语言处理包括有文本规整、词的切分、语法分析和语义分析，所述韵律处理为合成语音规划出音段特征，所述声学处理根据语言处理和韵律处理两部分处理结果的要求输出语音。

本发明的工作原理及使用流程：在使用的时候，对话的时候咪头会接收到语音，然后分析模块中的语句特征提取将会提取语句中的主谓宾，并且通过语句语义检测实现对语句的意思进行转化，并且通过声纹检测模块检测到语音的语种类型，然后将语句转化成文字实现传输，然后通过TTS结构实现对输出对话进行合成，先对文本进行规划，然后选择回答语句的主谓宾，然后填充到规划文本中，然后再将修饰词填充到规划文本中，并且在根据对话的语义和语法进行确定回答话语的语义和语法，然后将文字转化成语音，最后在通过语句语调调节对声音进行控制调节，然后通过驱动器带动蜂鸣器进行语音的播放，然后再将语音对话通过传输模块与云互联网进行数据传输，并且在进行数据传输的时候，会对数据流进行除杂操作，使得数据流中杂波能够较少以对数据流进行放大处理，使得数据在传输的时候不会造成丢失或者失真。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于互联网的语音实时合成系统，包括控制模块，其特征在于：所述控制模块上电性连接有调压模块和市电网，所述控制模块上电性连接有分析模块和咪头，所述控制模块上电性连接有语音模块和蜂鸣器，所述控制模块上电性连接有传输模块和云互联网，所述控制模块上电性连接存储模块和显示模块；

2.根据权利要求1所述的一种基于互联网的语音实时合成系统，其特征在于：所述调压模块内包括有整流模块、降压模块、稳压模块和滤波模块，所述整流模块采用的是同步整流器将交流电压转化成直流电压，所述降压模块用于将电压降至3-5V之间用于控制模块使用，所述稳压模块和滤波模块用于将电压稳定的输出。

3.根据权利要求1所述的一种基于互联网的语音实时合成系统，其特征在于：所述储存模块至少包括有四组，一组用于对控制模块的运行系统进行存储，一组用于对分析模块中的声纹、特征、语义和训练模块进行存储、一组用于对语音模块中的文字、语法和语调模型进行存储，另一组用于通讯记录和更新记录进行存储。

4.根据权利要求1所述的一种基于互联网的语音实时合成系统，其特征在于：所述蜂鸣器内包括有驱动器，所述驱动器用于对蜂鸣器进行驱动。

5.根据权利要求1所述的一种基于互联网的语音实时合成系统，其特征在于：所述显示模块采用的是触摸液晶显示屏，所述液晶显示模块用于对合成系统进行数据显示。

6.根据权利要求1所述的一种基于互联网的语音实时合成系统，其特征在于：所述通讯模块采用的是无线传输、4G传输或者5G传输中的一种。

7.根据权利要求1所述的一种基于互联网的语音实时合成系统，其特征在于：所述文字语音转化和语句转化文字采用的是基于PSOLA方法的时域波形拼接技术的KDTALK系统。

8.根据权利要求1所述的一种基于互联网的语音实时合成系统，其特征在于：所述语音模块采用的是TTS结构，所述TTS结构包括有语言处理、韵律处理和声学处理，所述语言处理包括有文本规整、词的切分、语法分析和语义分析，所述韵律处理为合成语音规划出音段特征，所述声学处理根据语言处理和韵律处理两部分处理结果的要求输出语音。