CN112349271A - 语音信息处理方法、装置、电子设备及存储介质 - Google Patents

语音信息处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112349271A
CN112349271A CN202011229994.6A CN202011229994A CN112349271A CN 112349271 A CN112349271 A CN 112349271A CN 202011229994 A CN202011229994 A CN 202011229994A CN 112349271 A CN112349271 A CN 112349271A
Authority
CN
China
Prior art keywords
original
information content
voice
voice information
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011229994.6A
Other languages
English (en)
Inventor
邱学侃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lexuebang Network Technology Co ltd
Original Assignee
Beijing Lexuebang Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lexuebang Network Technology Co ltd filed Critical Beijing Lexuebang Network Technology Co ltd
Priority to CN202011229994.6A priority Critical patent/CN112349271A/zh
Publication of CN112349271A publication Critical patent/CN112349271A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开提供了一种语音信息处理方法、装置、电子设备及存储介质,该语音信息处理方法包括:接收原始语音数据;提取原始语音数据中的原始语音信息内容;根据原始语音信息内容,确定与原始语音信息内容相关的预设语音信息内容以及预设语音风格;将原始语音信息内容、预设语音信息内容和预设语音风格进行融合并输出。本公开实施例,可以提高原始语音数据的收听的接受度,可以避免因原始语音数据中表述不清或者语音风格较差而影响收听效果的情况发生。

Description

语音信息处理方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机软件技术领域,具体而言,涉及一种语音信息处理方法、装置、电子设备以及存储介质。
背景技术
随着网络以及科学技术的发展,人们的沟通方式越来越多样化,也越来越便捷。例如,人们可以基于移动设备通过打电话的方式来进行沟通,也可以基于即时通讯软件(比如微信)通过语音通话的方式来进行沟通。
然而,由于不同的人的说话风格不同,比如不同人的音色、语调或者韵律均不同,会导致收听者对所接收到的语音内容的理解程度不同,若发音者掌握不好发音的语音风格,将导致收听者不能很好的对所接收到的语音内容进行理解。尤其在教师需要与学生进行远程沟通的场景下,若因教师的语音风格而影响学生对教师所发出的语音内容的理解,将会影响学生对知识内容的理解,不利于后续的学习。
发明内容
本公开实施例至少提供一种语音信息处理方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例提供了一种语音信息处理方法,包括:
接收原始语音数据;
提取所述原始语音数据中的原始语音信息内容;
根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格;
将所述原始语音信息内容、所述预设语音信息内容和预设语音风格进行融合并输出。
本公开实施例中,通过对原始语音数据中的原始语音信息内容进行提取,然后根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格,再将原始语音信息内容、预设语音信息内容和预设语音风格进行融合后输出,可以将原始语音数据中的原始语音信息内容和语音风格进行相应的转化,进而提高原始语音数据的收听的接受度,如此可以避免因原始语音数据中表述不清或的语音风格较差而影响收听效果的情况发生。
根据第一方面,在一种可能的实施方式中,所述预设语音风格包括多个预设语音风格;
所述根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格,包括:
根据所述原始语音信息内容,从数据库中确定与所述原始语音信息内容相关的预设语音信息内容,并根据所述预设语音信息内容所对应的音频特征,从所述多个预设语音风格中确定目标语音风格;
所述将所述原始语音信息内容、所述预设语音信息内容和所述预设语音风格进行融合并输,包括:
根据所述预设语音信息内容完善所述原始语音信息内容,并采用所述目标语音风格输出完善后的所述原始语音信息内容。
本公开实施例中,由于根据原始语音数据的音频特征,从多个预设语音风格中确定目标语音风格,再将原始语音信息内容、预设语音信息内容和目标语音风格进行融合并输出,可以在转化语音风格的同时,使得融合后的语音风格和原始语音数据中的风格更加贴近,进一步提高收听者的接受度。
根据第一方面,在一种可能的实施方式中,所述语音风格包括音色、语调、韵律及重读中的至少一种。
根据第一方面,在一种可能的实施方式中,所述提取所述原始语音数据中的原始语音信息内容,包括:
将所述原始数据输入到编码神经网络中,以获取表征所述原始语音信息内容的原始语音信号表示向量;
所述根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格,包括:
根据所述原始语音信号表示向量,确定与所述原始语音信号表示向量相关的目标语音信号表示向量以及预设风格向量;
所述将所述原始语音信息内容、所述预设语音信息内容和预设语音风格进行融合并输出,包括:
将所述原始语音信号表示向量、所述目标语音信号表示向量和所述预设语音风格向量进行融合并输出。
根据第一方面,在一种可能的实施方式中,所述将所述原始数据输入到编码神经网络中,以获取表征所述原始语音信息内容的原始语音信号表示向量,包括:
将所述原始语音数据转换成梅尔谱向量;
将所述梅尔谱向量输入到所述编码神经网络中,以提取所述原始语音信号表示向量。
根据第一方面,在一种可能的实施方式中,所述提取所述原始语音数据中的原始语音信息内容,还包括:
将所述原始语音数据输入到所述编码神经网络中,并对所述原始语音数据中所存在的噪音数据进行抑制,以得到输出的原始语音信息内容。
本公开实施例中,在提取原始语音信息内容的同时还对语音数据中存在的噪音数据进行抑制,进而可以提高所提取的原始语音信息内容的质量。
根据第一方面,在一种可能的实施方式中,所述将所述原始语音信号表示向量、所述目标语音信号表示向量和所述预设语音风格向量进行融合并输出,包括:
将所述原始语音信号表示向量、所述语音信号表示向量和所述预设语音风格向量进行融合,以获得目标语音数据向量;
将所述目标语音数据向量输入到解码神经网络中进行解码,以获得目标梅尔谱向量;
将所述目标梅尔谱向量转换成目标语音数据进行输出。
根据第一方面,在一种可能的实施方式中,所述接收原始语音数据,包括:接收教师端发出的用于作业点评的语音数据。
第二方面,本公开实施例还提供一种语音信息处理装置,包括:
接收模块,用于接收原始语音数据;
提取模块,用于提取所述原始语音数据中的原始语音信息内容;
确定模块,用于根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格;
输出模块,用于所述原始语音信息内容、所述预设语音信息内容和预设语音风格进行融合并输出。
根据第二方面,在一种可能的实施方式中,所述预设语音风格包括多个预设语音风格;
所述确定模块具体用于:
根据所述原始语音信息内容,从数据库中确定与所述原始语音信息内容相关的预设语音信息内容,并根据所述预设语音信息内容所对应的音频特征,从所述多个预设语音风格中确定目标语音风格;
所述输出模块具体用于:
根据所述预设语音信息内容完善所述原始语音信息内容,并采用所述目标语音风格输出完善后的所述原始语音信息内容。
根据第二方面,在一种可能的实施方式中,所述语音风格包括音色、语调、韵律及重读中的至少一种。
根据第二方面,在一种可能的实施方式中,所述提取模块具体用于:
将所述原始数据输入到编码神经网络中,以获取表征所述原始语音信息内容的原始语音信号表示向量;
所述确定模块具体用于:
根据所述原始语音信号表示向量,确定与所述原始语音信号表示向量相关的目标语音信号表示向量以及预设风格向量;
所述输出模块具体用于:
将所述原始语音信号表示向量、所述目标语音信号表示向量和所述预设语音风格向量进行融合并输出。
根据第二方面,在一种可能的实施方式中,所述提取模块具体用于:
将所述原始语音数据转换成梅尔谱向量;
将所述梅尔谱向量输入到所述编码神经网络中,以提取所述原始语音信号表示向量。
根据第二方面,在一种可能的实施方式中,所述提取模块具体还用于:
将所述原始语音数据输入到所述编码神经网络中,并对所述原始语音数据中所存在的噪音数据进行抑制,以得到输出的原始语音信息内容。
根据第二方面,在一种可能的实施方式中,所述输出模块具体用于:
将所述原始语音信号表示向量、所述目标语音信号表示向量和所述预设语音风格向量进行融合,以获得目标语音数据向量;
将所述目标语音数据向量输入到解码神经网络中进行解码,以获得目标梅尔谱向量;
将所述目标梅尔谱向量转换成目标语音数据进行输出。
根据第二方面,在一种可能的实施方式中,所述接收模块具体用于:
接收教师端发出的用于作业点评的语音数据。
第三方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中所述的语音信息处理方法的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中所述的语音信息处理方法的步骤。
关于上述语音信息处理装置、电子设备、及计算机可读存储介质的效果描述参见上述语音信息处理方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种语音信息处理方法的示例性系统架构图;
图2示出了本公开实施例所提供的一种语音信息处理方法的流程图;
图3示出了本公开实施例所提供的另一种语音信息处理方法的流程图;
图4示出了本公开实施例所提供的一种原始语音信息内容提取的具体流程图。
图5示出了本公开实施例所提供的一种将原始语音信息内容和预设语音风格进行融合输出的具体流程图;
图6示出了本公开实施例所提供的一种语音信息处理装置的示意图;
图7示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
随着网络以及科学技术的发展,人们的沟通方式越来越多样化,也越来越便捷。例如,人们可以基于移动设备通过打电话的方式来进行沟通,也可以基于即时通讯软件(比如微信)通过语音通话的方式来进行沟通。
经研究发现,由于不同的人的说话风格不同,比如不同人的音色、语调或者韵律均不同,会导致收听者对所接收到的语音内容的理解程度不同。若发音者掌握不好发音的语音风格,将导致收听者不能很好的对所接收到的语音内容进行理解,尤其在教师需要与学生进行远程沟通的场景下,比如辅导老师在批改作业后会对学生的作业情况进行语音评点,并将语音发送给学生和家长,若教师的语音风格掌握不好,将会影响学生对教师所发出的语音内容的理解,进而影响学生对知识内容的理解,如此将不利于学生后续的学习。因此,如何使得学生收听的到语音风格较好,能有利于学生对所接收到的语音内容的理解,为本公开要解决的技术问题。
基于上述研究,本公开提供了一种语音信息处理方法,适用于互联网在线教育场景,通过对原始语音数据中的原始语音信息内容进行提取,再将所提取的原始语音信息内容和预设的风格进行融合后输出,可以将原始语音数据中的语音风格转化成预设语音风格,进而提高原始语音数据的收听的接受度,如此可以避免因原始语音数据中的语音风格较差而影响收听效果的情况发生。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合具体的系统应用架构对本申请方案进行详细说明。
请参阅图1,图1示出了可以应用于本申请的语音信息处理方法的示例性系统架构。
如图1所示,系统架构1000可以包括服务器100、教师端200以及多个学生端300。其中,教师端200与服务器100之间,以及服务器100和多个学生端300之间通过网络400建立通信连接。也即,网络400用于在教师端200和学生端300之间提供通信链路的介质。网络400可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真 (Wireless-Fidelity,Wi-Fi)通信链路或微波通信链路等。
教师端200以及学生端300可以通过网络400与服务器100交互,以接收来自服务器100的消息或向服务器100发送消息。教师端200和学生端300上可以安装有各种通信客户端应用,例如:绘图应用、视频录制应用、视频播放应用、语音采集应用、语音交互应用、搜索类应用、及时通信工具、邮箱客户端以及社交平台软件等。
教师端200和学生端300可以是硬件,也可以是软件。当教师端200 和学生端300为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等。用户可以利用教师端200和学生端300上的显示屏来查看显示的文字、图片、视频等信息。当教师端200和学生端300为软件时,可以是安装在上述所列举的电子设备中,其可以实现呈多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。
服务器100可以是提供各种服务的业务服务器。需要说明的是,服务器100可以是硬件,也可以是软件。当服务器100为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器100为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
应理解,图1中的教师端200、学生端300、服务器100和网络400的数目仅是示意性的。根据实现需要,可以是任意数量的教师端、学生端、服务器和网络。
在一种具体的应用场景下,教师可以采用教师端200(比如电脑)对学生的作业进行点评并录音,然后教师端200将相应的点评录音通过服务器 100发送至相应的学生端300。学生可以采用相应的学生端300来获取相应的点评语音,进而通过教师点评的语音来获取并理解相应的知识。
下面结合图2对本申请实施例提供的语音信息处理方法进行详细介绍。本公开实施例所提供的语音信息处理方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为移动设备、用户终端、终端、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该语音信息处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图2所示,为本公开实施例提供的一种语音信息处理方法的流程图,所述方法包括步骤S101~S104:
S101,接收原始语音数据。
示例地,可以是学生端接收教师端发出的原始语音数据并进行处理后输出,也可以是服务器接收教师端发出的原始语音数据并进行处理后输出。
本公开实施例中,原始语音数据是教师端发出的用于作业点评的语音数据。当然,在其他实施例中,原始语音数据还可以是其他设备发出的用于执行其他功能的原始语音数据,比如可以是领导所采用移动设备(如手机)所发出的用于对员工工作内容进行点评的语音数据,在此不做限定。
S102,提取所述原始语音数据中的原始语音信息内容。
可以理解,由于原始语音数据包括了语音内容、语音风格及噪音等多部分,为了更好的使得接收方获取到相应的语音内容,需要将原始语音数据中的原始语音信息内容进行提取。
S103,根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格。
示例地,可以根据所述原始语音信息内容,从数据库中确定与所述原始语音信息内容相关的预设语音信息内容。其中,预设语音信息内容可以是历史原始语音信息内容中被评为优秀评语的原始语音信息内容,进而可以从历史优秀原始语音信息内容中选择出与本次原始语音信息内容相关的预设语音内容。
其中,与本次原始语音信息内容相关的预设语音内容,是指与本次原始语音信息内容意思表达一致、适用场景一致的原始语音信息内容。比如,当前接收到的原始语音数据中的原始语音信息内容为“写的很好,继续加油”,则可以确定与之相关的预设语音信息内容为“你太棒啦!写的非常好,继续加油哦!”;再比如,当前接收到的原始语音信息内容为“第一题错了,以后注意”,则可以确定与之相关的原始语音信息内容为“整体非常好哦,只有第一题有一点小问题,以后多多注意,争取全对呀”。
示例地,为了实现多样化的输出,以适应不同用户的需求,预设语音风格可以包括多个语音风格,进而可以根据预设语音信息内容所对应的音频特征,从多个预设语音风格中确定目标语音风格;再将原始语音信息内容、预设语音信息内容和所述目标语音风格进行融合并输出。
其中,预设语音风格可以是根据一些特定的声音标准设定的,也可以是通过对学生接受度较高的教师的语音数据中进行训练提取而获得。
示例地,语音风格包括音色、语调、韵律及重读中的至少一种。
其中,音色是指不同声音表现在波形方面总是有与众不同的特性,不同的物体振动都有不同的特点。不同的发声体由于其材料、结构不同,则发出声音的音色也不同。例如钢琴、小提琴和人发出的声音不一样,每一个人发出的声音也不一样。因此,可以把音色理解为声音的特征。
语调是指说话的腔调,就是一句话里声调高低抑扬轻重的配置和变化。
韵律是指平仄格式和押韵规范;重读是指重读音节,属语音学范畴,是指承担重音的发音突出的音节。
重音有通过增加音强来表示的力重音和通过音高的变化来表示的乐调重音。依据重音位置,语言的重音性质可以分为“固定重音”和“自由重音”。
在一些可能的实施方式中,语音风格可为预先设定的多种音效风格的集合,例如小黄人音效、主持人音效、幼师音效、主持人音效,不同的音效会带来不同的听觉效果,比如主持人音效更加注重发音节奏,字正腔圆,幼师音效更加软萌,适合小朋友,小黄人音效非常搞怪,适合趣味学习等,对此不做任何限定。
S104,将原始语音信息内容、预设语音信息内容和预设语音风格进行融合并输出。
示例地,在存在多个预设语音风格的情况下,可以根据预设语音信息内容所对应的音频特征确定目标语音风格,然后根据预设语音信息内容完善所述原始语音信息内容,并采用所述目标语音风格输出完善后的所述原始语音信息内容。例如,原始信息内容为:“你做对了”;预设信息内容为:“完全正确,太棒了”;预设风格是重音;将原始信息内容、预设语音信息内容和预设风格融合后的最终输出结果是:“你做对了,太棒了!”。
可以理解,在根据原始语音信息内容、预设语音内容和预设风格进行融合的过程中,可以不断的学习,并对数据库进行更新,进而使得数据库的内容越来越丰富。
本公开实施例中,通过对原始语音数据中的原始语音信息内容进行提取,然后根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格,再将原始语音信息内容、预设语音信息内容和预设的风格进行融合后输出,可以将原始语音数据中的语音内容和语音风格进行相应的转化,进而提高原始语音数据的收听的接受度,如此可以避免因原始语音数据中表述不清或者语音风格较差而影响收听效果的情况发生。
另外,在教学场景中,通过对教师发出的语音数据进行上述处理,可以使得处理后的评点语音更清晰,语气语调也更容易被学生接收和认可,进而更有利于学生的学习以及对只是的理解和掌握。
参见图3所示,为本公开实施例提供的另一种语音信息处理方法的流程图,所述方法包括以下S201~S204:
S201,接收原始语音数据。
该步骤与图2中的步骤S101相同,在此不再赘述。
S202,将原始数据输入到编码神经网络中,以获取表征所述原始语音信息内容的原始语音信号表示向量。
示例地,该编码神经网络可以集成于一编码器中,其可以对原始语音数据的进行编码,以获得表征所述原始语音信息内容的原始语音信号表示向量。
可以理解,该编码神经网络可以经过预先训练而获得。此外,由于录音设备和录音环境的不同,接收到的原始语音数据中会存在噪声干扰,因此,为了获得纯净的原始语音信息内容,在一些实施方式中,将原始语音数据输入到所述编码神经网络中时,还对原始语音数据中所存在的噪音数据进行抑制,以得到输出的原始语音信息内容。
S203,根据所述原始语音信号表示向量,确定与所述原始语音信号表示向量相关的目标语音信号表示向量以及预设风格向量。
S204,将原始语音信号表示向量、目标语音信号表示向量和预设语音风格向量进行融合并输出。
示例地,为了实现数据的融合,预设语音信息内容和预设语音风格也以向量的形式表示,将原始语音信号表示向量、目标语音信号表示向量和预设语音风格向量进行拼接,即可实现原始语音信号表示向量、目标语音信号表示向量和预设语音风格向量的融合。
下面结合具体实施例,对上述S202进行详细介绍。
针对上述S202,在将原始数据输入到编码神经网络中,以获取表征所述原始语音信息内容的语音信号表示向量时,如图4所示,可以包括以下 S2021~S2022:
S2021,将原始语音数据转换成梅尔谱向量。
示例地,将原始语音数据转换成梅尔谱向量的过程,是将时域的原始语音数据转换成频域的语音数据,并在转换过程中保留低频分量,减弱高频分量,进而实现降维的目的,如此将梅尔谱向量再输入到编码神经网络中进行编码,可以减少计算量,提高编码效率。
S2022,将梅尔谱向量输入到所述编码神经网络中,以提取原始语音信号表示向量。
针对上述S204,在将所述原始语音信号表示向量、目标语音信号表示向量和所述预设语音风格向量进行融合并输出时,如图5所示,可以包括以下S2041~S2043:
S2041,将原始语音信号表示向量、目标语音信号表示向量和预设语音风格向量进行融合,以获得目标语音数据向量。
示例地,目标语音数据向量即为拼接后的向量,也是后续步骤所需要的语音数据向量。
S2042,将目标语音数据向量输入到解码神经网络中进行解码,以获得目标梅尔谱向量。
可以理解,由于目标语音数据向量是经过编码后的向量,因此,需要将编码后的向量经过多层解码神经网络的计算处理,得到新的向量表示,该新的向量表示也即梅尔谱向量。
示例地,该解码神经网络可以集成于解码器中,并可通过预先的训练或获得。
S2043,将目标梅尔谱向量转换成目标语音数据进行输出。
示例地,将目标梅尔谱向量转换成声音波形的目标语音数据,即可将该目标语音数据通过扬声器进行播放,进而实现学生端收听的目的。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与语音信息处理方法对应的语音信息处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述语音信息处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图6所示,为本公开实施例提供的一种语音信息处理装置的结构示意图,该语音信息处理装置包括以下:
接收模块,用于接收原始语音数据;
提取模块,用于提取所述原始语音数据中的原始语音信息内容;
确定模块,用于根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格;
输出模块,用于将所述原始语音信息内容、所述预设语音信息内容和预设语音风格进行融合并输出。
在一种可能的实施方式中,所述预设语音风格包括多个预设语音风格;
所述确定模块503具体用于:
根据所述原始语音信息内容,从数据库中确定与所述原始语音信息内容相关的预设语音信息内容,并根据所述预设语音信息内容所对应的音频特征,从所述多个预设语音风格中确定目标语音风格;
所述输出模块504具体用于:
根据所述预设语音信息内容完善所述原始语音信息内容,并采用所述目标语音风格输出完善后的所述原始语音信息内容。
在一种可能的实施方式中,所述语音风格包括音色、语调、韵律及重读中的至少一种。
在一种可能的实施方式中,所述提取模块502具体用于:
将所述原始数据输入到编码神经网络中,以获取表征所述原始语音信息内容的原始语音信号表示向量;
所述确定模块503具体用于:
根据所述原始语音信号表示向量,确定与所述原始语音信号表示向量相关的目标语音信号表示向量以及预设风格向量;
所述输出模块504具体用于:
将所述原始语音信号表示向量、所述目标语音信号表示向量和所述预设语音风格向量进行融合并输出。
在一种可能的实施方式中,所述提取模块502具体用于:
将所述原始语音数据转换成梅尔谱向量;
将所述梅尔谱向量输入到所述编码神经网络中,以提取所述原始语音信号表示向量。
在一种可能的实施方式中,所述提取模块502具体还用于:
将所述原始语音数据输入到所述编码神经网络中,并对所述原始语音数据中所存在的噪音数据进行抑制,以得到输出的原始语音信息内容。
在一种可能的实施方式中,所述输出模块504具体用于:
将所述原始语音信号表示向量、所述目标语音信号表示向量和所述预设语音风格向量进行融合,以获得目标语音数据向量;
将所述目标语音数据向量输入到解码神经网络中进行解码,以获得目标梅尔谱向量;
将所述目标梅尔谱向量转换成目标语音数据进行输出。
在一种可能的实施方式中,所述接收模块501具体用于:
接收教师端发出的用于作业点评的语音数据。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本公开实施例还提供了一种电子设备。参照图7 所示,为本公开实施例提供的电子设备700的结构示意图,包括处理器701、存储器702、和总线703。其中,存储器702用于存储执行指令,包括内存 7021和外部存储器7022;这里的内存7021也称内存储器,用于暂时存放处理器701中的运算数据,以及与硬盘等外部存储器7022交换的数据,处理器701通过内存7021与外部存储器7022进行数据交换。
本申请实施例中,存储器702具体用于存储执行本申请方案的应用程序代码,并由处理器701来控制执行。也即,当电子设备700运行时,处理器701与存储器702之间通过总线703通信,使得处理器701执行所述存储器702中存储的应用程序代码,进而执行前述任一实施方式中的语音信息处理方法。
其中,存储器702可以是,但不限于,随机存取存储(Random access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器701可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备700的具体限定。在本申请另一些实施例中,电子设备700可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的语音信息处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的语音信息处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种语音信息处理方法,其特征在于,包括:
接收原始语音数据;
提取所述原始语音数据中的原始语音信息内容;
根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格;
将所述原始语音信息内容、所述预设语音信息内容和所述预设语音风格进行融合并输出。
2.根据权利要求1所述的方法,其特征在于,所述预设语音风格包括多个预设语音风格;
所述根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格,包括:
根据所述原始语音信息内容,从数据库中确定与所述原始语音信息内容相关的预设语音信息内容,并根据所述预设语音信息内容所对应的音频特征,从所述多个预设语音风格中确定目标语音风格;
所述将所述原始语音信息内容、所述预设语音信息内容和所述预设语音风格进行融合并输出,包括:
根据所述预设语音信息内容完善所述原始语音信息内容,并采用所述目标语音风格输出完善后的所述原始语音信息内容。
3.根据权利要求1或2所述的方法,其特征在于,所述语音风格包括音色、语调、韵律及重读中的至少一种。
4.根据权利要求1-3任一所述的方法,其特征在于,所述提取所述原始语音数据中的原始语音信息内容,包括:
将所述原始数据输入到编码神经网络中,以获取表征所述原始语音信息内容的原始语音信号表示向量;
所述根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格,包括:
根据所述原始语音信号表示向量,确定与所述原始语音信号表示向量相关的目标语音信号表示向量以及预设风格向量;
所述将所述原始语音信息内容、所述预设语音信息内容和预设语音风格进行融合并输出,包括:
将所述原始语音信号表示向量、所述目标语音信号表示向量和所述预设语音风格向量进行融合并输出。
5.根据权利要求4所述的方法,其特征在于,所述将所述原始数据输入到编码神经网络中,以获取表征所述原始语音信息内容的原始语音信号表示向量,包括:
将所述原始语音数据转换成梅尔谱向量;
将所述梅尔谱向量输入到所述编码神经网络中,以提取所述原始语音信号表示向量。
6.根据权利要求4或5所述的方法,其特征在于,所述提取所述原始语音数据中的原始语音信息内容,还包括:
将所述原始语音数据输入到所述编码神经网络中,并对所述原始语音数据中所存在的噪音数据进行抑制,以得到输出的原始语音信息内容。
7.根据权利要求4-6任一所述的方法,其特征在于,所述将所述原始语音信号表示向量、所述目标语音信号表示向量和所述预设语音风格向量进行融合并输出,包括:
将所述原始语音信号表示向量、所述目标语音信号表示向量和所述预设语音风格向量进行融合,以获得目标语音数据向量;
将所述目标语音数据向量输入到解码神经网络中进行解码,以获得目标梅尔谱向量;
将所述目标梅尔谱向量转换成目标语音数据进行输出。
8.根据权利要求1-7任一所述的方法,其特征在于,所述接收原始语音数据,包括:
接收教师端发出的用于作业点评的语音数据。
9.一种语音信息处理装置,其特征在于,包括:
接收模块,用于接收原始语音数据;
提取模块,用于提取所述原始语音数据中的原始语音信息内容;
确定模块,用于根据所述原始语音信息内容,确定与所述原始语音信息内容相关的预设语音信息内容以及预设语音风格;
输出模块,用于将所述原始语音信息内容、所述预设语音信息内容和预设语音风格进行融合并输出。
10.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一项所述的语音信息处理方法的步骤。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一项所述的语音信息处理方法的步骤。
CN202011229994.6A 2020-11-06 2020-11-06 语音信息处理方法、装置、电子设备及存储介质 Pending CN112349271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011229994.6A CN112349271A (zh) 2020-11-06 2020-11-06 语音信息处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011229994.6A CN112349271A (zh) 2020-11-06 2020-11-06 语音信息处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112349271A true CN112349271A (zh) 2021-02-09

Family

ID=74429732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011229994.6A Pending CN112349271A (zh) 2020-11-06 2020-11-06 语音信息处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112349271A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113140210A (zh) * 2021-04-30 2021-07-20 武汉悦学帮网络技术有限公司 音频批改方法、装置、电子设备和存储介质
CN113140210B (zh) * 2021-04-30 2024-06-07 武汉悦学帮网络技术有限公司 音频批改方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
CN108831436A (zh) * 2018-06-12 2018-11-16 深圳市合言信息科技有限公司 一种模拟说话者情绪优化翻译后文本语音合成的方法
CN108962217A (zh) * 2018-07-28 2018-12-07 华为技术有限公司 语音合成方法及相关设备
CN110264992A (zh) * 2019-06-11 2019-09-20 百度在线网络技术(北京)有限公司 语音合成处理方法、装置、设备和存储介质
CN110288973A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN111145720A (zh) * 2020-02-04 2020-05-12 清华珠三角研究院 一种将文本转换成语音的方法、系统、装置和存储介质
CN111145721A (zh) * 2019-12-12 2020-05-12 科大讯飞股份有限公司 个性化提示语生成方法、装置和设备
CN111489752A (zh) * 2020-03-16 2020-08-04 咪咕互动娱乐有限公司 语音输出方法、装置、电子设备和计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
CN108831436A (zh) * 2018-06-12 2018-11-16 深圳市合言信息科技有限公司 一种模拟说话者情绪优化翻译后文本语音合成的方法
CN108962217A (zh) * 2018-07-28 2018-12-07 华为技术有限公司 语音合成方法及相关设备
CN110288973A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN110264992A (zh) * 2019-06-11 2019-09-20 百度在线网络技术(北京)有限公司 语音合成处理方法、装置、设备和存储介质
CN111145721A (zh) * 2019-12-12 2020-05-12 科大讯飞股份有限公司 个性化提示语生成方法、装置和设备
CN111145720A (zh) * 2020-02-04 2020-05-12 清华珠三角研究院 一种将文本转换成语音的方法、系统、装置和存储介质
CN111489752A (zh) * 2020-03-16 2020-08-04 咪咕互动娱乐有限公司 语音输出方法、装置、电子设备和计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113140210A (zh) * 2021-04-30 2021-07-20 武汉悦学帮网络技术有限公司 音频批改方法、装置、电子设备和存储介质
CN113140210B (zh) * 2021-04-30 2024-06-07 武汉悦学帮网络技术有限公司 音频批改方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US11475897B2 (en) Method and apparatus for response using voice matching user category
RU2682023C1 (ru) Взаимодействие цифрового персонального помощника с подражаниями и полнофункциональными мультимедиа в ответах
WO2022141678A1 (zh) 语音合成方法、装置、设备及存储介质
WO2022188734A1 (zh) 一种语音合成方法、装置以及可读存储介质
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
CN111899720A (zh) 用于生成音频的方法、装置、设备和介质
CN101606190A (zh) 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法及程序
WO2021227707A1 (zh) 音频合成方法、装置、计算机可读介质及电子设备
CN110491218A (zh) 一种在线教学交互方法、装置、存储介质及电子设备
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
CN100585663C (zh) 语言学习系统
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN116129863A (zh) 语音合成模型的训练方法、语音合成方法及相关装置
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN113421550A (zh) 语音合成方法、装置、可读介质及电子设备
CN112035699A (zh) 音乐合成方法、装置、设备和计算机可读介质
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN114613353B (zh) 语音合成方法、装置、电子设备及存储介质
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN112349271A (zh) 语音信息处理方法、装置、电子设备及存储介质
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
CN113079327A (zh) 视频生成方法和装置、存储介质和电子设备
CN111696519A (zh) 藏语声学特征模型的构建方法及系统
US20220383850A1 (en) System and method for posthumous dynamic speech synthesis using neural networks and deep learning
CN116226411B (zh) 一种基于动画的互动项目的交互信息处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination