CN111213205B

CN111213205B - 一种流式语音转换方法、装置、计算机设备及存储介质

Info

Publication number: CN111213205B
Application number: CN201980003317.1A
Authority: CN
Inventors: 谢杰斌; 王若童; 黄东延; 汤志超; 刘洋; 熊友军
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Beijing Youbixuan Intelligent Robot Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-09-08
Anticipated expiration: 2039-12-30
Also published as: CN111213205A; WO2021134232A1; US20210201925A1; US11367456B2

Abstract

本发明实施例公开了一种流式语音转换方法、装置、计算机设备及存储介质。所述方法包括：获取待转换语音数据；按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记；根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。本发明的流式语音转换方法缩短了响应时间，提高转换速度，在听觉上保证了输出语音的高保真效果。

Description

一种流式语音转换方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种流式语音转换方法、装置、计算机设备及存储介质。

背景技术

语音转换(VoiceConversion)在民用层面已经广泛使用，该技术主要用来将一个生物发出的声音转换成另一个生物发出的声音，目前已用在变声器、电影、新闻声优合成等场景。在完成转换流程的过程中，保证转换声音质量不变的前提下，转换速度也同样对与体验者有着决定性的影响。

目前业界对语音转换速度有一个定性要求：从语音输入到输出的时间内，需要实时处理，即每秒能处理一秒语音的转换性能，在语音行业领域内，语音转换系统仍需要等待体验者把内容说完，才能走一次语音转换处理流程，现有计算还没有出现针对长时间语音输入的情况下，语音转换系统难以达到实时转换并且保真的效果。因此，开发一种提高转换速度、高保真的语音转换方法显得尤为重要。

发明内容

基于此，有必要针对上述问题，提出了一种流式语音转换方法、装置、计算机设备及存储介质，用于解决现有技术中语音转换难以达到实时转换并且保真的效果的技术问题。

第一方面，本发明提出了一种流式语音转换方法，所述方法包括：

获取待转换语音数据；

按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；

将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；

将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记；

根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。

第二方面，本发明还提出了一种流式语音转换装置，所述装置包括：

流式获取语音模块，用于获取待转换语音数据；

分片提取模块，用于按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；

语音转换模块，用于将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；

分片还原模块，用于将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记；

流式输出语音模块，用于根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。

第三方面，本发明还提出了一种存储介质，存储有计算机指令程序，所述计算机指令程序被处理器执行时，使得所述处理器执行第一方面任一项所述方法的步骤。

第四方面，本发明还提出了一种计算机设备，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行第一方面任一项所述方法的步骤。

综上所述，本发明的流式语音转换方法通过将按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，将所述待转换分片语音进行语音转换得到已转换分片语音之后，再将所述已转换分片语音进行分片还原得到已还原分片语音，最后根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。不管输入语音的时长，分片提取、分片转换、分片还原的处理机制有利于能充分利用处理器多核的并行能力同时处理多片数据，能解决容量比较大的语音数据处理时占用缓存过大的问题，缩短了响应时间，提高转换速度；通过流式获取待转换语音数据，且根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出，不管输入语音的时长，在听觉上保证了输出语音的高保真效果。因此，本发明的流式语音转换方法缩短了响应时间，提高转换速度，在听觉上保证了输出语音的高保真效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中流式语音转换方法的流程图；

图2为图1的流式语音转换方法的获取待转换语音数据的流程图；

图3为图1的流式语音转换方法的分片提取的流程图；

图4为图3的流式语音转换方法的分片处理的流程图；

图5为图1的流式语音转换方法的分片还原的流程图；

图6为前一片的已转换尾部公共语音的权重曲线图；

图7为后一片的已转换头部公共语音的权重曲线图；

图8为图1的流式语音转换方法的拼接处理的流程图；

图9为一个实施例中流式语音转换装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在一个实施例中，本发明提出了一种流式语音转换方法，所述方法包括：

S102、获取待转换语音数据；

其中，所述待转换语音数据可以是多个短语音数据拼接而成，也可以是直接获取的一段长录音数据。

短语音数据可以是录音设备实时录制的语音数据按预设时间间隔把预设时长的语音数据流式输入，也可以是按预设时间间隔流式从存储在数据库中的长录音数据中依次获取预设时长的录音数据作为短语音数据。

所述待转换语音数据可以是多个短语音数据拼接而成包括：按预设时间间隔流式获取预设时长的短语音数据；将获取到的多个所述短语音数据进行拼接得到所述待转换语音数据。

所述短语音数据、所述长录音数据、所述待转换语音数据的格式包括WAV、MP3，在此举例不作具体限定。

所述流式输入是指数据流式化输入，不写入/读取整个节点或文件的数据，只将一小部分数据存入内存，并先行处理该部分数据，令执行单元在处理数据的前后期间随时传送。

S104、按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；

其中，获取预设独有分片时长、预设公共时长，根据所述预设独有分片时长和所述预设公共时长对所述待转换语音数据进行分片处理，得到多个所述待转换分片语音，每个所述待转换分片语音中包括独有分片语音和公共语音。可以理解的是，在另一个实施例中，根据所述预设独有分片时长对所述待转换语音数据进行依次分片提取，得到多个所述待转换分片语音，所述待转换分片语音只包括独有分片语音。

其中，将所述独有分片语音的开始时间作为所述待转换分片语音的分片标记，也可以把所述待转换分片语音按获取顺序进行编号并且将编号作为所述待转换分片语音的分片标记。

所述独有分片语音的开始时间是指所述独有分片语音的开始时间对应的语音数据的时间戳作为所述待转换分片语音的分片标记。

所述分片是指对大型数据进行切分，并把多个分片分布在各个计算单元当中，以提高整个计算系统处理吞吐量。

所述预设独有分片时长是预设的每个所述待转换分片语音单独具有的语音数据的时长，流式语音转换方法的用户可以根据实际需求设置所述预设独有分片时长的具体数值。比如，所述预设独有分片时长的具体数值包括是0ms、100ms、200ms、300ms、400ms、500ms、600ms、800ms、1000ms，在此举例不做具体限定。

所述预设公共时长是预设的相邻两个所述待转换分片语音重叠的语音的时长，流式语音转换方法的用户可以根据实际需求设置所述预设公共时长的具体数值，比如，所述预设独有分片时长的具体数值包括是0ms、50ms、100ms、150ms、200ms、250ms、300ms、350ms、400ms、450ms、500ms、600ms、700ms，在此举例不做具体限定。

在设有公共语音时，两个所述待转换分片语音的前一片的末端具有预设公共时长的尾部公共语音，相邻的两个所述待转换分片语音的后一片的头端具有预设公共时长的头部公共语音，相邻的两个所述待转换分片语音的前一片的尾部公共语音与相邻的两个所述待转换分片语音的后一片的头部公共语音的时长和内容相同。

所述语音数据的时间戳包括：当获取实时录制的语音数据时，则将录制的具体时间点作为所述语音数据的时间戳，或将录制的语音数据的时长为时间戳；当从存储在数据库中的长录音数据获取时，则将所述短语音数据在所述长录音数据中具体时长作为所述语音数据的时间戳。

在一个实施例中，所述预设公共时长包括一个数值；在另一个实施例中，所述预设公共时长包括至少两个不同数值，只需确保相邻的两个所述待转换分片语音的前一片的尾部公共语音与相邻的两个所述待转换分片语音的后一片的头部公共语音的时长和内容相同。

S106、将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；

具体而言，将所述待转换分片语音输入语音转换模型进行语音转换得到已转换分片语音，将语音转换前的所述待转换分片语音携带的分片标记作为语音转换后对应的所述已转换分片语音的分片标记。

所述语音转换模型，可以从现有技术中选择可以将一个生物发出的声音转换成另一个生物发出的声音的语音转换模型，也可以从现有技术中选择可以将语音转换成文本的语音转换模型，在此举例不作具体限定。

所述语音转换是指源声音的声学特征参数一一对应到目标的声学特征参数的映射函数，并且语音转换之后表达的内容不发生改变。

S108、将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记；

当所述待转换分片语音中包括独有分片语音和公共语音时，则根据所述已转换分片语音携带的分片标记将多个所述已转换分片语音进行拼接得到已转换分片语音流，从所述已转换分片语音流中获取相邻的两个所述已转换分片语音；将相邻的两个所述已转换分片语音的前一片的所述已转换尾部公共语音、相邻的两个所述已转换分片语音的后一片的所述已转换头部公共语音进行加权求和，得到叠加公共语音；根据所述叠加公共语音、所述已转换独有分片语音进行拼接处理，得到多个所述已还原分片语音，将分片还原前的所述已转换分片语音携带的分片标记作为分片还原后对应的所述已还原分片语音的分片标记。通过加权求和得到叠加公共语音，再根据所述叠加公共语音、所述已转换独有分片语音拼接处理得到所述已还原分片语音，使得相邻两个所述已还原分片语音之间的衔接平滑过渡，在播放时避免发生不自然的声音，从而使转换后的语音相对转换前的语音具有高保真的效果。

当所述待转换分片语音只包括独有分片语音时，则将所述已转换分片语音直接作为所述已还原分片语音。

S110、根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。

其中，根据所述已还原分片语音携带的分片标记的先后顺序依次将所述已还原分片语音进行播放。在另一个实施例中，根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行存储。

本实施例的流式语音转换方法通过将按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，将所述待转换分片语音进行语音转换得到已转换分片语音之后，再将所述已转换分片语音进行分片还原得到已还原分片语音，最后根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。不管输入语音的时长，分片提取、分片转换、分片还原的处理机制有利于能充分利用处理器多核的并行能力同时处理多片数据，能解决容量比较大的语音数据处理时占用缓存过大的问题，缩短了响应时间，提高转换速度；通过流式获取待转换语音数据，且根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出，不管输入语音的时长，在听觉上保证了输出语音的高保真效果。

在一个实施例中，通过流式获取得到待转换语音数据，并且进行缓存；在分片提取时，把已经完成提取的待转换语音数据从缓存中删除；在进行语音转换、分片还原后，对所述已还原分片语音进行流式输出，把已经完成输出的所述已还原分片语音从缓存中删除。流式机制充分利用芯片输入/输出语音空闲时的I/O资源，而且使得本申请的流式语音转换方法每个环节同时运作，能解决容量比较大的音频数据处理时，在单个环节中占用缓存过大的问题，缩短本申请的流式语音转换方法的响应时间，提高转换速度，最终提高了实时录制语音实时转换处理并输出的性能。

如图2所示，在一个实施例中，所述获取待转换语音数据，包括：

S202、按预设时间间隔流式获取预设时长的短语音数据；

具体而言，按预设时间间隔获取预设时长的短语音数据直至接收完所有语音数据。比如，所述预设时间间隔设为50ms，每间隔50ms获取一次短语音数据直至接收完所有语音数据，在此举例不作具体限定。按预设时间间隔获取使触发时间固定并且多次触发，触发时间固定可以减少获取语音数据占用的处理设备和/或处理系统的资源，多次触发可以避免遗漏语音数据。

其中，获取顺序是根据语音数据的时间戳的先后顺序进行获取，时间戳靠前的先获取，时间戳靠后的后获取，从而有利于对实时语音的实时转换。

S204、将获取到的多个所述短语音数据进行拼接得到所述待转换语音数据。

具体而言，将获取到的多个所述短语音数据按获取时间的顺序进行拼接得到所述待转换语音数据。

在另一个实施例中，所述获取待转换语音数据，还包括：按预设时间间隔流式获取预设时长的短语音数据；将所述短语音数据按预设的采样率进行转换；将转换后的多个所述短语音数据进行拼接得到所述待转换语音数据。比如，将采样率为8KHz、44.1KHz、48KHz、96KHz转换为16KHZ，在此举例不作具体限定。通过采样率的转换，有利于本申请的流式语音转换方法的语音转换模型的训练，也有利于本申请的方法适用于多种规格的采样率。

如图3所示，在一个实施例中，所述按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记，包括：

S302、获取预设独有分片时长、预设公共时长；

S304、根据所述预设独有分片时长和所述预设公共时长对所述待转换语音数据进行分片处理，得到多个所述待转换分片语音，每个所述待转换分片语音中包括独有分片语音和公共语音，将所述独有分片语音的开始时间作为所述待转换分片语音的分片标记。

如图4所示，在一个实施例中，所述根据所述预设独有分片时长和预设公共时长对所述待转换语音数据进行分片处理，得到多个待转换分片语音，每个所述待转换分片语音中包括独有分片语音和公共语音，包括：

S402、将所述预设公共时长的数值的一半、所述预设独有分片时长及所述预设公共时长相加得到头端分片时长；

S404、将所述预设公共时长、所述预设独有分片时长、所述预设公共时长相加得到非头端分片时长；

S406、根据所述头端分片时长从所述待转换语音数据的头端进行提取，得到头端分片语音，所述头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音；

具体而言，从所述待转换语音数据的头端开始提取所述预设公共时长的数值的一半的语音数据作为所述头端分片语音的头部公共语音，再以所述头端分片语音的头部公共语音的结束时间为开始时间从所述待转换语音数据中提取所述预设独有分片时长的语音数据作为所述头端分片语音的独有分片语音，再以所述头端分片语音的独有分片语音的结束时间为开始时间从所述待转换语音数据中提取所述预设公共时长的语音数据作为所述头端分片语音的尾部公共语音，将所述头端分片语音的头部公共语音、独有分片语音及尾部公共语音依次拼接得到所述头端分片语音。

其中，所述待转换语音数据的头端可以是以暂停为基准点每次重新开始输入语音数据为一段且把每段语音数据的开始作为所述待转换语音数据的头端，也可以以流式语音转换方法的装置或系统每次开机为基准点把开机后第一次输入的语音数据的开始作为所述待转换语音数据的头端，在此举例不作具体限定。比如，采用流式语音转换方法的装置或系统每次开机后第一次获取数据，且以语音数据的时长为时间戳，开机后0至4分钟、5至9分钟、10至12分钟、13至15分钟获取语音数据，中间作为暂停时间；以暂停为基准点则把0分钟、5分钟、10分钟、13分钟对应的所述待转换语音数据作为所述待转换语音数据的头端，每次开机为基准点则把0分钟对应的所述待转换语音数据作为所述待转换语音数据的头端，在此举例不作具体限定。

S408、根据所述非头端分片时长从所述待转换语音数据中进行依次提取，得到非头端分片语音，所述非头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音；

具体而言，以相邻的两个所述已转换分片语音的前一片的独有分片语音的结束时间为开始时间从所述待转换语音数据提取所述预设公共时长的语音数据作为所述非头端分片语音的头部公共语音，再以本分片的头部公共语音的结束时间为开始时间从所述待转换语音数据提取所述预设独有分片时长的语音数据作为所述非头端分片语音的独有分片语音，再以本分片的独有分片语音的结束时间为开始时间从所述待转换语音数据提取所述预设公共时长的语音数据作为所述非头端分片语音的尾部公共语音，将所述非头端分片语音的头部公共语音、独有分片语音及尾部公共语音依次拼接得到所述非头端分片语音。

S410、将所述头端分片语音、所有所述非头端分片语音作为待转换分片语音。

比如，所述预设公共时长设为400ms，所述预设独有分片时长设为600ms；当所述待转换分片语音为所述头端分片语音时则的时长为1200ms，其中，头部分片语音的时长为200ms，独有分片语音的时长的时长为600ms，尾部公共语音的时长为400ms；当所述待转换分片语音为中间片时，则所述待转换分片语音为所述非头端分片语音,时长为1400ms，其中，头部公共语音的时长为400ms、独有分片语音的时长为600ms，尾部公共语音的时长为400ms；当所述待转换分片语音为最后一片时，则所述待转换分片语音为所述非头端分片语音，所述非头端分片语音时长小于或等于400ms则只包括400ms的头部公共语音，所述非头端分片语音时长400ms到1000ms之间(包括1000ms)则依次包括400ms的头部公共语音、独有分片语音，所述非头端分片语音时长400ms到1000ms之间则包括400ms的头部公共语音、600ms的独有分片语音、尾部公共语音，在此举例不作具体限定。

本实施例通过在所述头端分片语音设置1/2所述预设公共时长的头部公共语音，可以减少所述头端分片语音与所述非头端分片语音的时长的差值，提升了所述待转换分片语音的时长的均匀性，有利于充分利用设备或系统的资源，提高了流式语音转换方法的转换效率。

在另一个实施例中，所述根据所述预设独有分片时长和预设公共时长对所述待转换语音数据进行分片处理，得到多个待转换分片语音，每个所述待转换分片语音中包括独有分片语音和公共语音，还包括：

将所述预设独有分片时长及所述预设公共时长相加得到头端分片时长；

将所述预设公共时长、所述预设独有分片时长、所述预设公共时长相加得到非头端分片时长；

根据所述头端分片时长从所述待转换语音数据的头端进行提取，得到头端分片语音，所述头端分片语音包括依次连接的独有分片语音及尾部公共语音；

根据所述非头端分片时长从所述待转换语音数据中进行依次提取，得到非头端分片语音，所述非头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音；

将所述头端分片语音、所有所述非头端分片语音作为待转换分片语音。

所述根据所述头端分片时长从所述待转换语音数据的头端进行提取，得到头端分片语音，所述头端分片语音包括依次连接的独有分片语音及尾部公共语音包括：从所述待转换语音数据的头端开始提取所述预设独有分片时长的语音数据作为所述头端分片语音的独有分片语音，再以所述头端分片语音的独有分片语音的结束时间为开始时间从所述待转换语音数据中提取所述预设公共时长的语音数据作为所述头端分片语音的尾部公共语音，将所述头端分片语音的独有分片语音及尾部公共语音依次拼接得到所述头端分片语音。比如，所述预设公共时长为400ms，所述预设独有分片时长为600ms；当所述待转换分片语音为所述头端分片语音时则的时长为1000ms，其中，独有分片语音的时长的时长为600ms，尾部公共语音的时长为400ms。

如图5所示，在一个实施例中，所述已转换分片语音包括已转换头部公共语音、已转换独有分片语音、已转换尾部公共语音；

具体而言，所述头部公共语音进行语音转换后得到所述已转换头部公共语音，所述独有分片语音进行语音转换后得到所述已转换独有分片语音，所述尾部公共语音经过进行语音转换后得到所述已转换尾部公共语音。

所述将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记，包括：

S502、根据所述已转换分片语音携带的分片标记将多个所述已转换分片语音进行拼接得到已转换分片语音流；

其中，根据所述已转换分片语音携带的分片标记的先后顺序依次将多个所述已转换分片语音进行拼接得到已转换分片语音流。

S504、从所述已转换分片语音流中获取相邻的两个所述已转换分片语音；

具体而言，根据所述已转换分片语音携带的分片标记的先后顺序从所述已转换分片语音流中获取相邻的两个所述已转换分片语音。

S506、将相邻的两个所述已转换分片语音的前一片的所述已转换尾部公共语音、相邻的两个所述已转换分片语音的后一片的所述已转换头部公共语音进行加权求和，得到叠加公共语音；

具体而言，依次相邻的两个所述已转换分片语音的前一片的所述已转换尾部公共语音与相邻的两个所述已转换分片语音的后一片的所述已转换头部公共语音对应的同一个所述语音数据的时间戳的语音数据进行加权求和，得到叠加公共语音。

可以理解的是，当所述已转换分片语音是头端分片且包括所述已转换头部公共语音时则不需对所述已转换分片语音的所述已转换头部公共语音进行加权求和处理；当所述已转换分片语音是最后一分片且包括所述已转换尾部公共语音时则不需对所述已转换分片语音的所述已转换尾部公共语音进行加权求和处理。

S508、根据所述叠加公共语音、所述已转换独有分片语音进行拼接处理，得到多个所述已还原分片语音，将所述已转换分片语音携带的分片标记作为所述已还原分片语音的分片标记。

本实施例通过加权求和得到叠加公共语音，再根据所述叠加公共语音、所述已转换独有分片语音拼接处理得到所述已还原分片语音，使得相邻两个所述已还原分片语音之间的衔接平滑过渡，在播放时避免发生不自然的声音，从而使转换后的语音相对转换前的语音具有高保真的效果。

在另一个实施例中，当所述待转换分片语音只包括独有分片语音时，所述将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记，还包括：则将所述已转换分片语音直接作为所述已还原分片语音，将所述已转换分片语音携带的分片标记作为所述已还原分片语音的分片标记。

在一个实施例中，所述将相邻的两个所述已转换分片语音的前一片的所述已转换尾部公共语音、相邻的两个所述已转换分片语音的后一片的所述已转换头部公共语音进行加权求和，得到叠加公共语音，包括：

根据以下公式进行加权求和计算，得到所述叠加公共语音D：

D＝m₁×W+m₂×K

m₂＝1-m₁

其中，W为所述将相邻的两个所述已转换分片语音的前一片的已转换尾部公共语音，m₁为所述将相邻的两个所述已转换分片语音的前一片的已转换尾部公共语音的权重，K为相邻的两个所述已转换分片语音的后一片的已转换头部公共语音，m₂为相邻的两个所述已转换分片语音的后一片的已转换头部公共语音的权重，t为所述预设公共时长，exp()为高等数学中的指数函数。

图6示出了前一片的已转换尾部公共语音的权重曲线图(左图)(即m₁曲线图)，图7示出了后一片的已转换头部公共语音的权重曲线图(右图)(即m₂曲线图)，从图中可以看出m₁曲线图从小逐步增大，m₂曲线图从大逐渐变小，m₁曲线图的中部和m₂曲线图中部相等，从而使通过m₁和m₂的加权求和得到的叠加公共语音，增加了还原出的相邻的两个所述已还原分片语音的衔接平滑度，在根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出时进一步在听觉上保证了输出语音的高保真效果。

可以理解的是，加权求和的还可以采用其他算法，在此举例不作具体限定。

在一个实施例中，所述根据所述叠加公共语音、所述已转换独有分片语音进行拼接处理，得到多个所述已还原分片语音，包括：

将所述叠加公共语音作为相邻的两个所述已转换分片语音的后一片的头部叠加语音；

根据所述头部叠加语音、所述已转换独有分片语音进行拼接，得到多个所述已还原分片语音。减少了方法步骤，提升了流式语音转换方法的执行效率。

本实施例通过加权求和得到叠加公共语音，使得相邻两个所述已还原分片语音之间的衔接平滑过渡，在播放时避免发生不自然的声音，从而使转换后的语音相对转换前的语音具有高保真的效果。

如图8所示，在另一个实施例中，所述根据所述叠加公共语音、所述已转换独有分片语音进行拼接处理，得到多个所述已还原分片语音，还包括：

S802、将所述叠加公共语音分成依次相连的第一段、第二段；

具体而言，按预设的分段比例将所述叠加公共语音分成依次相连的第一段、第二段。比如，当预设的分段比例为1:1则第一段为所述叠加公共语音的前面50％，第一段为所述叠加公共语音的后面50％，当预设的分段比例为4:1则第一段为所述叠加公共语音的前面80％，第一段为所述叠加公共语音的后面20％，在此举例不作具体限定。

S804、将所述叠加公共语音的第一段作为相邻的两个所述已转换分片语音的前一片的尾部叠加语音；

S806、将所述叠加公共语音的第二段作为相邻的两个所述已转换分片语音的后一片的头部叠加语音；

S808、根据所述头部叠加语音、所述已转换独有分片语音、所述尾部叠加语音进行拼接，得到所述已还原分片语音。

本实施例通过加权求和得到叠加公共语音，再根据所述叠加公共语音得到头部叠加语音、尾部叠加语音，进一步使相邻两个所述已还原分片语音之间的衔接平滑过渡，在播放时避免发生不自然的声音，从而使转换后的语音相对转换前的语音具有高保真的效果。

在一个实施例中，所述根据所述头部叠加语音、所述已转换独有分片语音进行拼接，得到多个所述已还原分片语音，包括：

当所述已转换分片语音是头端分片且包括所述已转换头部公共语音时，则将与所述已转换分片语音对应的所述已转换头部公共语音及所述已转换独有分片语音依次拼接得到已还原分片语音；

当所述已转换分片语音是最后一分片时，则将与所述已转换分片语音对应的所述头部叠加语音、所述已转换独有分片语音及所述已转换尾部公共语音依次拼接得到已还原分片语音；

当所述已转换分片语音是中间分片时，则将与所述已转换分片语音对应的所述头部叠加语音及所述已转换独有分片语音依次拼接得到已还原分片语音。

比如，所述预设公共时长设为400ms，所述预设独有分片时长设为600ms；当所述待转换分片语音为所述头端分片语音时则的时长为1200ms，其中，头部分片语音的时长为200ms，独有分片语音的时长的时长为600ms，尾部公共语音的时长为400ms；当所述待转换分片语音为中间片时，则所述待转换分片语音为所述非头端分片语音时长为1400ms，其中，头部公共语音的时长为400ms、独有分片语音的时长为600ms，尾部公共语音的时长为400ms；当所述待转换分片语音为最后一片时，则所述待转换分片语音为所述非头端分片语音，所述非头端分片语音时长小于或等于400ms则只包括400ms的头部公共语音，所述非头端分片语音时长400ms到1000ms之间(包括1000ms)则依次包括400ms的头部公共语音、独有分片语音，所述非头端分片语音时长400ms到1000ms之间则包括400ms的头部公共语音、600ms的独有分片语音、尾部公共语音；因语音转换时时长不改变时长，当所述已转换分片语音是头端分片且包括所述已转换头部公共语音时则拼接得到的已还原分片语音为800ms(200ms的所述已转换头部公共语音，600ms的所述已转换独有分片语音)，当所述已转换分片语音是最后一分片时则拼接得到的已还原分片语音与最后一分片的所述已转换分片语音时长相同，当所述已转换分片语音是中间分片时则拼接得到的已还原分片语音为1000ms(400ms的所述头部叠加语音，600ms的所述已转换独有分片语音)，在此举例不作具体限定。

在一个实施例中，所述根据所述头部叠加语音、所述已转换独有分片语音、所述尾部叠加语音进行拼接，得到所述已还原分片语音，包括：

当所述已转换分片语音是头端分片且包括所述已转换头部公共语音时，则将与所述已转换分片语音对应的所述已转换头部公共语音、所述已转换独有分片语音及所述尾部叠加语音依次拼接得到已还原分片语音；

当所述已转换分片语音是头端分片且不包括所述已转换头部公共语音时，则将与所述已转换分片语音对应的所述已转换独有分片语音及所述尾部叠加语音依次拼接得到已还原分片语音。

当所述已转换分片语音是中间分片时，则将与所述已转换分片语音对应的所述头部叠加语音、所述已转换独有分片语音、所述尾部叠加语音依次拼接得到已还原分片语音。

在一个实施例中，所述将所述待转换分片语音进行语音转换得到已转换分片语音可以根据处理器多核的并行能力进行并行化处理；所述将所述已转换分片语音进行分片还原得到已还原分片语音可以根据处理器多核的并行能力进行并行化处理。具体而言，根据处理器多核的并行能力将多个所述待转换分片语音同时进行语音转换处理，以充分利用处理器的并行化处理；根据处理器多核的并行能力将多个所述已转换分片语音同时进行分片还原处理，以充分利用处理器的并行化处理。从而解决了容量比较大的语音数据处理时占用缓存过大的问题，缩短了响应时间，提高转换速度。

如图9所示，在一个实施例中，本发明还提出了一种流式语音转换装置，所述装置包括：

流式获取语音模块902，用于获取待转换语音数据；

分片提取模块904，用于按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；

语音转换模块906，用于将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；

分片还原模块908，用于将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记；

流式输出语音模块910，用于根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。

本实施例的流式语音转换装置通过将按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，将所述待转换分片语音进行语音转换得到已转换分片语音之后，再将所述已转换分片语音进行分片还原得到已还原分片语音，最后根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。不管输入语音的时长，分片提取、分片转换、分片还原的处理机制有利于能充分利用处理器多核的并行能力同时处理多片数据，能解决容量比较大的语音数据处理时占用缓存过大的问题，缩短了响应时间，提高转换速度；通过流式获取待转换语音数据，且根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出，不管输入语音的时长，在听觉上保证了输出语音的高保真效果。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现流式语音转换方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行流式语音转换方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的一种流式语音转换方法可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成的一种流式语音转换装置的各个程序模板。比如，流式获取语音模块902、分片提取模块904、语音转换模块906、分片还原模块908、流式输出语音模块910。

在一个实施例中，本发明还提出了一种存储介质，存储有计算机指令程序，所述计算机指令程序被处理器执行时，使得所述处理器执行实现如下方法步骤：

获取待转换语音数据；

本实施例的处理器执行实现的方法步骤通过将按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，将所述待转换分片语音进行语音转换得到已转换分片语音之后，再将所述已转换分片语音进行分片还原得到已还原分片语音，最后根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。不管输入语音的时长，分片提取、分片转换、分片还原的处理机制有利于能充分利用处理器多核的并行能力同时处理多片数据，能解决容量比较大的语音数据处理时占用缓存过大的问题，缩短了响应时间，提高转换速度；通过流式获取待转换语音数据，且根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出，不管输入语音的时长，在听觉上保证了输出语音的高保真效果。

在一个实施例中，本发明还提出了一种计算机设备，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行实现如下方法步骤：

获取待转换语音数据；

需要说明的是，上述一种流式语音转换方法、一种流式语音转换装置、存储介质及计算机设备属于一个总的发明构思，一种流式语音转换方法、一种流式语音转换装置、存储介质及计算机设备实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种流式语音转换方法，所述方法包括：

获取待转换语音数据；

获取预设独有分片时长、预设公共时长；将所述预设公共时长的数值的一半、所述预设独有分片时长及所述预设公共时长相加得到头端分片时长；将所述预设公共时长、所述预设独有分片时长、所述预设公共时长相加得到非头端分片时长；根据所述头端分片时长从所述待转换语音数据的头端进行提取，得到头端分片语音，所述头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音；根据所述非头端分片时长从所述待转换语音数据中进行依次提取，得到非头端分片语音，所述非头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音；将所述头端分片语音、所有所述非头端分片语音作为待转换分片语音，将所述独有分片语音的开始时间作为所述待转换分片语音的分片标记；

2.根据权利要求1所述的流式语音转换方法，其特征在于，所述获取待转换语音数据，包括：

按预设时间间隔流式获取预设时长的短语音数据；

将获取到的多个所述短语音数据进行拼接得到所述待转换语音数据。

3.根据权利要求1所述的流式语音转换方法，其特征在于，所述已转换分片语音包括已转换头部公共语音、已转换独有分片语音、已转换尾部公共语音；

根据所述已转换分片语音携带的分片标记将多个所述已转换分片语音进行拼接得到已转换分片语音流；

从所述已转换分片语音流中获取相邻的两个所述已转换分片语音；

将相邻的两个所述已转换分片语音的前一片的所述已转换尾部公共语音、相邻的两个所述已转换分片语音的后一片的所述已转换头部公共语音进行加权求和，得到叠加公共语音；

根据所述叠加公共语音、所述已转换独有分片语音进行拼接处理，得到多个所述已还原分片语音，将所述已转换分片语音携带的分片标记作为所述已还原分片语音的分片标记。

4.根据权利要求3所述的流式语音转换方法，其特征在于，所述根据所述叠加公共语音、所述已转换独有分片语音进行拼接处理，得到多个所述已还原分片语音，包括：

根据所述头部叠加语音、所述已转换独有分片语音进行拼接，得到多个所述已还原分片语音。

5.根据权利要求4所述的流式语音转换方法，其特征在于，所述根据所述头部叠加语音、所述已转换独有分片语音进行拼接，得到多个所述已还原分片语音，包括：

当所述已转换分片语音是中间分片时，则将与所述已转换分片语音对应的所述头部叠加语音、所述已转换独有分片语音依次拼接得到已还原分片语音。

6.根据权利要求1至5任一项所述的流式语音转换方法，其特征在于，所述将所述待转换分片语音进行语音转换得到已转换分片语音可以根据处理器多核的并行能力进行并行化处理；

所述将所述已转换分片语音进行分片还原得到已还原分片语音可以根据处理器多核的并行能力进行并行化处理。

7.一种流式语音转换装置，其特征在于，所述装置包括：

流式获取语音模块，用于获取待转换语音数据；

分片提取模块，用于获取预设独有分片时长、预设公共时长；将所述预设公共时长的数值的一半、所述预设独有分片时长及所述预设公共时长相加得到头端分片时长；将所述预设公共时长、所述预设独有分片时长、所述预设公共时长相加得到非头端分片时长；根据所述头端分片时长从所述待转换语音数据的头端进行提取，得到头端分片语音，所述头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音；根据所述非头端分片时长从所述待转换语音数据中进行依次提取，得到非头端分片语音，所述非头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音；将所述头端分片语音、所有所述非头端分片语音作为待转换分片语音，将所述独有分片语音的开始时间作为所述待转换分片语音的分片标记；

8.一种存储介质，存储有计算机指令程序，其特征在于，所述计算机指令程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

9.一种计算机设备，其特征在于，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。