CN115729509A - 语音播报方法、装置和存储介质 - Google Patents

语音播报方法、装置和存储介质 Download PDF

Info

Publication number
CN115729509A
CN115729509A CN202111003873.4A CN202111003873A CN115729509A CN 115729509 A CN115729509 A CN 115729509A CN 202111003873 A CN202111003873 A CN 202111003873A CN 115729509 A CN115729509 A CN 115729509A
Authority
CN
China
Prior art keywords
online
offline
audio
audio file
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111003873.4A
Other languages
English (en)
Inventor
唐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pateo Connect Nanjing Co Ltd
Original Assignee
Pateo Connect Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pateo Connect Nanjing Co Ltd filed Critical Pateo Connect Nanjing Co Ltd
Priority to CN202111003873.4A priority Critical patent/CN115729509A/zh
Priority to PCT/CN2021/134786 priority patent/WO2023029259A1/zh
Publication of CN115729509A publication Critical patent/CN115729509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及语音播报方法,包括:从服务器获取与要进行语音播报的目标文本相对应的音标文件和在线音频文件的至少一部分;以在线语音播报的方式对在线音频文件的已获取的部分进行播报;当在线语音播报的网络环境处于弱网状态时,确定在线音频文件的已获取的部分中的在线拼接点音频帧和相对应的拼接点音标,并激活离线播报引擎;以及当在线音频文件播报到在线拼接点音频帧的前一个在线音频帧时,以离线语音播报的方式继续进行语音播报。

Description

语音播报方法、装置和存储介质
技术领域
本公开涉及语音处理技术领域,更具体地,涉及语音播报方法、装置和存储介质。
背景技术
随着智能设备以及人机交互的快速发展,越来越多的场景可以采用从文本到语音(Text To Speech,TTS)的方式,实现将文本输出转换为语音输出,将文字转换为更便利的语音播放方式,从而提高用户体验。
TTS技术分为在线TTS和离线TTS,其中,在线TTS通过云端服务器进行语音合成;离线TTS在本地终端进行语音合成。由于云端服务器的运算能力强并且存储空间大,在线TTS可以采用更优质的算法,合成音质更好且贴近真人播报的在线TTS音频。而本地终端运算能力与存储能力远低于云端服务器,受限于此,离线TTS合成的离线TTS音频音效不如在线TTS。但是,离线TTS可以不受网络条件的影响,实现稳定的语音播报。
为了提供音效更好的语音播报并保证播报的稳定性,现有技术采用在线和离线融合的方案。其策略是优先使用在线TTS,若在线TTS不可用或超时,则使用离线TTS。然而,现有技术的融合方案粗糙,离线播报时存在时延,且无法与在线TTS无缝衔接,用户体验差。
在本背景技术部分中公开的上述信息仅用于理解本发明构思的背景技术,因此,它可以包含不构成现有技术的信息。
发明内容
本申请涉及语音播放方法、装置和计算机存储介质。
根据本公开的实施方式,语音播报方法可以包括:从服务器获取与要进行语音播报的目标文本相对应的音标文件和在线音频文件的至少一部分;以在线语音播报的方式根据对在线音频文件的已获取的部分进行播报;当在线语音播报的网络环境处于弱网状态时,确定在线音频文件的已获取的部分中的在线拼接点音频帧和相对应的拼接点音标,并激活离线播报引擎;以及当在线音频文件播报到在线拼接点音频帧的前一个在线音频帧时,以离线语音播报的方式继续进行语音播报。
在实施方式中,可以在获取完音标文件之后开始获取在线音频文件的至少一部分,音标文件的尺寸小于在线音频文件的尺寸。
在实施方式中,语音播报方法还可以包括:对在线音频文件的获取速度与语音播报的速度进行比较,其中,当在线音频文件的获取速度小于语音播报的速度时,确定出在线语音播报的网络环境处于弱网状态。
在实施方式中,语音播报方法还可以包括:在获取在线音频文件的同时获取在线音频文件的音频生成参数。此外,激活离线播报引擎可以包括:使离线播报引擎根据音频生成参数和音标文件进行语音合成,以生成与目标文本相对应的离线音频文件,其中,离线音频文件由分别与多个音标相对应的多个离线音频帧构成;以及确定离线音频文件中与拼接点音标相对应的离线拼接点音频帧。
在实施方式中,音频生成参数包括声音类型、语种、音量、语速和音频采样频率中的一种或多种。
在实施方式中,以离线语音播报的方式继续进行语音播报可以包括:从离线拼接点音频帧开始对离线音频文件进行播报。
在实施方式中,语音播报方法还可以包括:当在线音频文件的获取速度大于语音播报的速度并且在线音频文件的已获取的部分的尺寸满足预设条件时,确定离线音频文件的离线切换点音频帧和相对应的切换点音标,并确定在线音频文件中与切换点音标相对应的在线切换点音频帧;以及在离线音频文件播报到离线切换点音频帧的前一个离线音频帧时停用离线播报引擎,并从在线切换点音频帧处开始根据在线音频文件继续进行在线语音播报。
根据本公开的实施方式,语音播报装置可以包括:存储器,存储一个或多个程序;处理器,配置为执行一个或多个程序,以执行如下操作:从服务器获取与要进行语音播报的目标文本相对应的音标文件和在线音频文件的至少一部分;以在线语音播报的方式对在线音频文件的已获取的部分进行播报;当在线语音播报的网络环境处于弱网状态时,确定在线音频文件的已获取的部分中的在线拼接点音频帧和相对应的拼接点音标,并激活离线播报引擎;以及当在线音频文件播报到在线拼接点音频帧的前一个在线音频帧时,以离线语音播报的方式继续进行语音播报。
在实施方式中,处理器还可以配置为:在获取完音标文件之后开始获取在线音频文件的至少一部分,音标文件的尺寸小于在线音频文件的尺寸。
在实施方式中,处理器还可以配置为:对在线音频文件的获取速度与语音播报的速度进行比较,其中,当在线音频文件的获取速度小于语音播报的速度时,确定出在线语音播报的网络环境处于弱网状态。
在实施方式中,处理器还可以配置为:在获取在线音频文件的同时获取在线音频文件的音频生成参数;在离线播报引擎被激活时,使离线播报引擎根据音频生成参数和音标文件进行语音合成,以生成与目标文本相对应的离线音频文件,其中,离线音频文件由分别与多个音标相对应的多个离线音频帧构成;以及确定离线音频文件中与拼接点音标相对应的离线拼接点音频帧。
在实施方式中,音频生成参数可以包括声音类型、语种、音量、语速和音频采样频率中的一种或多种。
在实施方式中,处理器还可以配置为:在以离线语音播报的方式继续进行语音播报时,从离线拼接点音频帧开始对离线音频文件进行播报。
在实施方式中,处理器还可以配置为:当在线音频文件的获取速度大于语音播报的速度并且在线音频文件的已获取的部分的尺寸满足预设条件时,确定离线音频文件的离线切换点音频帧和相对应的切换点音标,并确定在线音频文件中与切换点音标相对应的在线切换点音频帧;以及在离线音频文件播报到离线切换点音频帧的前一个离线音频帧时停用离线播报引擎,并从在线切换点音频帧处开始根据在线音频文件继续进行在线语音播报。
根据本公开的实施方式,计算机存储介质可以包括计算机可执行的指令,其中,当指令被执行时,可以执行上文中描述的根据本公开的方法。
在本公开中,通过监测在线语音播报的网络状态并在处于弱网状态时激活离线播报引擎,在播报断开前生成离线播报所需的离线音频文件,可以在播报完已获取的在线音频文件部分后无缝切换到离线语音播报,从而避免由于网络原因造成的播报延时或卡顿等。与在线播报异常中断后再切换到离线播报的传统方法相比,根据本公开的方法可以消除语音播报中在线转离线的时延,保证播报的稳定性,并可以改善用户体验。
本领域技术人员将理解的是,以上发明内容仅是说明性的,并且不旨在以任何方式进行限制。除了上述说明性方面、实施方式和特征之外,通过参考附图和以下详细描述,其他方面、实施方式和特征将变得显而易见。
附图说明
通过阅读参照以下附图所作的对非限制性实施方式的详细描述,本申请的其它特征、目的和优点将会变得更明显。其中:
图1是示出根据本公开实施方式的语音处理方法的示意性流程图;
图2是示出根据本公开实施方式的目标文本的一部分和相对应的音标的示意图;以及
图3是示出根据本公开实施方式的语音处理装置的示意性框图。
具体实施方式
为了更好地理解本申请,将参照附图对本申请的各个方面做出更详细的说明。应理解的是,这些详细说明只是对本申请的示例性实施方式的描述,而非以任何方式限制本申请的范围。为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
除非另外限定,否则本文中使用的所有术语(包括工程术语和科技术语)具有与本申请所属领域普通技术人员通常理解的含义相同的含义。还应理解的是,除非本申请中有明确的说明,否则诸如在常用词典中限定的术语应被解释为具有与它们在相关技术的上下文中的含义一致的含义,而不应以理想化或过于形式化的意义解释。
需要说明的是,在不冲突的情况下,本申请中的实施方式及实施方式中的特征可以相互组合。另外,除非明确限定或与上下文相矛盾,否则本申请所记载的方法中包含的具体步骤不必限于所记载的顺序,而可以任意顺序执行或并行地执行。下面将参照附图并结合实施方式来详细说明本申请。
图1是根据本公开实施方式的语音播报方法100的流程图。方法100例如可以适用于车载语音交互系统中。下面参照图1对方法100进行详细描述。
首先,可以从服务器获取与要进行语音播报的目标文本相对应的音标文件和在线音频文件的至少一部分(S101)。
服务器可以是云端服务器,其中可以设置有优质的文本转语音算法,以将请求播报的目标文本转换为相应的音标文件和在线音频文件。
在实施方式中,服务器可以根据音频参数来将目标文本转换为在线音频文件。音频参数例如可以是发音人角色、语言、合成音量、语速以及音频采样率中的至少一个。具体地,发音人角色可以是进行语音播报的播报人员的角色,发音人角色的属性值可以为男人、女人、老人、小孩、明星等。语言可以是进行语音播报的播报语种,语言的属性值可以为中文、英语、法语等语种。特别地,服务器根据播报语种生成与该语种对应的音标文件。合成音量可以是语音播报的播报音量的大小,合成音量的属性值可以为大、中、小,或者具体的播报音量的值。音频采样率可以是每秒采样的音频点数,用于改变播放的音频文件的音质。一般地,音频采样率越大,合成的音频文件的音质越高,音频采样率越小,合成的音频文件的音质越低。其中,该音频采样率的属性值为任意数值。
在使用的过程中,用户可以根据自身的需求从已配置的音频参数的属性值中选择对应的属性值,并且服务器可以根据用户的选择生成具有相应的音频参数的在线音频文件。在本公开中,可以在获取在线音频文件的同时获取其音频生成参数,以便在线语音播报的网络环境变弱甚至断开(以下称为“弱网状态”)时离线播报引擎可以根据该音频生成参数生成离线音频文件,从而使语音播报得以根据离线音频文件继续进行而不致断开,如下文中所详细描述的。
目标文本可以包括具有预定次序的多个字符。在实施方式中,目标文本可以是一段笑话,如“鳄鱼咬到猎物时不会撕扯,只会360°翻转身体,所以被鳄鱼咬到不用担心,只要跟着鳄鱼一起翻转且速度够快的话,还可以把鳄鱼头给拧下来”(下文中称为目标文本1),其由以预定次序排列的多个字符构成。
音标文件可以包括分别与目标文本的多个字符相对应并且具有相同次序的多个音标。图2中示出示例性目标文本1的一部分(见图2中的下部分)以及相应的音标202(见图2中的上部分)。
在线音频文件可以包括分别与多个音标相对应并且具有相同次序的多个在线音频帧。应注意的是,在本申请中,为便于描述,一个字符可以与一个在线音频帧及相应的音标相对应,然而,本领域技术人员将理解的是,根据所采用的音频算法和相应的音频处理、传输方法等,一个在线音频帧可以包括多个子在线音频帧。在实施方式中,每个在线音频帧可以各自具有包含在其中的单独的音频生成参数。每个在线音频帧的音频生成参数可以相同(例如,当用户在播报期间不改变各个音频参数的属性值时),也可以不同(例如,当用户在播报期间改变音频参数中的一个或多个的属性值时)。
在根据本公开的方法中,可以在获取完音标文件之后开始获取在线音频文件的至少一部分,这样,即使在由于网络变弱或断开导致未获取到针对目标文本的所有字符的完整的音频文件的情况下,离线引擎也可以根据已获取的音标文件生成离线音频文件(如下文中参照S103所描述的)。一般地,音标文件可以具有较小的尺寸,具体地,可以远小于在线音频文件的尺寸,并且所需的获取时间可以非常小。这样,可以确保无论网络环境什么时候变差都可以获取到完整的音标文件,使得离线播报引擎可以基于音标文件生成离线音频文件,以便在网络变差时从在线语音播报切换到离线语音播报,或者直接进行离线语音播报,从而避免因播报断开影响用户体验。
然后,可以以在线语音播报的方式对在线音频文件的已获取的部分进行播报(S102)。
为了提高语音播报的响应速度,诸如车载语音交互系统的终端可以采用边获取在线音频文件边进行语音播报的方式进行实时播报。即,终端在获取到的音频文件的尺寸(或者,获取到的在线音频帧的数量)满足最低播报条件的时候就开始进行在线语音播报,而不用等到获取到包括针对目标文本的全部字符的完整的在线音频文件时才开始进行播报。
在一个实施方式中,最低播报条件可以是已获取的在线音频帧的数量高于预定的最小获取值。在要进行语音播报的目标文本是上述目标文本1并且预定的最小获取值为21的情况下,当获取到第1个字符至第21个字符“鳄鱼咬到猎物时不会撕扯,只会360°翻转身体”对应的音频帧时即可开始进行在线语音播报。然而,本公开不限于此。例如,在另一实施方式中,最低播报条件可以是已获取的在线音频帧的数量与要获取的在线音频帧的总数量的比率高于预定的最小获取比率。在另一实施方式中,已获取的在线音频帧的数量可以低于预定的最小获取值。在这种情况下,可以根据已获取的音标文件生成离线音频文件(如下文中参照S103所描述的),并直接根据离线音频文件进行离线语音播报。
一般地,在网络正常的情况下,语音播报的速度可以小于其获取速度,并且因此可以实现实时在线语音播报。然而,诸如车载语音交互系统的终端在高速行驶、突然进入地库、突然进入隧道时,可能进入到网络延时极大或者断开的弱网环境。
在根据本公开的实施方式中,当在线语音播报的网络环境处于弱网状态时,可以确定在线音频文件的已获取的部分中的在线拼接点音频帧和相对应的拼接点音标,并激活离线播报引擎(S103)。
在本公开中,可以通过监测在线音频文件的获取速度与语音播报速度来监测网络状况。具体地,可以对在线音频文件的获取速度与语音播报的速度进行比较,并且当在线音频文件的获取速度小于语音播报的速度时,则可以确定出在线语音播报的网络环境处于弱网状态。在实施方式中,在线语音播报的速度例如可以是每秒(s)播报4个字符,即,每250毫秒(ms)播报1个字符,在这种情况下,当在250ms内没有获取到与一个字符相对应的在线音频帧时,则可以判定在线语音播报的网络环境处于弱网状态。以上述目标文本1为例,在获取完与“翻转身体”的“体”相对应的音频帧的250ms内还没有获取到其下一个字符“所”对应的音频帧的情况下,可以判定在线语音播报的网络环境处于弱网状态。
此时可以确定在线音频文件的已获取的部分中的在线拼接点音频帧和相对应的拼接点音标。在本公开中,拼接点音频帧可以是已获取的在线音频文件部分中的最后一个在线音频帧。例如,在上述实施方式中,在获取完字符“体”对应的音频帧之后判定在线语音播报的网络环境处于弱网状态的情况下,在线拼接点音频帧可以是“体”对应的音频帧,并且拼接点音标可以是“tǐ”。
此外,还可以激活离线播报引擎。具体地,可以使离线播报引擎根据音频生成参数和音标文件进行语音合成,以生成与目标文本相对应的离线音频文件。离线播报引擎例如可以根据已获取的在线音频文件部分中的最后一个在线音频帧所包含的音频生成参数来生成离线音频文件,以使离线播报与在线播报的最后一个字符具有相同的声音特性,例如,具有相同的声音类型、语种、音量、语速和音频采样频率等,如上文中所描述的。
与在线音频文件类似,离线音频文件由分别与多个音标相对应并且具有相同次序的多个离线音频帧构成,并且一个离线音频帧可以包括多个子离线音频帧。在本公开中,激活离线引擎还可以包括确定离线音频文件中与拼接点音标相对应的离线拼接点音频帧。例如,在对目标文本1进行语音播报的情况下,如果判定拼接点音标是“tǐ”,则根据离线音频帧与音标的对应关系,可以确定离线音频文件中与该拼接点音标“tǐ”相对应的离线拼接点音频帧“体”。
这样,当在线音频文件播报到在线拼接点音频帧的前一个在线音频帧时,可以以离线语音播报的方式继续进行语音播报(S104)。例如,在判定在线拼接点音频帧是“体”的情况下,在线语音播报在播报到其前一个音频帧“身”时停止,并且以离线语音播报的方式继续进行“身”之后的语音播报。具体地,可以从离线拼接点音频帧“体”开始对离线音频文件进行播报。
在根据本公开的方法中,通过监测在线语音播报的网络状态并在处于弱网状态时激活离线播报引擎,提前生成离线播报所需的离线音频文件,可以在播报完已获取的在线音频文件部分后无缝切换到离线语音播报,从而避免由于网络原因造成的播报延时或卡顿等。与在线播报出现异常中断再切换到离线播报的传统方法相比,根据本公开的方法可以保证播报的稳定性,并可以改善用户体验。
另一方面,在从在线语音播报切换到离线语音播报后,可能出现语音播报的网络环境从弱网状态恢复到正常状态的情况。例如,当在线音频文件的获取速度大于语音播报的速度时,可以认为语音播报的网络环境恢复到正常状态。
在一个实施方式中,当网络环境恢复到正常状态并且在线音频文件的已获取的部分的尺寸满足预设条件(例如,已获取的在线音频文件包括针对目标文本的所有字符的在线音频帧),可以确定离线音频文件的离线切换点音频帧和相对应的切换点音标,并确定在线音频文件中与切换点音标相对应的在线切换点音频帧。然后,可以在离线音频文件播报到离线切换点音频帧的前一个离线音频帧时停用离线播报引擎,并从在线切换点音频帧处开始根据在线音频文件继续进行在线语音播报。
然而,本公开不限于此。在另一实施方式中,可以根据离线音频文件继续播报当前的目标文本,并在播报下一目标文本时切换为在线语音播报。
图3示出根据本公开的实施方式的语音播报装置300,其可以包括存储器310、离线播报引擎320和处理器330。在语音播报装置300中,存储器310、离线播报引擎320和处理器330可以通过总线或者其他方式连接,如图3中所示。
存储器310可以包括程序存储区311和数据存储区312,其中,程序存储区可以存储用于实现根据本公开的方法100(参照图1)所需的一个或多个程序,数据存储区312可以存储执行方法100的过程中从服务器获取的与目标文本对应的音标文件和在线音频文件,以及由离线播报引擎320生成的离线音频文件。存储器310可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器310可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。
离线播报引擎320可以在被激活时根据音频生成参数和音标文件进行语音合成,以生成与目标文本相对应的离线音频文件。
处理器330可以配置为执行存储在存储器310中的一个或多个程序,以执行根据本公开的方法100(参照图1)的操作,即:从服务器获取与要进行语音播报的目标文本相对应的音标文件和在线音频文件的至少一部分,其中,目标文本由多个字符构成,音标文件由分别与多个字符相对应的多个音标构成,并且在线音频文件由分别与多个音标相对应的多个在线音频帧构成;以在线语音播报的方式对在线音频文件的已获取的部分进行播报;当在线语音播报的网络环境处于弱网状态时,确定在线音频文件的已获取的部分中的在线拼接点音频帧和相对应的拼接点音标,并激活离线播报引擎320;以及当在线音频文件播报到在线拼接点音频帧的前一个在线音频帧时,以离线语音播报的方式继续进行语音播报。
在实施方式中,处理器330还可以配置为:在获取完音标文件之后开始获取在线音频文件的至少一部分,音标文件的尺寸小于在线音频文件的尺寸。
在实施方式中,处理器330还可以配置为:对在线音频文件的获取速度与语音播报的速度进行比较,其中,当在线音频文件的获取速度小于语音播报的速度时,确定出在线语音播报的网络环境处于弱网状态。
在实施方式中,处理器330还可以配置为:在获取在线音频文件的同时获取在线音频文件的音频生成参数;在离线播报引擎320被激活时,使离线播报引擎320根据音频生成参数和音标文件进行语音合成,以生成与目标文本相对应的离线音频文件,其中,离线音频文件由分别与多个音标相对应的多个离线音频帧构成;以及确定离线音频文件中与拼接点音标相对应的离线拼接点音频帧。
在实施方式中,音频生成参数可以包括声音类型、语种、音量、语速和音频采样频率中的一种或多种。
在实施方式中,处理器330还可以配置为:在以离线语音播报的方式继续进行语音播报时,从离线拼接点音频帧开始对离线音频文件进行播报。
在实施方式中,处理器330还可以配置为:当在线音频文件的获取速度大于语音播报的速度并且在线音频文件的已获取的部分的尺寸满足预设条件时,确定离线音频文件的离线切换点音频帧和相对应的切换点音标,并确定在线音频文件中与切换点音标相对应的在线切换点音频帧;以及在离线音频文件播报到离线切换点音频帧的前一个离线音频帧时停用离线播报引擎320,并从在线切换点音频帧处开始根据在线音频文件继续进行在线语音播报。
根据本公开的实施方式,计算机存储介质可以包括计算机可执行的指令,其中,当指令被执行时,可以执行上文中描述的根据本公开的方法。
计算机存储介质例如可以是,但不限于,电、磁、光、电磁、红外、或半导体系统、装置或器件,或者以上各项的任意组合。计算机存储介质的更具体的示例包括:随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
以上描述仅为本申请的实施方式以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的保护范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离技术构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (15)

1.一种语音播报方法,包括:
从服务器获取与要进行语音播报的目标文本相对应的音标文件和在线音频文件的至少一部分;
以在线语音播报的方式对所述在线音频文件的已获取的部分进行播报;
当所述在线语音播报的网络环境处于弱网状态时,确定所述在线音频文件的所述已获取的部分中的在线拼接点音频帧和相对应的拼接点音标,并激活离线播报引擎;以及
当所述在线音频文件播报到所述在线拼接点音频帧的前一个在线音频帧时,以离线语音播报的方式继续进行所述语音播报。
2.根据权利要求1所述的语音播报方法,其中,在获取完所述音标文件之后开始获取所述在线音频文件的至少一部分,所述音标文件的尺寸小于所述在线音频文件的尺寸。
3.根据权利要求1所述的语音播报方法,还包括:
对所述在线音频文件的获取速度与所述语音播报的速度进行比较,
其中,当所述在线音频文件的获取速度小于所述语音播报的速度时,确定出所述在线语音播报的网络环境处于所述弱网状态。
4.根据权利要求1所述的语音播报方法,还包括:在获取所述在线音频文件的同时获取所述在线音频文件的音频生成参数;
其中,激活所述离线播报引擎包括:
使所述离线播报引擎根据所述音频生成参数和所述音标文件进行语音合成,以生成与所述目标文本相对应的离线音频文件,其中,所述离线音频文件由分别与多个音标相对应的多个离线音频帧构成;以及
确定所述离线音频文件中与所述拼接点音标相对应的离线拼接点音频帧。
5.根据权利要求4所述的语音播报方法,其中,所述音频生成参数包括声音类型、语种、音量、语速和音频采样频率中的一种或多种。
6.根据权利要求5所述的语音播报方法,其中,以所述离线语音播报的方式继续进行所述语音播报包括:
从所述离线拼接点音频帧开始对所述离线音频文件进行播报。
7.根据权利要求6所述的语音播报方法,还包括:
当所述在线音频文件的获取速度大于所述语音播报的速度并且所述在线音频文件的所述已获取的部分的尺寸满足预设条件时,确定所述离线音频文件的离线切换点音频帧和相对应的切换点音标,并确定所述在线音频文件中与所述切换点音标相对应的在线切换点音频帧;以及
在所述离线音频文件播报到所述离线切换点音频帧的前一个离线音频帧时停用所述离线播报引擎,并从所述在线切换点音频帧处开始根据所述在线音频文件继续进行所述在线语音播报。
8.一种语音播报装置,包括:
存储器,存储一个或多个程序;
处理器,配置为执行所述一个或多个程序,以执行如下操作:
从服务器获取与要进行语音播报的目标文本相对应的音标文件和在线音频文件的至少一部分;
以在线语音播报的方式对所述在线音频文件的已获取的部分进行播报;
当所述在所述线语音播报的网络环境处于弱网状态时,确定所述在线音频文件的所述已获取的部分中的在线拼接点音频帧和相对应的拼接点音标,并激活所述离线播报引擎;以及
当所述在线音频文件播报到所述在线拼接点音频帧的前一个在线音频帧时,以离线语音播报的方式继续进行所述语音播报。
9.根据权利要求8所述的语音播报装置,其中,所述处理器还配置为:
在获取完所述音标文件之后开始获取所述在线音频文件的至少一部分,所述音标文件的尺寸小于所述在线音频文件的尺寸。
10.根据权利要求8所述的语音播报装置,其中,所述处理器还配置为:
对所述在线音频文件的获取速度与所述语音播报的速度进行比较,
其中,当所述在线音频文件的获取速度小于所述语音播报的速度时,确定出所述在线语音播报的网络环境处于所述弱网状态。
11.根据权利要求8所述的语音播报装置,其中,所述处理器还配置为:
在获取所述在线音频文件的同时获取所述在线音频文件的音频生成参数;
在所述离线播报引擎被激活时,使所述离线播报引擎根据所述音频生成参数和所述音标文件进行语音合成,以生成与所述目标文本相对应的离线音频文件,其中,所述离线音频文件由分别与多个音标相对应的多个离线音频帧构成;以及
确定所述离线音频文件中与所述拼接点音标相对应的离线拼接点音频帧。
12.根据权利要求11所述的语音播报装置,其中,所述音频生成参数包括声音类型、语种、音量、语速和音频采样频率中的一种或多种。
13.根据权利要求12所述的语音播报装置,其中,所述处理器还配置为:
在以离线语音播报的方式继续进行所述语音播报时,从所述离线拼接点音频帧开始对所述离线音频文件进行播报。
14.根据权利要求13所述的语音播报装置,其中,所述处理器还配置为:
当所述在线音频文件的获取速度大于所述语音播报的速度并且所述在线音频文件的所述已获取的部分的尺寸满足预设条件时,确定所述离线音频文件的离线切换点音频帧和相对应的切换点音标,并确定所述在线音频文件中与所述切换点音标相对应的在线切换点音频帧;以及
在所述离线音频文件播报到所述离线切换点音频帧的前一个离线音频帧时停用所述离线播报引擎,并从所述在线切换点音频帧处开始根据所述在线音频文件继续进行所述在线语音播报。
15.一种计算机存储介质,包括计算机可执行的指令,其中,当所述指令被执行时,执行权利要求1-7中任一项所述的方法。
CN202111003873.4A 2021-08-30 2021-08-30 语音播报方法、装置和存储介质 Pending CN115729509A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111003873.4A CN115729509A (zh) 2021-08-30 2021-08-30 语音播报方法、装置和存储介质
PCT/CN2021/134786 WO2023029259A1 (zh) 2021-08-30 2021-12-01 语音播报方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111003873.4A CN115729509A (zh) 2021-08-30 2021-08-30 语音播报方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN115729509A true CN115729509A (zh) 2023-03-03

Family

ID=85290761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111003873.4A Pending CN115729509A (zh) 2021-08-30 2021-08-30 语音播报方法、装置和存储介质

Country Status (2)

Country Link
CN (1) CN115729509A (zh)
WO (1) WO2023029259A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219315B2 (en) * 2009-03-08 2012-07-10 Mitac International Corp. Customizable audio alerts in a personal navigation device
CN104992704B (zh) * 2015-07-15 2017-06-20 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN107039032A (zh) * 2017-04-19 2017-08-11 上海木爷机器人技术有限公司 一种语音合成处理方法及装置
CN112151004A (zh) * 2020-09-23 2020-12-29 大众问问(北京)信息科技有限公司 一种混合播报方法、装置、设备及存储介质
CN113270085A (zh) * 2021-06-22 2021-08-17 广州小鹏汽车科技有限公司 语音交互方法、语音交互系统和车辆

Also Published As

Publication number Publication date
WO2023029259A1 (zh) 2023-03-09

Similar Documents

Publication Publication Date Title
US12046229B2 (en) Systems and methods for providing notifications within a media asset without breaking immersion
US9799375B2 (en) Method and device for adjusting playback progress of video file
CN107369462B (zh) 电子书语音播放方法、装置及终端设备
CN109147779A (zh) 语音数据处理方法和装置
CN104038804A (zh) 基于语音识别的字幕同步装置和方法
CN106796496A (zh) 显示设备及其操作方法
CN105872576A (zh) 一种视频播放方法和装置
CN108962233A (zh) 用于语音对话平台的语音对话处理方法及系统
US11043222B1 (en) Audio encryption
US20240112668A1 (en) Audio-based media edit point selection
CN106792048B (zh) 一种识别智能电视用户语音命令的方法和装置
CN104572081B (zh) 一种控制应用切换的方法及装置
KR20210152396A (ko) 비디오 처리 방법, 장치, 전자 기기 및 기록 매체
CN112151004A (zh) 一种混合播报方法、装置、设备及存储介质
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
CN106648530A (zh) 语音控制方法及终端
CN115150660B (zh) 一种基于字幕的视频编辑方法和相关设备
CN106131689A (zh) 视频下载方法及装置
JP2022095689A (ja) 音声データノイズ低減方法、装置、機器、記憶媒体及びプログラム
CN118175382A (zh) 一种素材视频生成方法、装置、设备及存储介质
KR20230106170A (ko) 데이터 처리 방법 및 장치, 디바이스, 및 매체
CN114339391A (zh) 视频数据处理方法、装置、计算机设备以及存储介质
CN113992972A (zh) 一种字幕显示方法、装置、电子设备和可读存储介质
CN115729509A (zh) 语音播报方法、装置和存储介质
CN109375460B (zh) 智能投影仪的控制方法及智能投影仪

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination