CN112863475A - 一种语音合成方法、装置和介质 - Google Patents

一种语音合成方法、装置和介质 Download PDF

Info

Publication number
CN112863475A
CN112863475A CN201911101329.6A CN201911101329A CN112863475A CN 112863475 A CN112863475 A CN 112863475A CN 201911101329 A CN201911101329 A CN 201911101329A CN 112863475 A CN112863475 A CN 112863475A
Authority
CN
China
Prior art keywords
digital
synthesized
voice
target
digits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911101329.6A
Other languages
English (en)
Other versions
CN112863475B (zh
Inventor
崔文强
杨春勇
靳丁南
权圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN201911101329.6A priority Critical patent/CN112863475B/zh
Publication of CN112863475A publication Critical patent/CN112863475A/zh
Application granted granted Critical
Publication of CN112863475B publication Critical patent/CN112863475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Analogue/Digital Conversion (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种语音合成方法、装置和存储介质,其中方法包括:获取待合成目标数字,根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元,在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元,利用语音单元合成待合成目标数字的语音。通过本实施例,可以同时提高语音合成的工作效率和语音合成质量。

Description

一种语音合成方法、装置和介质
技术领域
本申请涉及互联网领域,特别是涉及一种语音合成方法、装置和介质。
背景技术
随着互联网技术的快速的发展,语音合成技术如雨后春笋,以满足各行各业的对智能语音的需求。目前语音合成技术分为以下三种方式:基于拼接方式合成,端到端方式合成以及基于参数合成,其中基于拼接的方式是通过对各个录音片段的拼接,所以需要较为全面的录音库,导致需要录制的录音库的工作量大,使得语音合成的工作效率降低;端对端方式合成属于深度学习的方式,也需要高质量的大量录音数据样本进行模型训练;基于参数合成的方法虽然不需要大量录音库,可以根据少量包含重点参数的录音数据建立数据库模型,然后进行语音合成,但该种方法的语音合成结果会导致语音合成效果不佳。
目前暂无在可以降低语音合成的工作效率的同时又提高语音合成质量的有效方法。
本公开的实施例提供了一种在数字领域的语音合成方法、装置和介质,以同时提高语音合成的工作效率和语音合成质量的。
发明内容
本公开的实施例提供了一种语音合成方法、装置和存储介质,以同时提高语音合成的工作效率和语音合成质量。
为解决上述技术问题,本发明实施例是这样实现的:
第一方面,本公开实施例提供了一种语音合成方法,包括:
获取待合成目标数字;
根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个所述待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元;
在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元;其中,所述数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的所述样本数字的数字位数为奇数,且以所述奇数位数的中间数所对应的数字位为基准数字位,所述样本数字中低于所述基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于所述基准数字位的高位数字部分中的数字位所对应的数字值一一对应;
利用所述语音单元合成所述待合成目标数字的语音。
第二方面,本公开实施例还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行如上述第一方面所述的语音合成方法。
第三方面,根据本公开实施例还提供了一种语音合成装置,包括:
目标数字获取模块,用于获取待合成目标数字;
数字单元确定模块,用于根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个所述待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元;
语音样本确定模块,用于在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元;其中,所述数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的所述样本数字的数字位数为奇数,且以所述奇数位数的中间数所对应的数字位为基准数字位,所述样本数字中低于所述基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于所述基准数字位的高位数字部分中的数字位所对应的数字值一一对应;
数字语音合成模块,用于利用所述语音单元合成所述待合成目标数字的语音。
第四方面,本公开实施例还提供了一种语音合成装置,包括:
处理器;以及
存储器,与所述第一处理器连接,用于为所述第一处理器提供处理以下处理步骤的指令:
获取待合成目标数字;
根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个所述待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元;
在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元;其中,所述数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的所述样本数字的数字位数为奇数,且以所述奇数位数的中间数所对应的数字位为基准数字位,所述样本数字中低于所述基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于所述基准数字位的高位数字部分中的数字位所对应的数字值一一对应;
利用所述语音单元合成所述待合成目标数字的语音。
本发明实施例中,获取待合成目标数字,根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元,在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元;其中,数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的样本数字的数字位数为奇数,且以奇数位数的中间数所对应的数字位为基准数字位,样本数字中低于基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于基准数字位的高位数字部分中的数字位所对应的数字值一一对应,利用语音单元合成所述待合成目标数字的语音。本发明通过使用对样本数字的高位数字和低位数字具有对应关系的限制来大大减少语音样本的数量,提高了语音合成的工作效率,且根据将待合成目标数字确定的待合成目标数字单元对应的语音样本合成待合成目标数字的语音,提高了语音合成质量。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1为本公开一实施例提供的用于实现一种语音合成方法的计算设备的硬件结构框图;
图2为本公开一实施例提供的语音合成方法的流程示意图;
图3为本公开一实施例提供的语音合成装置示意图;
图4为本公开另一实施例提供的语音合成装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本实施例,还提供了一种语音合成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现一种语音合成方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的语音合成方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的语音合成方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,本实施例提供了一种语音合成方法。图2为本公开一实施例提供的语音合成方法的流程示意图,参考图2所示,该方法包括:
S202:获取待合成目标数字;
S204:根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元;
S206:在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元;其中,数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的样本数字的数字位数为奇数,且以奇数位数的中间数所对应的数字位为基准数字位,样本数字中低于基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于基准数字位的高位数字部分中的数字位所对应的数字值一一对应;
S208:利用语音单元合成待合成目标数字的语音。
本发明实施例中,获取待合成目标数字,根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元,在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元;其中,数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的样本数字的数字位数为奇数,且以奇数位数的中间数所对应的数字位为基准数字位,样本数字中低于基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于基准数字位的高位数字部分中的数字位所对应的数字值一一对应,利用语音单元合成所述待合成目标数字的语音。本发明通过使用对样本数字的高位数字和低位数字具有对应关系的限制来大大减少语音样本的数量,提高了语音合成的工作效率,且根据将待合成目标数字确定的待合成目标数字单元对应的语音样本合成待合成目标数字的语音,提高了语音合成质量。
上述步骤S202中,获取待合成目标数字,本发明实施例是针对数字领域的语音合成技术,比如待合成目标数字为345,或者12345,或者1234等任意一个数字,这里对待合成目标数字的具体数字不做特殊限定。
上述步骤S204中,根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元。根据预设规则将待合成目标数字的语音分隔为两个待合成目标数字单元,比如,待合成目标数字为12345,则根据预设规则将12345分割为123和45,即123是高位待合成目标数字单元,对应的高位位数分别为万位、千位和百位,45是低位待合成目标数字单元,对应的低位位数分别为十位和个位。
上述步骤S206中,在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元,即在预先录制的语音数字选择包含有待合成目标数字单元对应的语音样本,比如待合成目标数字单元为45,且45对应的位数为十位和个位,则在预先录制的语音数字选择包含有待合成目标数字单元对应的语音样本,比如语音样本为54345,并从语音样本中截取十位和个位为45的待合成目标单元对应的语音单元。
其中,数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的样本数字的数字位数为奇数,即语音数字库的语音样本为奇数位数,比如该语音样本均为5位数或者7位数,这里不作特殊限制;且以奇数位数的中间数所对应的数字位为基准数字位,样本数字中低于基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于基准数字位的高位数字部分中的数字位所对应的数字值一一对应,该一一对应关系可以是低位数字其中的任意一位数的数字对应高位数字的任意一个位数的数字,比如一个5位数字的语音样本,其中基准数字为百位的3,高位数字的万位和千位分别为1和2,则低位数字的十位的可以是和万位数字对应为1,则低位数字的个位数字和千位数字对应为2,则该该语音样本为12312,或者也可是低位数字的十位和千位数字对应为2,低位数字的个位数字和万位数字对应为1(即高位数字和低位数字相对于基准位对称布置),则该语音样本为12321,显然地通过这种对应关系限制了样本数据的样本数量,可以提高数字合成的工作效率。
上述动作S208中,利用语音单元合成待合成目标数字的语音。比如,根据语音单元123(位数分别对应万位、千位和百位)和语音单元45(位数分别对应十位和个位)合成目标数字12345的语音。
进一步地,根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,包括:
(a1),根据基准数字位将待合成目标数字的语音分割成两个待合成目标数字单元。这里基准数字位是根据数字语音库中的语音样本确定,与语音样本中的基准数字为一致,根据基准数字位将待合成目标数字的不包含基准数字位的基准数字位之后的低位数字确定为一个待合成目标数字单元,将除去该待合成目标数字单元的另外一部分待合成目标数字确定为另外一个待合成目标数字单元。比如,样本数据库中的样本数据是5位数,基准数字为百位,则根据基准数字百位3将待合成目标数字的54321分为543(位数分别对应万位、千位和百位)和21(位数分别对应十位和个位)。
进一步地,在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元,包括:
(b1),根据待合成目标单元包含的各个位数的数字,在数字语音库中确定包含各个位数的数字的语音样本;
(b2),在语音样本中截取与对应的待合成目标单元的语音单元。
上述动作(b1)中,根据待合成目标单元包含的各个位数的数字,在数字语音库中确定包含各个位数的数字的语音样本,比如待合成目标单元包含23(分别对应十位和个位),在数字语音库中确定包含23(位数分别对应十位和个位)的数字的语音样本为32523。
上述动作(b2)中,在语音样本中截取与对应的待合成目标单元的语音单元,比如在上述动作(b1)中的例子中,在语音样本32523中截取23(位数分别对应十位和个位)的语音单元。
进一步地,根据待合成目标单元包含的各个位数的数字,在数字语音库中确定包含各个位数的数字的语音样本,包括:
(c1),在数字语音库中匹配包含高位待合成目标单元的各个位数对应的语音样本,作为高位待合成目标单元的语音样本;
(c2),在数字语音库中匹配多个包含低位待合成目标单元的各个位数的数字的候选语音样本,在多个候选语音样本中确定低位待合成目标单元的语音样本。
上述动作(c1)中,在语音库中匹配包含高位待合成目标单元的各个位数对应的语音样本,作为高位待合成目标单元的语音样本,比如,待合成目标数字为12345,高位数字为123(分别对应万位、千位、百位),则在数字语音库中匹配包含高位数字123(分别对应万位、千位、百位)对应的语音样本12312,将语音样本12312作为高位待合成目标单元的语音样本;再比如待合成目标数字为1234,高位数字为12(分别对应千位和百位),则在数字语音库中匹配包含高位数字12(分别对应千位和百位)对应的语音样本11211,将语音样本11211作为高位待合成目标单元的语音样本,或者语音样本中存在31213,也可以将语音样本31213作为高位待合成目标单元的语音样本,任意选择其中一个语音样本即可。
上述动作(c2)中,在数字语音库中匹配多个包含低位待合成目标单元的各个位数的数字的候选语音样本,在多个候选语音样本中确定低位待合成目标单元的语音样本。比如,待合成目标数字为12345,低位数字为45(分别对应十位和百位),则数字语音库中存在多个包含低位数字45(分别对应十位和百位)的候选语音样本,如54354、54654、54754等,根据该多个候选语音样本中确定低位待合成目标单元的语音样本。
进一步地,在数字语音库中匹配多个包含低位待合成目标单元的各个位数的数字的候选语音样本,在多个候选语音样本中确定低位待合成目标单元的语音样本,包括:
(d1),将数字语音库的基准数字位确定为待合成目标数字的基准数字位,获取待合成目标数字的基准数字位对应的第一数字;
(d2),选取基准数字位对应的数字为第一数字的候选语音样本,将选取后的候选语音样本确定为低位待合成目标单元的语音样本。
上述动作(d1)中,将数字语音库的基准数字位确定为待合成目标数字的基准数字位,获取待合成目标数字的基准数字位对应的第一数字,比如数字语音库的基准数字位为百位,则待合成目标数字的基准数字位为百位,获取待合成目标数字的基准数字位对应的数字作为第一数字,比如待合成目标数字为23456,基准数字位为百位,则第一数字为4。
上述动作(d2)中,选取基准数字位对应的数字为第一数字的候选语音样本,将选取后的候选语音样本确定为低位待合成目标单元的语音样本。一个实施例中,待合成目标数字为23456,其中待合成目标数字的低位待合成目标单元为56(位数分别为十位和百位),该低位待合成目标单元匹配的对应的语音样本包括65156、65256、65356、65456、65556、65656、65756、65856、65956、65056,其中基准位数为百位,则待合成目标数字的基准位数对应的数字为4,则将65456确定为低位待合成目标单元的语音样本。
一个特殊的实施例中,当待合成目标数字的位数小于等于对应数字语音库中样本数字的基准数字位,则直接将该待合成目标数字作为待合成目标数字单元,根据该目标数字单元在数字语音库中匹配包含待合成目标数字单元中各个位数数字的语音样本,在该语音样本中截取需要的待合成目标数字单元的语音,则截取后的语音为待合成目标数字的语音。比如,待合成目标数字为234,数字库中的样本数的基准数字位为百位,则将234作为待合成目标数字单元,根据234在数字语音库中匹配包含234(位数分别为百位、十位和个位)的语音样本,得出符合该匹配条件的语音样本为34234,则将34234作为语音样本,在34234的语音样本中截取234的语音,得到待合成目标数字234的语音。
进一步地,数字语音库中的语音样本的高位数字和低位数字以基准数字位为对称轴呈相互对称关系。一个具体的实施例中,在一个5位数的语音数字库中,基准数字位为百位,高位数字为从100至999的三位数字,则低位数字的确定以基准数字为对称轴呈对称关系,即语音样本为10001,10101,10201至99799,99899,99999,则只需899个语音样本通过语音合成即可覆盖十万以内的目标数字的语音,大大减少了录制的工作量,从而提高了数字语音合成的工作效率。
本发明实施例中,获取待合成目标数字,根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元,在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元;其中,数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的样本数字的数字位数为奇数,且以奇数位数的中间数所对应的数字位为基准数字位,样本数字中低于基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于基准数字位的高位数字部分中的数字位所对应的数字值一一对应,利用语音单元合成所述待合成目标数字的语音。本发明通过使用对样本数字的高位数字和低位数字具有对应关系的限制来大大减少语音样本的数量,提高了语音合成的工作效率,且根据将待合成目标数字确定的待合成目标数字单元对应的语音样本合成待合成目标数字的语音,提高了语音合成质量。
此外,参考图1所示,根据本实施例的第二方面,提供了一种存储介质。所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的语音合成方法。
本发明实施例中,获取待合成目标数字,根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元,在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元;其中,数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的样本数字的数字位数为奇数,且以奇数位数的中间数所对应的数字位为基准数字位,样本数字中低于基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于基准数字位的高位数字部分中的数字位所对应的数字值一一对应,利用语音单元合成所述待合成目标数字的语音。本发明通过使用对样本数字的高位数字和低位数字具有对应关系的限制来大大减少语音样本的数量,提高了语音合成的工作效率,且根据将待合成目标数字确定的待合成目标数字单元对应的语音样本合成待合成目标数字的语音,提高了语音合成质量。
本申请实施例提供的一种存储介质能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图3为本公开一实施例提供的一种语音合成装置示意图,该装置300与根据实施例1的一种语音合成方法相对应。参考图3所示,该装置300包括:
目标数字获取模块301,用于获取待合成目标数字;
数字单元确定模块302,用于根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个所述待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元;
语音样本确定模块303,用于在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元;其中,所述数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的所述样本数字的数字位数为奇数,且以所述奇数位数的中间数所对应的数字位为基准数字位,所述样本数字中低于所述基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于所述基准数字位的高位数字部分中的数字位所对应的数字值一一对应;
数字语音合成模块304,用于利用所述语音单元合成所述待合成目标数字的语音。
可选地,所述数字单元确定模块302具体用于:
根据所述基准数字位将所述待合成目标数字的语音分割成两个所述待合成目标数字单元。
可选地,所述语音样本确定模块303具体用于:
根据所述待合成目标单元包含的各个位数的数字,在所述数字语音库中确定包含所述各个位数的数字的语音样本;
在所述语音样本中截取与对应的所述待合成目标单元的语音单元。
可选地,所述语音样本确定模块303还具体用于:
在所述数字语音库中匹配包含所述高位待合成目标单元的各个位数对应的语音样本,作为所述高位待合成目标单元的语音样本;
在所述数字语音库中匹配多个包含所述低位待合成目标单元的各个位数的数字的候选语音样本,在多个所述候选语音样本中确定所述低位待合成目标单元的语音样本。
可选地,所述语音样本确定模块303具体用于:
将所述数字语音库的所述基准数字位确定为所述待合成目标数字的基准数字位,获取所述待合成目标数字的基准数字位对应的第一数字;
选取所述基准数字位对应的数字为所述第一数字的所述候选语音样本,将选取后的所述候选语音样本确定为所述低位待合成目标单元的语音样本。
可选地,还包括语音样本对称模块:所述数字语音库中的语音样本的高位数字和低位数字以所述基准数字位为对称轴呈相互对称关系。
本发明实施例中,获取待合成目标数字,根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元,在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元;其中,数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的样本数字的数字位数为奇数,且以奇数位数的中间数所对应的数字位为基准数字位,样本数字中低于基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于基准数字位的高位数字部分中的数字位所对应的数字值一一对应,利用语音单元合成所述待合成目标数字的语音。本发明通过使用对样本数字的高位数字和低位数字具有对应关系的限制来大大减少语音样本的数量,提高了语音合成的工作效率,且根据将待合成目标数字确定的待合成目标数字单元对应的语音样本合成待合成目标数字的语音,提高了语音合成质量。
本申请实施例提供的语音合成方法装置能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
实施例3
图4为本公开另一实施例提供的语音合成装置的示意图,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:处理器410;以及存储器420,与处理器410连接,用于为处理器410提供处理以下处理步骤的指令:
根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个所述待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元;
在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元;其中,所述数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的所述样本数字的数字位数为奇数,且以所述奇数位数的中间数所对应的数字位为基准数字位,所述样本数字中低于所述基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于所述基准数字位的高位数字部分中的数字位所对应的数字值一一对应;
利用所述语音单元合成所述待合成目标数字的语音。
根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,包括:
根据所述基准数字位将所述待合成目标数字的语音分割成两个所述待合成目标数字单元。
可选地,在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元,包括:
根据所述待合成目标单元包含的各个位数的数字,在所述数字语音库中确定包含所述各个位数的数字的语音样本;
在所述语音样本中截取与对应的所述待合成目标单元的语音单元。
可选地,其特征在于,根据所述待合成目标单元包含的各个位数的数字,在所述数字语音库中确定包含所述各个位数的数字的语音样本,包括:
在所述数字语音库中匹配包含所述高位待合成目标单元的各个位数对应的语音样本,作为所述高位待合成目标单元的语音样本;
在所述数字语音库中匹配多个包含所述低位待合成目标单元的各个位数的数字的候选语音样本,在多个所述候选语音样本中确定所述低位待合成目标单元的语音样本。
可选地,在所述数字语音库中匹配多个包含所述低位待合成目标单元的各个位数的数字的候选语音样本,在多个所述候选语音样本中确定所述低位待合成目标单元的语音样本,包括:
将所述数字语音库的所述基准数字位确定为所述待合成目标数字的基准数字位,获取所述待合成目标数字的基准数字位对应的第一数字;
选取所述基准数字位对应的数字为所述第一数字的所述候选语音样本,将选取后的所述候选语音样本确定为所述低位待合成目标单元的语音样本。
可选地,该装置还包括:所述数字语音库中的语音样本的高位数字和低位数字以所述基准数字位为对称轴呈相互对称关系。
本发明实施例中,获取待合成目标数字,根据预设规则确定合成待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元,在预先录制的数字语音库中分别确定与待合成目标数字单元对应的语音样本,并从语音样本中截取待合成目标数字的语音单元;其中,数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的样本数字的数字位数为奇数,且以奇数位数的中间数所对应的数字位为基准数字位,样本数字中低于基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于基准数字位的高位数字部分中的数字位所对应的数字值一一对应,利用语音单元合成所述待合成目标数字的语音。本发明通过使用对样本数字的高位数字和低位数字具有对应关系的限制来大大减少语音样本的数量,提高了语音合成的工作效率,且根据将待合成目标数字确定的待合成目标数字单元对应的语音样本合成待合成目标数字的语音,提高了语音合成质量。
本申请实施例提供的语音合成装置能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种语音合成方法,应用在多位数字领域,其特征在于,包括:
获取待合成目标数字;
根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个所述待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元;
在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元;其中,所述数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的所述样本数字的数字位数为奇数,且以所述奇数位数的中间数所对应的数字位为基准数字位,所述样本数字中低于所述基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于所述基准数字位的高位数字部分中的数字位所对应的数字值一一对应;
利用所述语音单元合成所述待合成目标数字的语音。
2.根据权利要求1所述的方法,其特征在于,根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,包括:
根据所述基准数字位将所述待合成目标数字的语音分割成两个所述待合成目标数字单元。
3.根据权利要求1所述的方法,其特征在于,在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元,包括:
根据所述待合成目标单元包含的各个位数的数字,在所述数字语音库中确定包含所述各个位数的数字的语音样本;
在所述语音样本中截取与对应的所述待合成目标单元的语音单元。
4.根据权利要求3所述的方法,其特征在于,根据所述待合成目标单元包含的各个位数的数字,在所述数字语音库中确定包含所述各个位数的数字的语音样本,包括:
在所述数字语音库中匹配包含所述高位待合成目标单元的各个位数对应的语音样本,作为所述高位待合成目标单元的语音样本;
在所述数字语音库中匹配多个包含所述低位待合成目标单元的各个位数的数字的候选语音样本,在多个所述候选语音样本中确定所述低位待合成目标单元的语音样本。
5.根据权利要求4所述的方法,其特征在于,在所述数字语音库中匹配多个包含所述低位待合成目标单元的各个位数的数字的候选语音样本,在多个所述候选语音样本中确定所述低位待合成目标单元的语音样本,包括:
将所述数字语音库的所述基准数字位确定为所述待合成目标数字的基准数字位,获取所述待合成目标数字的基准数字位对应的第一数字;
选取所述基准数字位对应的数字为所述第一数字的所述候选语音样本,将选取后的所述候选语音样本确定为所述低位待合成目标单元的语音样本。
6.根据权利要求1所述的方法,其特征在于,还包括:所述数字语音库中的语音样本的高位数字和低位数字以所述基准数字位为对称轴呈相互对称关系。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至6中任意一项所述的语音合成方法。
8.一种语音合成装置,其特征在于,包括:
目标数字获取模块,用于获取待合成目标数字;
数字单元确定模块,用于根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个所述待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元;
语音样本确定模块,用于在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元;其中,所述数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的所述样本数字的数字位数为奇数,且以所述奇数位数的中间数所对应的数字位为基准数字位,所述样本数字中低于所述基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于所述基准数字位的高位数字部分中的数字位所对应的数字值一一对应;
数字语音合成模块,用于利用所述语音单元合成所述待合成目标数字的语音。
9.根据权利要求8所述的装置,其特征在于,所述语音样本确定模块具体用于:
根据所述待合成目标单元包含的各个位数的数字,在所述数字语音库中确定包含所述各个位数的数字的语音样本;
在所述语音样本中截取与对应的所述待合成目标单元的语音单元。
10.一种语音合成装置,其特征在于,包括:
处理器;以及
存储器,与所述第一处理器连接,用于为所述第一处理器提供处理以下处理步骤的指令:
获取待合成目标数字;
根据预设规则确定合成所述待合成目标数字的语音所需要的两个待合成目标数字单元,其中两个所述待合成目标数字单元根据所在的位数分为低位待合成目标数字单元和高位待合成目标数字单元;
在预先录制的数字语音库中分别确定与所述待合成目标数字单元对应的语音样本,并从所述语音样本中截取待合成目标数字的语音单元;其中,所述数字语音库中的语音样本所对应的样本数字满足以下条件:最大数值的所述样本数字的数字位数为奇数,且以所述奇数位数的中间数所对应的数字位为基准数字位,所述样本数字中低于所述基准数字位的低位数字部分中至少一部分数字位所对应的数字值与高于所述基准数字位的高位数字部分中的数字位所对应的数字值一一对应;
利用所述语音单元合成所述待合成目标数字的语音。
CN201911101329.6A 2019-11-12 2019-11-12 一种语音合成方法、装置和介质 Active CN112863475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911101329.6A CN112863475B (zh) 2019-11-12 2019-11-12 一种语音合成方法、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911101329.6A CN112863475B (zh) 2019-11-12 2019-11-12 一种语音合成方法、装置和介质

Publications (2)

Publication Number Publication Date
CN112863475A true CN112863475A (zh) 2021-05-28
CN112863475B CN112863475B (zh) 2022-08-16

Family

ID=75984599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911101329.6A Active CN112863475B (zh) 2019-11-12 2019-11-12 一种语音合成方法、装置和介质

Country Status (1)

Country Link
CN (1) CN112863475B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000356998A (ja) * 1999-06-15 2000-12-26 Toshiba Tec Corp 音声認識装置
US20050137870A1 (en) * 2003-11-28 2005-06-23 Tatsuya Mizutani Speech synthesis method, speech synthesis system, and speech synthesis program
CN1755795A (zh) * 2004-09-30 2006-04-05 松下电器产业株式会社 构造汉字数字音库的方法、汉语数字串合成系统和方法
CN107644637A (zh) * 2017-03-13 2018-01-30 平安科技(深圳)有限公司 语音合成方法和装置
CN108320740A (zh) * 2017-12-29 2018-07-24 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108417200A (zh) * 2018-02-27 2018-08-17 湖南世杰信息技术有限公司 语音合成播报方法和装置
CN109086026A (zh) * 2018-07-17 2018-12-25 阿里巴巴集团控股有限公司 播报语音的确定方法、装置和设备
CN109448732A (zh) * 2018-12-27 2019-03-08 科大讯飞股份有限公司 一种数字串语音处理方法及装置
CN109995939A (zh) * 2019-03-25 2019-07-09 联想(北京)有限公司 信息处理方法和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000356998A (ja) * 1999-06-15 2000-12-26 Toshiba Tec Corp 音声認識装置
US20050137870A1 (en) * 2003-11-28 2005-06-23 Tatsuya Mizutani Speech synthesis method, speech synthesis system, and speech synthesis program
CN1755795A (zh) * 2004-09-30 2006-04-05 松下电器产业株式会社 构造汉字数字音库的方法、汉语数字串合成系统和方法
CN107644637A (zh) * 2017-03-13 2018-01-30 平安科技(深圳)有限公司 语音合成方法和装置
CN108320740A (zh) * 2017-12-29 2018-07-24 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108417200A (zh) * 2018-02-27 2018-08-17 湖南世杰信息技术有限公司 语音合成播报方法和装置
CN109086026A (zh) * 2018-07-17 2018-12-25 阿里巴巴集团控股有限公司 播报语音的确定方法、装置和设备
CN109448732A (zh) * 2018-12-27 2019-03-08 科大讯飞股份有限公司 一种数字串语音处理方法及装置
CN109995939A (zh) * 2019-03-25 2019-07-09 联想(北京)有限公司 信息处理方法和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
UDDIN, MIR ASHRAF ET AL.: "Phoneme based Bangla Text to Speech Conversion", 《2015 18TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION TECHNOLOGY (ICCIT)》 *
向晖: "数字语音识别与合成", 《电子世界》 *
张鹏等: "基于韵律匹配代价和韵律拼接代价的汉语语音合成", 《哈尔滨工业大学学报》 *

Also Published As

Publication number Publication date
CN112863475B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN105391811A (zh) 域名解析方法、应用服务器的访问方法及其终端
CN104217169A (zh) 一种加密推荐方法及装置、终端
CN109347938B (zh) 一种流量监控方法、电话手表、移动终端及服务器
CN112784155A (zh) 匹配服务方的方法、装置以及存储介质
CN105187092A (zh) 一种减少移动通信的干扰信号的方法和装置
CN114398672A (zh) 基于权限的流程创建方法、装置以及存储介质
CN110175240B (zh) 与虚拟机器人外呼流程相关的知识图谱的构建方法及装置
CN108037976A (zh) 一种门户模板的智能匹配方法、介质以及设备
CN110941634A (zh) 数据的处理方法及装置、存储介质和电子装置
KR20190017395A (ko) 자동 셀 병합 기능이 구비된 데이터 관리 서비스 제공 방법 및 이를 수행하는 서비스 제공 서버
CN112863475B (zh) 一种语音合成方法、装置和介质
CN111340911A (zh) 确定k线图中的连线的方法、装置以及存储介质
CN107800816B (zh) 一种ip地址数据库建立方法及终端设备
CN111026047B (zh) 软件的配置方法及装置
CN112560555A (zh) 扩充关键点的方法、装置以及存储介质
CN113918775B (zh) 数据查询方法、装置和电子设备
CN110222286A (zh) 信息获取方法、装置、终端和计算机可读存储介质
CN110278565A (zh) 一种基站设计方法及装置
CN104536887A (zh) 通讯数据检测方法和装置
CN106446110B (zh) 一种终端搬家连接安全性的实现方法及装置
CN110597574A (zh) 账户的匹配方法、装置以及存储介质
CN110609781A (zh) 接口测试方法、装置以及存储介质
CN113194045A (zh) 数据流量分析方法、装置、存储介质及处理器
CN114970808A (zh) 神经网络的量化方法和装置、存储介质及处理器
CN106484506B (zh) 一种终端搬家中文件存储路径选择方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant