CN110211562B - 一种语音合成的方法、电子设备及可读存储介质 - Google Patents

一种语音合成的方法、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110211562B
CN110211562B CN201910484845.5A CN201910484845A CN110211562B CN 110211562 B CN110211562 B CN 110211562B CN 201910484845 A CN201910484845 A CN 201910484845A CN 110211562 B CN110211562 B CN 110211562B
Authority
CN
China
Prior art keywords
phonetic notation
phonetic
played
text data
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910484845.5A
Other languages
English (en)
Other versions
CN110211562A (zh
Inventor
徐建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shanghai Robotics Co Ltd
Original Assignee
Cloudminds Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Robotics Co Ltd filed Critical Cloudminds Robotics Co Ltd
Priority to CN201910484845.5A priority Critical patent/CN110211562B/zh
Publication of CN110211562A publication Critical patent/CN110211562A/zh
Application granted granted Critical
Publication of CN110211562B publication Critical patent/CN110211562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及音频处理领域,公开了一种语音合成的方法、电子设备及可读存储介质。本发明中语音合成的方法,包括:获取待播放文本数据的初始注音信息,初始注音信息是基于待播放文本数据所属语言种类对应的初始注音标准确定;根据初始注音信息以及预设的注音标准,确定待播放文本数据的注音信息;根据待播放文本数据的注音信息以及预设的语音合成模型,确定待播放文本数据的语音播放文件,其中,语音合成模型根据训练数据训练获得,训练数据基于预设的注音标准确定。本实施方式,能够快速合成任意语言种类的语音文件,减小语音合成的成本。

Description

一种语音合成的方法、电子设备及可读存储介质
技术领域
本发明实施例涉及音频处理领域,特别涉及一种语音合成的方法、电子设备及可读存储介质。
背景技术
随着科技的不断进步,出现了各种自主发声的电子设备,例如,智能机器人、导航设备等。自主发声的电子设备通常利用语音合成技术将待输出的文字以语音的形式播放。
在语音合成的过程中,通常是将待输出的文本按照该文本的语言种类所对应的注音标准注音,将注音信息输入语音合成模型,由语音合成模型将注音信息转换为数字化编码进行语音识别,进而得到待播放的语音文件。
发明人发现相关技术中至少存在如下问题:目前不同语言种类的语音通常需要与该输入的文本数据的语言种类所对应的语音合成模型合成,即每种语言对应的语音合成模型需要单独设计;增加了语音合成的成本。
发明内容
本发明实施方式的目的在于提供一种语音合成的方法、电子设备及可读存储介质,能够快速合成任意语言种类的语音文件,减小语音合成的成本。
为解决上述技术问题,本发明的实施方式提供了一种语音合成的方法,包括:获取待播放文本数据的初始注音信息,初始注音信息是基于待播放文本数据所属语言种类对应的初始注音标准确定;根据初始注音信息以及预设的注音标准,确定待播放文本数据实际的注音信息;根据实际的注音信息以及预设的语音合成模型,确定待播放文本数据的语音播放文件,其中,语音合成模型根据训练数据训练获得,训练数据基于预设的注音标准确定。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的语音合成的方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述的语音合成的方法。
本发明实施方式相对于现有技术而言,通过将待播放文本数据的初始注音信息转换为基于预设的注音标准的实际的注音信息,根据待播放文本数据实际的注音信息和预设的语音合成模型,即可生成对应的语音文件,从而使得即使每次获取的待播放文本数据的所属语言种类不同,但是依然可以使用同一个语音合成模型,而无需使用与待播放文本数据所属语言种类一一对应的语音合成模型,减少了语音合成模型的数量,降低了语音合成的成本,同时增大了可应用的范围。
另外,根据初始注音信息以及预设的注音标准,确定待播放文本数据实际的注音信息,具体包括:获取第一音标集合与预设音标集合之间的第一对应关系,第一音标集合为基于初始注音标准的音标编码集合,预设音标集合为基于预设的注音标准对应的音标编码集合;按照第一对应关系,将初始注音信息转换为实际的注音信息。由于预先构建了预设音标集合与第一音标集合之间的第一对应关系,根据待播放文本数据所属语言种类对应的初始注音标准,可快速获取该第一对应关系,从而快速实现对初始注音信息的转换。
另外,待播放文本数据所属语言种类包括N种,初始注音标准包括N种语言种类各自对应的注音标准,N为大于1的整数。待播放文本数据所属语言种类包括多种,使得该方法也同样适用于存在多种语言种类的待播放文本数据的语音合成,而无需使用多个语音合成模型,进一步减小语音合成的成本。
另外,根据初始注音信息以及预设的注音标准,确定待播放文本数据实际的注音信息,具体包括:获取初始注音信息中N个第一注音信息,第一注音信息是基于待播放文本数据中对应文本字段的语言种类对应的注音标准确定;按照N个文本字段的排列顺序组合每个文本字段各自对应的注音信息,获得实际的注音信息;其中,每个文本字段各自对应的注音信息的确定过程为:获取第二音标集合与预设音标集合之间的第二对应关系;按照第二对应关系,将文本字段对应的第一注音信息转换为文本字段对应的注音信息;第二音标集合为基于文本字段对应的注音标准的音标编码集合,预设音标集合为基于预设的注音标准对应的音标编码集合。在待播放文本数据所属语言种类有多种时,分别对初始注音信息中的各第一注音信息进行转换,从而使得无论该初始注音信息中包括多少个第一注音信息,也都能以同一个预设的注音标准进行注音,从而减少了多语言种类语音合成的复杂度,减小了语音合成的成本。
另外,训练数据包括:基于预设的注音标准的训练注音信息,以及与训练注音信息对应的训练频谱数据。训练数据是基于预设的注音标准确定,使得仅需要一套训练数据,而无需获取每种语言种类所对应的训练数据,减小了获取训练数据的成本。
另外,根据实际的注音信息以及预设的语音合成模型,确定待播放文本数据的语音播放文件,具体包括:将待播放文本数据的注音信息输入预设的语音合成模型,获得与待播放文本数据的注音信息所对应的频谱数据;根据频谱数据,生成预设数据格式的语音文件。根据频谱数据,可以生成预设数据格式的语音文件,使得适用于各种语音播放格式的电子设备。
另外,预设的音标集合包括:国际音标和/或国际扩展音标。
另外,在获取待播放文本数据的初始注音信息之前,语音合成的方法还包括:识别待播放文本数据所属语言种类;根据所属语言种类,确定初始注音标准;按照初始注音标准,对待播放文本数据进行注音,获得初始注音信息。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式提供的一种语音合成的方法的具体流程图;
图2是根据本发明第二实施方式中一种确定待播放文本数据实际的注音信息的具体实现示意图;
图3是根据本发明第三实施方式提供的一种电子设备的具体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种语音合成的方法。该语音合成的方法可以应用于电子设备中,例如,智能机器人、安装有读书应用软件的电子设备等。也可以应用于服务器设备,该语音合成的方法的具体流程如图1所示。
步骤101:获取待播放文本数据的初始注音信息,初始注音信息是基于待播放文本数据所属语言种类对应的初始注音标准确定。
具体的说,可以根据情景需要生成待播放文本数据,例如,智能机器人可以根据交互对象的语言、动作确定待播放文本数据;还可以是获取用户通过输入界面输入的文本数据,例如,输入待播报的名字等。
待播放文本数据所属语言种类可以一种,也可以两种以上,本实施方式以待播放文本数据所属语言种类为一种的情况进行说明。
需要说明的是,在获取待播放文本数据的初始注音信息之前,识别待播放文本数据所属语言种类;根据所属语言种类,确定初始注音标准;按照初始注音标准,对待播放文本数据进行注音,获得初始注音信息。
具体的说,在确定了该待播放文本数据所属语言种类后,根据语言种类,即可获取该语言种类对应的注音标准,并将该语言种类对应的注音标准作为初始注音标准;例如,若待播放文本数据所属语言种类为中文,则确定初始注音标准为《汉语拼音方案的通用键盘表示规范》,若所属语言种类为日语,则初始注音标准可以为五十音图的注音标准。按照该初始注音标准,对待播放文本进行注音,得到该待播放文本数据的初始注音信息;例如,中文“天气”按照初始注音标准进行注音,得到该初始注音信息“tian1qi4”,其中,1表示“天”的音调,4表示“气”的音调。
步骤102:根据初始注音信息以及预设的注音标准,确定待播放文本数据实际的注音信息。
一个具体的实现中,获取第一音标集合与预设音标集合之间的第一对应关系,第一音标集合为基于初始注音标准的音标编码集合,预设音标集合为基于预设的注音标准对应的音标编码集合;按照第一对应关系,将初始注音信息转换为待播放文本数据的注音信息。
具体的说,预设的注音标准选择国际音标的注音标准、或者国际扩展音标注音标准,或者国际音标的注音标准和国际扩展音标注音标准的结合。基于该预设的注音标准对应的预设的音标集合包括:国际音标和/或国际扩展音标。
为了便于将初始注音信息转换为基于预设的注音标准注音的实际的注音信息,可以预先构建第一音标集合与预设音标集合之间的第一对应关系,从而使得在获取了第一对应关系后,任意的第一音标集合中的第一音标都可以转换为预设音标集合中的预设音标。按照第一对应关系,即可将初始注音信息中的每个初始音标转换为预设音标,从而获得该待播放文本数据实际的注音信息。
可以根据该待播放文本数据所属语言种类,确定对应的初始注音标准,根据该初始注音标准,即可确定第一音标集合,进而查找该第一音标集合与预设音标集合之间第一对应关系。可以理解的是,在存储第一对应关系时,可以使用与初始注音标准对应的语言种类为键值,键值用于查找第一对应关系,在获知该待播放文本数据所属语言种类后,即可根据语言种类获取与该语言种类对应的第一对应关系。以上两种获取第一对应关系的方式仅为举例说明,实际应用中该可以采用其他的方式。
步骤103:根据实际待播放文本数据的注音信息以及预设的语音合成模型,确定待播放文本数据的语音播放文件,其中,语音合成模型根据训练数据训练获得,训练数据基于预设的注音标准确定。
具体的说,用于训练语音合成模型的训练数据包括:基于预设的注音标准的训练注音信息,以及与训练注音信息对应的训练频谱数据。训练的过程为:通过调整语音合成模型中的参数,以使调整后的语音合成模型生成的频谱数据与训练注音信息对应的训练频谱数据无限接近。下面介绍该语音合成模型的训练过程:
将预设音标集合中的音标数据加载至初始语音合成模型中,该初始语音合成模型生成频谱数据,其中,初始语音合成模型为预先构建的模型,将该生成的频谱数据与训练注音信息对应的训练频谱数据进行比较,比较得到的差值用于更新该初始语音合成模型的参数;此外,选取训练数据以外的待训练文本数据,加载至该初始语音合成模型,可以验证该生成的频谱数据是否准确,根据验证的频谱数据的质量,继续调整该初始语音合成模型,重复上述的操作,直至生成的频谱数据与训练注音信息对应的训练频谱数据无限接近,即将该初始语音合成模型作为语音合成模型,结束训练。
在训练获得语音合成模型之后,将待播放文本数据的注音信息输入预设的语音合成模型,获得与待播放文本数据的注音信息所对应的频谱数据;根据频谱数据,生成预设数据格式的语音文件。生成的频谱数据通过声码器即可转换为预设数据格式的语音文件。
值得一提的是,语音合成模型可以将输入的实际的注音信息转换数字编码,进而识别实际的注音信息中的每个音标,例如,可以通过如表1所示的《国际音标符码表》将实际的注音信息转换为数字编码。
Figure BDA0002085058840000061
表1
本发明实施方式相对于现有技术而言,通过将待播放文本数据的初始注音信息转换为基于预设的注音标准的实际的注音信息,根据待播放文本数据实际的注音信息和预设的语音合成模型,即可生成对应的语音文件,从而使得即使每次获取的待播放文本数据的所属语言种类不同,但是依然可以使用同一个语音合成模型,而无需使用与待播放文本数据所属语言种类一一对应的语音合成模型,减少了语音合成模型的数量,降低了语音合成的成本,同时增大了可应用的范围。
本发明第二实施方式涉及一种语音合成的方法,该语音合成的方法包括:获取待播放文本数据的初始注音信息;根据初始注音信息以及预设的注音标准,确定待播放文本数据实际的注音信息;根据实际的注音信息以及预设的语音合成模型,确定待播放文本数据的语音播放文件。
第二实施方式是第一实施方式中步骤102的另一种情况的实现方式,主要区别之处在于:在第一实施方式中,待播放文本数据所属语言种类的数目为1;而在本发明第二实施方式中,待播放文本数据所属语言种类包括N种,初始注音标准包括N种语言种类各自对应的注音标准,N为大于1的整数,则本实施方式中确定待播放文本数据实际的注音信息的具体过程如图2所示。
步骤201:获取初始注音信息中N个第一注音信息,第一注音信息是基于待播放文本数据中对应文本字段的语言种类对应的注音标准确定。
具体的说,由于该待播放文本数据所属语言种类有多种,则该播放文本数据的初始注音标准包括该待播放文本数据所属语言种类中每种语言种类各自对应的注音标准,例如,待播放文本数据为“我会用英语说hello word”,则该待播放文本数据所属语言种类包括2种语言种类,分别为中文和英文,则该初始注音标准即包括中文注音标准以及英文注音标准。同理,该初始注音信息中包括基于每种注音标准对该待播放文本数据注音的注音信息。
需要说明的是,为了便于获取该初始注音信息,可以预先将该待播放文本数据按照语言种类,划分为N个文本字段,N为该待播放文本数据所属语言种类的数目。例如,待播放文本数据为“我会用英语说hello word”,则将该待播放文本数据划分为2个文本字段,分别为“我会用英语说”和“hello word”。分别对每个文本字段进行注音,得到N个第一注音信息,组合每个文本字段的第一注音信息,构成该待播放文本数据的初始注音信息。例如,“我会用英语说”为文本字段1和“hello word”文本字段2;按照中文注音标准对该文本字段1注音,得到该文本字段1的第一注音信息A,按照英文注音标准对文本字段2注音,得到文本字段2的第一注音信息B,按照待播放文本数据中文本字段的排列顺序,组合该第一注音信息A和第一注音信息B,并将组合后的注音信息作为初始注音信息。
步骤202:按照N个文本字段的排列顺序组合每个文本字段各自对应的注音信息,获得实际的注音信息。
一个具体的实现中,每个文本字段各自对应的注音信息的确定过程为:获取第二音标集合与预设音标集合之间的第二对应关系;按照第二对应关系,将文本字段对应的第一注音信息转换为文本字段对应的注音信息;第二音标集合为基于文本字段对应的注音标准的音标编码集合,预设音标集合为基于预设的注音标准对应的音标编码集合。
具体的说,本实施方式中,预设音标集合与第一实施方式中的预设音标集合类似,此处不再进行赘述,第二音标集合为基于当前文本字段对应的注音标准的音标的集合。第二对应关系如第一实施方式类似,可以预先存储,并根据当前文本字段的语言种类,确定出该第二对应关系,按照该第二对应关系,即可将文本字段的第一注音信息转换为该文本字段的注音信息。
本实施方式提供的语音合成的方法,目前的语音合成技术,若待播放文本数据中包括多个语言种类,在合成语音时,需要按照每个语言种类对该待播放文本数据进行拆分,分别对每个语种对应的文本进行语音合成,再拼接成一句完整的语音,导致语音合成繁琐、合成成本高、速度慢,而本实施方式中若待播放文本数据所属语言种类包括多种,可以使用预设的注音标准对该待播放文本数据进行标注,得到实际的注音标准,进而根据该实际注音标准生成语音文件,使得即使出现了多种语言种类,依然可以使用同一个预设的注音标准进行注音,仅需要一个语音合成模型用于生成语音文件,进一步扩展了该语音合成方法的应用范围,降低了语音合成的成本。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种电子设备,该电子设备30的具体结构如图3所示,包括:至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行第一实施方式或第二实施方式的语音合成的方法。
其中,存储器302和处理器301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器301和存储器302的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器301。
处理器301负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第四实施方式涉及一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现第一实施方式或第二实施方式的语音合成的方法。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (7)

1.一种语音合成的方法,其特征在于,包括:
获取待播放文本数据的初始注音信息,所述初始注音信息是基于所述待播放文本数据所属语言种类对应的初始注音标准确定,所述待播放文本数据所属语言种类包括N种,所述初始注音标准包括N种语言种类各自对应的注音标准,N为大于1 的整数;
根据所述初始注音信息以及预设的注音标准,确定所述待播放文本数据实际的注音信息,所述预设的注音标准为国际音标的注音标准、或者国际扩展音标注音标准,或者国际音标的注音标准和国际扩展音标注音标准的结合;
根据所述实际的注音信息以及预设的语音合成模型,确定所述待播放文本数据的语音播放文件,其中,所述语音合成模型根据训练数据训练获得,所述训练数据基于所述预设的注音标准确定;
所述根据所述初始注音信息以及预设的注音标准,确定所述待播放文本数据实际的注音信息,具体包括:
获取所述初始注音信息中N个第一注音信息,所述第一注音信息是基于所述待播放文本数据中对应文本字段的语言种类对应的注音标准确定;
按照N个文本字段的排列顺序组合每个所述文本字段各自对应的注音信息,获得所述实际的注音信息;
其中,每个所述文本字段各自对应的注音信息的确定过程为:获取第二音标集合与预设音标集合之间的第二对应关系;按照所述第二对应关系,将所述文本字段对应的第一注音信息转换为所述文本字段对应的注音信息;所述第二音标集合为基于所述文本字段对应的注音标准的音标编码集合,所述预设音标集合为基于所述预设的注音标准对应的音标编码集合。
2.根据权利要求1所述的语音合成的方法,其特征在于,所述训练数据包括:基于所述预设的注音标准的训练注音信息,以及与所述训练注音信息对应的训练频谱数据。
3.根据权利要求2所述的语音合成的方法,其特征在于,所述根据所述实际的注音信息以及预设的语音合成模型,确定所述待播放文本数据的语音播放文件,具体包括:
将所述待播放文本数据的注音信息输入所述预设的语音合成模型,获得与所述待播放文本数据的注音信息所对应的频谱数据;
根据所述频谱数据,生成预设数据格式的语音文件。
4.根据权利要求1至3中任一项所述的语音合成的方法,其特征在于,所述预设的音标集合包括:国际音标和/或国际扩展音标。
5.根据权利要求1所述的语音合成的方法,其特征在于,在获取待播放文本数据的初始注音信息之前,所述语音合成的方法还包括:
识别所述待播放文本数据所属语言种类;
根据所述所属语言种类,确定所述初始注音标准;
按照所述初始注音标准,对所述待播放文本数据进行注音,获得所述初始注音信息。
6.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至 5中任一所述的语音合成的方法。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的语音合成的方法。
CN201910484845.5A 2019-06-05 2019-06-05 一种语音合成的方法、电子设备及可读存储介质 Active CN110211562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910484845.5A CN110211562B (zh) 2019-06-05 2019-06-05 一种语音合成的方法、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910484845.5A CN110211562B (zh) 2019-06-05 2019-06-05 一种语音合成的方法、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110211562A CN110211562A (zh) 2019-09-06
CN110211562B true CN110211562B (zh) 2022-03-29

Family

ID=67790867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910484845.5A Active CN110211562B (zh) 2019-06-05 2019-06-05 一种语音合成的方法、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110211562B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009233A (zh) * 2019-11-20 2020-04-14 泰康保险集团股份有限公司 语音处理方法、装置、电子设备及存储介质
CN111179904B (zh) * 2019-12-31 2022-12-09 出门问问创新科技有限公司 混合文语转换方法及装置、终端和计算机可读存储介质
CN111160044A (zh) * 2019-12-31 2020-05-15 出门问问信息科技有限公司 文语转换方法及装置、终端和计算机可读存储介质
CN112382287B (zh) * 2020-11-11 2024-07-26 北京百度网讯科技有限公司 语音交互方法、装置、电子设备和存储介质
CN112365876B (zh) * 2020-11-27 2022-04-12 北京百度网讯科技有限公司 语音合成模型的训练方法、装置、设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731510A (zh) * 2004-08-05 2006-02-08 摩托罗拉公司 混合语言文语转换
CN1801321A (zh) * 2005-01-06 2006-07-12 台达电子工业股份有限公司 文字转语音的系统与方法
CN1879147A (zh) * 2003-12-16 2006-12-13 洛昆多股份公司 文本到语音转换方法和系统、及其计算机程序产品
CN101785048A (zh) * 2007-08-20 2010-07-21 微软公司 基于hmm的双语(普通话-英语)tts技术
CN102543069A (zh) * 2010-12-30 2012-07-04 财团法人工业技术研究院 多语言的文字转语音合成系统与方法
CN105989833A (zh) * 2015-02-28 2016-10-05 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及系统
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
TWI362017B (en) * 2007-12-07 2012-04-11 Chyong Wen Jang Intelligent conversion method with system for chinese and the international phonetic alphabet pa
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US10521511B2 (en) * 2010-12-02 2019-12-31 Accessible Publishing Systems Pty Ltd Text conversion and representation system
CN104239579B (zh) * 2014-10-11 2017-05-31 北京千钰千寻科技有限公司 构建多语言音标数据库的方法、多语言注音的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1879147A (zh) * 2003-12-16 2006-12-13 洛昆多股份公司 文本到语音转换方法和系统、及其计算机程序产品
CN1731510A (zh) * 2004-08-05 2006-02-08 摩托罗拉公司 混合语言文语转换
CN1801321A (zh) * 2005-01-06 2006-07-12 台达电子工业股份有限公司 文字转语音的系统与方法
CN101785048A (zh) * 2007-08-20 2010-07-21 微软公司 基于hmm的双语(普通话-英语)tts技术
CN102543069A (zh) * 2010-12-30 2012-07-04 财团法人工业技术研究院 多语言的文字转语音合成系统与方法
CN105989833A (zh) * 2015-02-28 2016-10-05 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及系统
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统

Also Published As

Publication number Publication date
CN110211562A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110211562B (zh) 一种语音合成的方法、电子设备及可读存储介质
WO2020186778A1 (zh) 错词纠正方法、装置、计算机装置及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN111667814B (zh) 一种多语种的语音合成方法及装置
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN111539199B (zh) 文本的纠错方法、装置、终端、及存储介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN111243571A (zh) 文本的处理方法、装置、设备及计算机可读存储介质
CN113626563A (zh) 训练自然语言处理模型和自然语言处理的方法、电子设备
CN112509550A (zh) 语音合成模型训练方法、语音合成方法、装置及电子设备
CN114372140A (zh) 分层会议摘要生成模型训练方法、生成方法及装置
CN112530402B (zh) 一种语音合成方法、语音合成装置及智能设备
CN112487813A (zh) 命名实体识别方法及系统、电子设备及存储介质
CN111354339B (zh) 词汇音素表构建方法、装置、设备及存储介质
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统
CN107423293A (zh) 数据翻译的方法和装置
CN114464164A (zh) 语音合成方法、装置、可读介质及电子设备
CN109065016B (zh) 语音合成方法、装置、电子设备及非暂态计算机存储介质
KR101543024B1 (ko) 발음 기반의 번역 방법 및 그 장치
KR101982490B1 (ko) 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质
CN115512374A (zh) 针对表格文本的深度学习特征提取分类方法及装置
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
CN102918587B (zh) 能够将听写代号短语转录成标准词组的分层快速注解

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210207

Address after: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Applicant after: Dalu Robot Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: Shenzhen Qianhaida Yunyun Intelligent Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 201111 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Patentee after: Dayu robot Co.,Ltd.

Address before: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Patentee before: Dalu Robot Co.,Ltd.

CP03 Change of name, title or address