CN113763918A - 文本语音转化方法、装置、电子设备及可读存储介质 - Google Patents
文本语音转化方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113763918A CN113763918A CN202110946429.XA CN202110946429A CN113763918A CN 113763918 A CN113763918 A CN 113763918A CN 202110946429 A CN202110946429 A CN 202110946429A CN 113763918 A CN113763918 A CN 113763918A
- Authority
- CN
- China
- Prior art keywords
- text
- audio file
- attribute
- target voice
- temporary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000006243 chemical reaction Methods 0.000 title abstract description 29
- 230000008451 emotion Effects 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 8
- 244000025254 Cannabis sativa Species 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 239000004459 forage Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 2
- 208000002193 Pain Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 239000004577 thatch Substances 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010063659 Aversion Diseases 0.000 description 1
- 206010048909 Boredom Diseases 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 206010012335 Dependence Diseases 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 235000019788 craving Nutrition 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种文本语音转化方法、装置、电子设备及可读存储介质,其中,该方法包括:根据配置信息,为待处理文本配置目标语音属性,所述配置信息包括所述目标语音属性;获取语音数据库中所述待处理文本对应的音频文件;根据所述目标语音属性,播放所述音频文件。本申请通过为待处理文本配置相应的目标语音属性,使得通过语音属性实现对待处理文本的播放进行控制,以实现音频输出的声音富有人类情感,能够逼真的模拟人类的声音。
Description
技术领域
本申请涉及计算机语音转换领域,具体而言,涉及一种文本语音转化方法、装置、电子设备及可读存储介质。
背景技术
文本语音转换系统是将文本转化为语音输出的处理和方法的集合,文本语音处理系统的构架和方法直接影响输出语音的质量和灵活性。随着移动互联网和人工智能技术的快速发展,语音播报、听小说、听新闻、智能交互等一系列语音合成的场景越来越多。
目前,语音文本转化系统所生成的音频输出声音的缺陷有机械、冰冷、不自然、无人类感情,即使是应用最新的智能学习的算法,也依然和标准人类的声音有一些差异,能明显的分辨出来。逼真模拟人类声音的依然是目前文本语音转换领域的一大难点和重大挑战。
发明内容
有鉴于此,本申请实施例的目的在于提供一种文本语音转化方法、装置、电子设备及可读存储介质。能够解决目前文本语音转换领域难以逼真模拟人类声音这一问题。
第一方面,本申请实施例提供了一种文本语音转化方法,包括:根据配置信息,为待处理文本配置目标语音属性,所述配置信息包括所述目标语音属性;获取语音数据库中所述待处理文本对应的音频文件;根据所述目标语音属性,播放所述语音信息。
本申请实施例通过为待处理文本配置所需要的目标语音属性并匹配相应的音频文件将该待处理文本中的文字信息转化为语音信息进行播放,使得播放的语音信息具有人类情感,能够达到逼真模拟人类声音的目的。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中:所述根据配置信息,为待处理文本配置目标语音属性,包括:获取配置信息,所述配置信息中包括目标语言属性,所述目标语言属性为基本属性、性别属性、年龄属性、性格属性、情绪属性和状态属性中的一种或多种属性;根据所述配置信息,为所述待处理文本中的文字分别配置对应的所述目标语音属性。
本申请实施例通过将人类声音属性分为不同的语音属性,根据配置信息为待处理文本配置相应的目标语音属性,可以通过语音属性实现对播放的语音信息进行控制,实现了语音信息输入的多样性,使其能够更加逼真模拟人类声音。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中:所述根据配置信息,为待处理文本配置目标语音属性,包括:获取配置操作;根据所述配置操作确定出待处理文本中的文字信息对应的配置信息;根据所述配置信息,为待处理文本中的各个文字信息配置对应的目标语音属性;所述根据所述目标语音属性,播放所述音频文件,包括:根据所述待处理文本中的文字信息对应的目标语音属性,播放所述待处理文本中的文字信息对应的音频文件。
本申请实施例通过实现对待处理文本中的各个文字进行目标语音属性匹配,可以有选择的为不同情景下的语音信息匹配不同的目标语音属性,使得播放的每句语音信息都更加逼真,更加符合实际的语音情绪。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述待处理文本包括第一段文字和第二段文字,所述第一段文字对应的目标语音属性为第一语音属性模式,所述第二段文字对应的目标语音属性为第二语音属性模式;所述根据所述待处理文本中的文字信息对应的目标语音属性,播放所述待处理文本中的文字信息对应的音频文件,包括:以所述第一语音属性模式,播放所述第一段文字对应的音频文件;当播放至第二段文字对应的音频文件时,切换至所述第二语音属性模式,以所述第二语音属性模式,播放所述第二段文字对应的音频文件。
本申请实施例通过为待处理文本中的每一文字段匹配与其相应的每一语音属性模式,使得播放的每一段语音信息都符合实际的人类语音情绪。
结合第一方面的第三种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述获取语音数据库中所述待处理文本对应的音频文件之后,包括:生成临时音频文件,所述临时音频文件为一个或多个;将所述临时音频文件缓存于音频文件暂存区;所述根据所述目标语音属性,播放所述音频文件暂存区中缓存的所述临时音频文件。
本申请实施例通过将生成的一个或多个的临时音频文件缓存于音频文件暂存区,能够实现对多个临时音频文件的存储以利于后续的语音信息播放。
结合第一方面的第四种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述音频文件暂存区包括:多个临时音频文件,所述根据所述目标语音属性,播放所述音频文件暂存区中缓存的所述临时音频文件,包括:根据所述目标语音属性播放所述音频文件暂存区中缓存的第i临时音频文件,所述i为大于等于1,小于等于N-1的数值,所述N为所述音频文件暂存区中的临时音频文件数量;删除已播放的所述第i临时音频文件;根据所述目标语音属性播放所述音频文件暂存区中缓存的第i+1临时音频文件;删除已播放的所述第i+1临时音频文件;重复上述流程,直至删除所述音频文件暂存区中的所有临时音频文件。
本申请实施例通过及时删除播放的每一临时音频文件,减少音频文件暂存区中缓存的临时音频文件的数量,进而减少临时音频文件所占用的音频文件暂存区的内存,减轻系统的负担。
结合第一方面的第五种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述播放所述音频文件之后,包括:接收所述待处理文本的播放满意度评分;判断所述满意度评分是否超过设定阈值;若所述满意度评分低于所述设定阈值,根据更新后的配置信息调整所述待处理文本的目标语音属性。
本申请实施例通过根据播放满意评分对播放过的待处理文本根据更新后的配置信息调整与其相应的待处理文本目标语音属性,以达到模拟真实语音,超越真实语音的效果。
第二方面,本申请实施例还提供一种文本语音转化装置,包括:配置模块,用于根据配置信息,为待处理文本配置目标语音属性,所述配置信息包括所述目标语音属性;获取模块,用于获取语音数据库中所述待处理文本对应的音频文件;播放模块,用于根据所述目标语音属性,播放所述音频文件。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的任一种可能的实施方式中的方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的任一种可能的实施方式中文本语音转化方法的步骤。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的方框示意图;
图2为本申请实施例提供的文本语音转化方法的流程图;
图3为本申请实施例提供的文本语音转装置的功能模块示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
目前语音文本转化系统所生成的音频输出的声音机械、冰冷、不自然、无人类感情,基于此,本申请提供的一种文本语音转化方法、装置、电子设备及可读存储介质,可以解决利用计算机软件进行文本阅读时,音频输出声音的机械、冰冷、不自然、无人类感情的缺陷,同时逼真能模拟人类声音。
实施例一
为便于对本实施例进行理解,首先对执行本申请实施例所公开的一种文本语音转化方法进行详细介绍。
如图1所示,是电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
上述的存储器111、存储控制器112、处理器113、外设接口114及输入输出单元115各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。
其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。
上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中,外设接口114,处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
上述的输入输出单元115用于提供给用户输入数据。所述输入输出单元115可以是,但不限于,鼠标和键盘等。
本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述文本语音转化方法的实现过程。
实施例二
请参阅图2,是本申请实施例提供的文本语音转化方法的流程图。下面将对图2所示的具体流程进行详细阐述。
步骤201,根据配置信息,为待处理文本配置目标语音属性。
示例性地,该配置信息包括上述的目标语音属性。
可选地,该配置信息还可以包括段落标记、每个段落标记对应的目标语音属性。
可选地,该配置信息还可以包括行标记、每个行标记对应的目标语音属性。
可选地,该配置信息还可以包括句标记、每个句标记对应的目标语音属性。
具体地,获取配置信息。
可选地,该配置信息中包括目标语言属性,该目标语言属性为基本属性、性别属性、年龄属性、性格属性、情绪属性和状态属性中的一种或多种属性。
可选地,根据该配置信息为待处理文本配置相应的一种或多种该语音属性。
可选地,该语音属性包括:基本属性、性别属性、年龄属性、性格属性、情绪属性和状态属性等。
示例性地,该基本属性可以包括:频率、振幅、音长、无音、平调、升调、降调、平幅、升幅、降幅等基本属性;该性别属性可以包括:男性、女性、中性等性别属性;该年龄属性可以包括:0-6岁、7-12岁、13-17岁、18-32岁、33-45岁、46-69岁、>69岁等年龄段划分方式;该性格属性可以包括:正义、自强、认真、开朗、温柔、野蛮、泼辣、阴险、猥琐、邪恶、稳重、暴躁、内向、善良、大方、风趣、洒脱、孤僻、调皮、体贴、可爱、外向、善良、开放、积极、谨慎、懒惰、保守、吝啬、狭隘、文静、冷淡、冷酷、自卑、清高、憨厚、勤勉、豁达、贤淑、仗义,朴实、精明等性格分类方式;该情绪属性可以包括:平淡、钦佩、崇拜、欣赏、娱乐、焦虑、敬畏、尴尬、厌倦、冷静、困惑、渴望、厌恶、痛苦、着迷、嫉妒、兴奋、吃惊、恐惧、痛恨、有趣、高兴、快乐、怀旧、浪漫、悲伤、满意、性欲、同情、满足,以及其他的情绪分类方式;该状态属性可以包括:常态、寒冷、炎热、温暖、伤痛、病痛、虚弱、哭泣、运动、磕巴、沙哑、疲劳等状态属性。
可选地,不同语音属性对应的音频不同,多种语音属性的音频可以叠加。
示例性地,可以基于当前的待处理文字的类型获取对应的配置信息,例如,该待处理文字是历史类文字,该配置信息中的目标语音属性可以包括:男性、46-69岁、清高、冷静等属性。
示例性地,如该待处理文字是卡通类文字,该配置信息中的目标语音属性可以包括:女性、0-6岁、可爱、高兴、活泼等属性。
示例性地,如该待处理文字是对话类文字,该配置信息中的一种目标语音属性可以包括:平调、男性、18-32岁、正义、风趣、朴实等属性。该配置信息中的另一种目标语音属性可以包括:平调、女性、18-32岁、温柔、崇拜、文静等属性。
可选地,步骤201还包括:获取配置操作。
示例性地,该配置操作可以为显示待处理文本的显示界面中接收到的点选操作。
该配置操作还可以为显示待处理文本的显示界面中的文字接收对话框接收到的输入目标文字的操作。该目标文字中包括对语音属性的描述性文字。
该配置操作还可以为待处理文本的接收模块接收到的语音信息的操作,该语音包括对语音属性的描述。
根据所述配置操作确定出待处理文本中的文字信息对应的配置信息。
根据所述配置信息,为待处理文本中的各个文字信息配置对应的目标语音属性。
可选地,该文字信息可以为每个字、每个词组、每句文字、每段文字等。
示例性地,若该文字信息为每个字,则待处理文本中的每个字都可以设置与之对应的配置信息;若该文字信息为每个词组,则待处理文本中的每个词组都可以设置与之对应的配置信息;若该文字信息为每句文字,则待处理文本中的每句文字都可以设置与之对应的配置信息;若该文字信息为每段文字,则待处理文本中的每段文字都可以设置与之对应的配置信息。
可选地,该待处理文本包括第一段文字和第二段文字,所述第一段文字对应的语音属性为第一语音属性模式,所述第二段文字对应的语音属性为第二语音属性模式。
示例性地,以第一语音属性模式,播放第一段文字对应的音频文件,当播放至第二段文字对应的音频文件时,切换至第二语音属性模式,以第二语音属性模式,播放第二段文字对应的音频文件。
可选地,该待处理文本还包括第一句文字、第二句文字和第三句文字,所述第一句文字对应的语音属性为第一句语音属性模式,所述第二句文字对应的语音属性为第二句语音属性模式,所述第三句文字对应的语音属性为第三句语音属性模式。
示例性地,以第一句语音属性模式,播放第一句文字对应的音频文件,当播放至第二句文字对应的音频文件时,切换至第二句语音属性模式,以第二句语音属性模式,播放第二句文字对应的音频文件,当播放至第三句文字对应的音频文件时,切换至第三句语音属性模式,以第三句语音属性模式,播放第三句文字对应的音频文件。
可选地,该待处理文本还包括第一个文字、第二个文字和第三个文字,所述第一个文字对应的语音属性为第一个语音属性模式,所述第二个文字对应的语音属性为第二个语音属性模式,所述第三个文字对应的语音属性为第三个语音属性模式。
示例性地,以第一个语音属性模式,播放第一个文字对应的音频文件,当播放至第二个文字对应的音频文件时,切换至第二个语音属性模式,以第二个语音属性模式,播放第二个文字对应的音频文件,当播放至第三个文字对应的音频文件时,切换至第三个语音属性模式,以第三个语音属性模式,播放第三个文字对应的音频文件。
步骤202,获取语音数据库中所述待处理文本对应的音频文件。
可选地,该语音数据库中包括待处理文本文字对应的标准音频,根据待处理文本文字获取语音数据库中的与待处理文本对应的标准音频信息。
可选地,该语音数据库可以设置在终端设备,还可以设置在服务器。
可选地,步骤202之后,该文本语音转化方法还包括:生成临时音频文件,所述临时音频文件为一个或多个。
将所述临时音频文件缓存于音频文件暂存区。
根据所述目标语音属性,播放所述音频文件暂存区中缓存的所述临时音频文件。
可选地,该音频文件暂存区可以设置在待处理文本所在的系统,该音频文件暂存区还可以设置在音频播放语音数据库所在系统。
可选地,该临时音频文件包括:第一临时音频文件、第二临时音频文件。
示例性地,根据目标语音属性播放音频文件暂存区中缓存的第i临时音频文件,删除已播放的第i临时音频文件,根据目标语音属性播放音频文件暂存区中缓存的第i+1临时音频文件,删除已播放的第i+1临时音频文件,重复上述流程,直至删除音频文件暂存区中的所有临时音频文件。
可选地,i为大于等于1,小于等于N-1的数值,N为所述音频文件暂存区中的临时音频文件数量。
示例性地,若音频文件暂存区中缓存的临时音频文件为:“我们旅行到乡间,看到一位老农把喂牛的草料铲到一间小茅屋的屋檐上,不免感到奇怪,于是就问道:“老公公,你为什么不把喂牛的草放在地上,让它吃?”老农说:“这种草草质不好,我要是放在地上它就不屑一顾;但是我放到让它勉强可够得着的屋檐上,它会努力去吃,直到把全部草料吃个精光。”可以设置为,第1临时音频文件为:“我们旅行到乡间,看到一位老农把喂牛的草料铲到一间小茅屋的屋檐上,不免感到奇怪,于是就问道。”第2临时音频文件为:“老公公,你为什么不把喂牛的草放在地上,让它吃?”第3临时音频文件为:“老农说。”第4临时音频文件为:“这种草草质不好,我要是放在地上它就不屑一顾;但是我放到让它勉强可够得着的屋檐上,它会努力去吃,直到把全部草料吃个精光”。
则,播放音频文件暂存区中缓存的临时音频文件为:根据第1临时音频文件的目标语音属性播放音频文件暂存区中缓存的第1临时音频文件,删除已播放的第1临时音频文件;根据第2临时音频文件的目标语音属性播放音频文件暂存区中缓存的第2临时音频文件,删除已播放的第2临时音频文件;根据第3临时音频文件的目标语音属性播放音频文件暂存区中缓存的第3临时音频文件,删除已播放的第3临时音频文件;根据第4临时音频文件的目标语音属性播放音频文件暂存区中缓存的第4临时音频文件,删除已播放的第4临时音频文件。
步骤203,根据所述目标语音属性,播放所述音频文件。
可选地,步骤203,包括:根据待处理文本中的文字信息对应的目标语音属性,播放待处理文本中的文字信息对应的音频文件。
可选地,可以通过在音频播放器中完成语音信息的播放,还可以在待处理文本中完成语音信息的播放。
本实施例通过为待处理文本配置相应的语音属性,使得通过语音属性实现对待处理文本的音频播放进行控制,以实现音频输出的声音富有人类情感,能够逼真的模拟人类的声音。同时在播放完临时音频文件后及时将其删除,减少临时音频文件的内存占用。另外本申请通过对待处理文本进行处理和配置,而文本占用的内存小,便于传输,解决了音频文件在存储和传输过程中的数据量过大的问题。在存储和传输过程中使用语音属性文本文件,可以起到与音频相同的作用效果。从而节省了大量的存储和传输资源。促进了音频行业的有利发展。
实施例三
基于同一申请构思,本申请实施例中还提供了与文本语音转化方法对应的文本语音转化装置,由于本申请实施例中的装置解决问题的原理与前述的文本语音转化方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图3,是本申请实施例提供的文本语音转化装置的功能模块示意图。本实施例中的文本语音转化装置中的各个模块用于执行上述方法实施例中的各个步骤。文本语音转化装置包括配置模块301、获取模块302、播放模块303;其中,
配置模块301:用于根据配置信息,为待处理文本配置目标语音属性,所述配置信息包括所述目标语音属性。
获取模块302:用于获取语音数据库中所述待处理文本对应的音频文件。
播放模块303:用于根据所述目标语音属性,播放所述音频文件。
一种可能的实施方式中,配置模块301,还用于:获取配置信息,根据所述配置信息,为所述待处理文本中的文字分别配置对应的所述目标语音属性。
一种可能的实施方式中,配置模块301,还用于:获取配置操作,根据所述配置操作确定出待处理文本中的文字信息对应的配置信息,根据所述配置信息,为待处理文本中的各个文字信息配置对应的目标语音属性。
一种可能的实施方式中,播放模块303,具体用于:根据所述待处理文本中的文字信息对应的目标语音属性,播放所述待处理文本中的文字信息对应的音频文件。
一种可能的实施方式中,播放模块303,还用于:以所述第一语音属性模式,播放所述第一段文字对应的音频文件;当播放至第二段文字对应的音频文件时,切换至所述第二语音属性,以所述第二语音属性模式,播放所述第二段文字对应的音频文件。
一种可能的实施方式中,文本语音转化装置还包括:存储模块:用于生成临时音频文件,所述临时音频文件为一个或多个,将所述临时音频文件缓存于音频文件暂存区,根据所述目标语音属性,播放所述音频文件暂存区中缓存的所述临时音频文件。
一种可能的实施方式中,存储模块,还用于根据所述目标语音属性播放所述音频文件暂存区中缓存的所述第i临时音频文件,删除已播放的所述第i临时音频文件,根据所述目标语音属性播放所述音频文件暂存区中缓存的所述第i+1临时音频文件,删除已播放的所述第i+1临时音频文件,直至删除所述音频文件暂存区中的所有临时音频文件。
一种可能的实施方式中,配置模块301,还用于:接收所述待处理文本的播放满意度评分,判断所述满意度评分是否超过设定阈值,若所述满意度评分低于所述设定阈值,根据更新后的配置信息调整所述待处理文本的目标语音属性。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本语音转化方法的步骤。
本申请实施例所提供的文本语音转化方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的文本语音转化方法的步骤,具体可参见上述方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文本语音转化方法,其特征在于,包括:
根据配置信息,为待处理文本配置目标语音属性,所述配置信息包括所述目标语音属性;
获取语音数据库中所述待处理文本对应的音频文件;
根据所述目标语音属性,播放所述音频文件。
2.根据权利要求1所述的方法,其特征在于,所述根据配置信息,为待处理文本配置目标语音属性,包括:
获取配置信息,所述配置信息中包括目标语言属性,所述目标语言属性为基本属性、性别属性、年龄属性、性格属性、情绪属性和状态属性中的一种或多种属性;
根据所述配置信息,为所述待处理文本中的文字分别配置对应的所述目标语音属性。
3.根据权利要求1所述的方法,其特征在于,所述根据配置信息,为待处理文本配置目标语音属性,包括:
获取配置操作;
根据所述配置操作确定出待处理文本中的文字信息对应的配置信息;
根据所述配置信息,为待处理文本中的各个文字信息配置对应的目标语音属性;
所述根据所述目标语音属性,播放所述音频文件,包括:
根据所述待处理文本中的文字信息对应的目标语音属性,播放所述待处理文本中的文字信息对应的音频文件。
4.根据权利要求3所述的方法,其特征在于,所述待处理文本包括第一段文字和第二段文字,所述第一段文字对应的目标语音属性为第一语音属性模式,所述第二段文字对应的目标语音属性为第二语音属性模式;所述根据所述待处理文本中的文字信息对应的目标语音属性,播放所述待处理文本中的文字信息对应的音频文件,包括:
以所述第一语音属性模式,播放所述第一段文字对应的音频文件;
当播放至第二段文字对应的音频文件时,切换至所述第二语音属性模式,以所述第二语音属性模式,播放所述第二段文字对应的音频文件。
5.根据权利要求1所述的方法,其特征在于,所述获取语音数据库中所述待处理文本对应的音频文件之后,包括:
生成临时音频文件,所述临时音频文件为一个或多个;
将所述临时音频文件缓存于音频文件暂存区;
所述根据所述目标语音属性,播放所述音频文件,包括:
根据所述目标语音属性,播放所述音频文件暂存区中缓存的所述临时音频文件。
6.根据权利要求5所述的方法,其特征在于,所述音频文件暂存区包括:多个临时音频文件,所述根据所述目标语音属性,播放所述音频文件暂存区中缓存的所述临时音频文件,包括:
根据所述目标语音属性播放所述音频文件暂存区中缓存的第i临时音频文件,所述i为大于等于1,小于等于N-1的数值,所述N为所述音频文件暂存区中的临时音频文件数量;
删除已播放的所述第i临时音频文件;
根据所述目标语音属性播放所述音频文件暂存区中缓存的第i+1临时音频文件;
删除已播放的所述第i+1临时音频文件;重复上述流程,直至删除所述音频文件暂存区中的所有临时音频文件。
7.根据权利要求1所述的方法,其特征在于,所述播放所述音频文件之后,包括:
接收所述待处理文本的播放满意度评分;
判断所述满意度评分是否超过设定阈值;
若所述满意度评分低于所述设定阈值,根据更新后的配置信息调整所述待处理文本的目标语音属性。
8.一种文本语音转化装置,其特征在于,包括:
配置模块,用于根据配置信息,为待处理文本配置目标语音属性,所述配置信息包括所述目标语音属性;
获取模块,用于获取语音数据库中所述待处理文本对应的音频文件;
播放模块,用于根据所述目标语音属性,播放所述音频文件。
9.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110946429.XA CN113763918A (zh) | 2021-08-18 | 2021-08-18 | 文本语音转化方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110946429.XA CN113763918A (zh) | 2021-08-18 | 2021-08-18 | 文本语音转化方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113763918A true CN113763918A (zh) | 2021-12-07 |
Family
ID=78790297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110946429.XA Pending CN113763918A (zh) | 2021-08-18 | 2021-08-18 | 文本语音转化方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113763918A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1291847A2 (en) * | 2001-08-22 | 2003-03-12 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
CN102110458A (zh) * | 2009-12-24 | 2011-06-29 | Tcl集团股份有限公司 | 一种播放终端及其音视频文件的播放方法和装置 |
CN106504769A (zh) * | 2015-09-07 | 2017-03-15 | 中兴通讯股份有限公司 | 一种语音质量确定方法和装置 |
US20180061417A1 (en) * | 2016-08-30 | 2018-03-01 | Tata Consultancy Services Limited | System and method for transcription of spoken words using multilingual mismatched crowd |
CN109495776A (zh) * | 2018-12-20 | 2019-03-19 | 青岛海信电器股份有限公司 | 一种音频发送、播放的方法及智能终端 |
CN111415650A (zh) * | 2020-03-25 | 2020-07-14 | 广州酷狗计算机科技有限公司 | 文本语音转换的方法、装置、设备以及存储介质 |
CN111968678A (zh) * | 2020-09-11 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及可读存储介质 |
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN113035236A (zh) * | 2021-05-24 | 2021-06-25 | 北京爱数智慧科技有限公司 | 语音合成数据的质检方法以及装置 |
-
2021
- 2021-08-18 CN CN202110946429.XA patent/CN113763918A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1291847A2 (en) * | 2001-08-22 | 2003-03-12 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
CN102110458A (zh) * | 2009-12-24 | 2011-06-29 | Tcl集团股份有限公司 | 一种播放终端及其音视频文件的播放方法和装置 |
CN106504769A (zh) * | 2015-09-07 | 2017-03-15 | 中兴通讯股份有限公司 | 一种语音质量确定方法和装置 |
US20180061417A1 (en) * | 2016-08-30 | 2018-03-01 | Tata Consultancy Services Limited | System and method for transcription of spoken words using multilingual mismatched crowd |
CN109495776A (zh) * | 2018-12-20 | 2019-03-19 | 青岛海信电器股份有限公司 | 一种音频发送、播放的方法及智能终端 |
CN111415650A (zh) * | 2020-03-25 | 2020-07-14 | 广州酷狗计算机科技有限公司 | 文本语音转换的方法、装置、设备以及存储介质 |
CN111968678A (zh) * | 2020-09-11 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及可读存储介质 |
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN113035236A (zh) * | 2021-05-24 | 2021-06-25 | 北京爱数智慧科技有限公司 | 语音合成数据的质检方法以及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahn et al. | Framing virtual experiences: Effects on environmental efficacy and behavior over time | |
O'Hara | Inconsistency in Roman Epic: Studies in Catullus, Lucretius, Vergil, Ovid and Lucan | |
Upal | An alternative account of the minimal counterintuitiveness effect | |
Holmes et al. | Age of acquisition and typicality effects in three object processing tasks | |
Sofer | How to Do Things with Demons: Conjuring Performatives in Doctor Faustus | |
US11646026B2 (en) | Information processing system, and information processing method | |
Valverde | The modern sex doll-owner: A descriptive analysis | |
González et al. | Serving fishy realness: representations of gender equity on RuPaul’s Drag Race | |
Herring et al. | Animoji Performances:" Cuz I Can Be a Sexy Poop" | |
Chan et al. | Wellbeing and personality through sports: A qualitative study of older badminton players in two cultures | |
KR102101311B1 (ko) | 동물구현체를 포함하는 가상현실 플랫폼 제공 방법 및 장치 | |
CN113763918A (zh) | 文本语音转化方法、装置、电子设备及可读存储介质 | |
Grundmann et al. | Social science and the absence of nature: uncertainty and the reality of extremes | |
Stewart et al. | Early sensitivity to discourse-level anomalies: Evidence from self-paced reading | |
Carlson | Patterns in the semantics of generic sentences | |
Yerima et al. | Gender Politics: Women's Writings and Film in Northern Nigeria | |
KOUSSOUHON et al. | Decoding the context of ideology in two extracts from a contemporary Ghanaian prose work | |
Stuart-Hamilton | Introduction to the Psychology of Ageing for Non-specialists | |
CN114117115B (zh) | 多端联动的智能播放方法、装置、存储介质以及电子设备 | |
Smith-Ruiu | The Internet Is Not What You Think It Is: A History, a Philosophy, a Warning | |
Grethlein | Too Much Is Too Much? Κόρος in Ancient Criticism and the Poetics of Scale | |
Ragheb | Defining a Turkish Drum: Musical Instrument Classification and the Politics of Power | |
Al Arief | Phonological Process in Passive Verb Markers of Bahasa Bakumpai | |
Payne et al. | Self-ownership, not self-production, modulates bias and agency over a synthesised voice | |
Olson | The Form of Selfhood: Elegy and Self-Presentation in Early Modern England |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |