CN116453525A - 一种音频导读自动生成方法和系统 - Google Patents
一种音频导读自动生成方法和系统 Download PDFInfo
- Publication number
- CN116453525A CN116453525A CN202310676882.2A CN202310676882A CN116453525A CN 116453525 A CN116453525 A CN 116453525A CN 202310676882 A CN202310676882 A CN 202310676882A CN 116453525 A CN116453525 A CN 116453525A
- Authority
- CN
- China
- Prior art keywords
- audio
- user
- text
- sounding
- reading material
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000000463 material Substances 0.000 claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000002372 labelling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 4
- 239000000523 sample Substances 0.000 claims 1
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供一种音频导读自动生成方法和系统,方法包括:向第一用户展示和提示所述第一用户发声阅读第一阅读材料,获取第一用户的音频记录;解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件;向第二用户展示所述第二阅读材料,根据用户的操作指示打开相应文本材料页数或段落,并向所述第二用户播放相应的所述音频导读文件的相应页数或段落的音频。
Description
技术领域
本申请涉及语音导读技术领域,尤其涉及一种音频导读自动生成方法和系统。
背景技术
目前的电子书具有了初步的导读功能,即通过预先录制的方法或者人工合成语音的方法,事先录好或制作好一个阅读材料例如电子书的音频文件,当用户需要在阅读时听书或者单纯听书时,通过点击等操作打开预先录制好的音频文件进行同步阅读。
然而,上述音频导读的方法比较僵化,对于不同类型的人群效果可能并不好,例如儿童需要的睡前伴读,往往习惯了特定的监护人,如父母、祖父母或其他监护人等人的声音。如果仅仅播放预制好的通用语音,可能不能引起儿童的阅读兴趣。因此,展开个性化的、针对性的音频导读成为了亟待解决的现实需求。
发明内容
有鉴于此,本申请的目的在于提出一种音频导读自动生成方法和系统,本申请能够针对性的解决现有的问题。
基于上述目的,本申请提出了一种音频导读自动生成方法,包括:
向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;
解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;
将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;
获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;
向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。
进一步地,所述解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系,包括:
将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音;
提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息;
将所述文字、拼音与其对应的声调、声纹、语速、和音强进行关联映射,得到发声规律。
进一步地,所述将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音,包括:
对所述第一用户的音频记录进行语音识别,以获得文本数据;
对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的解析结果,包括:利用预设的固定句式解析模板与所述文本数据进行匹配,以获得所述文本数据匹配中的目标固定句式解析模板,所述目标固定句式解析模板包括固定表达部分和待定表达部分;将所述文本数据中对应所述固定表达部分的内容作为所述解析结果中的固定句式,将所述文本数据中对应所述待定表达部分的内容作为所述解析结果中的实体词;
按照预设的文字-拼音映射表将所述解析结果中的实体词转换为拼音流,得到文字对应的拼音。
进一步地,所述提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息,包括:
对所述音频记录进行分帧加窗,求取每一帧语音的线性预测参数,计算每一帧所述音频记录的增益参数,由此获得所述音频记录的增益轨迹曲线,与标准语音声调曲线进行对比,确定所述音频记录的声调;
将所述音频记录的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重,从深度神经网络的最后一个隐层中抽取出激活值,经过加权得到声纹特征;
从所述音频记录中识别音素序列和每个音素对应的时间分割点,根据上述识别出的音素序列和每个音素对应的时间分割点,识别字序列和每个字对应的时间分割点,以及根据上述识别出的字序列和每个字对应的时间分割点,计算所述音频记录的语速;
以一个预定长度的帧为单位切割所述音频记录的波形,根据所述音频记录的波形的波长方向中的特征计算所述音频记录的强度;
将所述声调、声纹特征、语速、和强度作为所述音频记录的特征信息。
进一步地,所述将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络,包括:
所述预设神经网络为具有N层中间层的深度神经网络结构,并且第N层中间层分叉出语音识别层和发声规律分类层,所述语音识别层输出语音识别结果,所述发声规律层输出发声规律分类结果,所述训练包括:
对第一阅读材料的文本、所述音频记录的特征信息进行文本标注和发声规律标注;
将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入至所述N层中间层,基于所述语音识别层输出的语音识别结果和文本标注,进行语音识别训练,训练所述N层中间层和所述语音识别层的神经网络参数;
在所述语音识别训练完成后,基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数,完成发声规律分类训练。
进一步地,所述基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数包括:基于交叉熵训练准则,利用极大似然估计对第一阅读材料的文本、所述音频记录的特征信息进行发声规律优化,使所述发声规律分类结果向所述发声规律标注更新。
进一步地,所述获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,包括:
对所述第二阅读材料的文本进行解析,获取目标文字序列;
将所述目标文字序列结合所述发声规律获得所述目标文字序列对应的拼音、声调、声纹、语速、和音强;
将所述目标文字序列对应的拼音、声调、声纹、语速、和音强输入到训练后的神经网络中获得所述音频导读文件。
基于上述目的,本申请还提出了一种音频导读自动生成系统,包括:
第一用户音频获取模块,用于向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;
发声规律解析模块,用于解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;
训练模块,用于将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;
语音生成模块,用于获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;
导读音频模块,用于向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。
总的来说,本申请的优势及给用户带来的体验在于:能够根据不同的用户需求,展开个性化的、针对性的音频导读,使得用户产生阅读的兴趣和专注力;所使用的特色语音分析,使得语音经转换、拆解、计算分析后能够得出录入语音的发声规律;通过对语音、文本、发声规律进行基于神经网络的模型训练,使得模型具有了自学习的能力,使得听众能够在阅读时想听到他想听到的特定人物的语音播放。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1示出根据本申请实施例的音频导读自动生成方法的流程图。
图2示出根据本申请实施例的第一用户录音场景示意图。
图3示出根据本申请实施例的第二用户音频导读场景示意图。
图4示出根据本申请实施例的音频导读自动生成系统的构成图。
图5示出了本申请一实施例所提供的一种电子设备的结构示意图。
图6示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出根据本申请实施例的音频导读自动生成方法的流程图。如图1所示,该音频导读自动生成方法包括:
S1、向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;如图2所示,可以通过手机、平板电脑、电脑等电子设备,向准备进行语音合成的用户,例如孩子的父母等,展示第一阅读材料,用户可以首先输入自己的身份设定,例如爸爸、妈妈等。用户可以通过“点击可录制语音”按钮启动下面的录音器,开始录音。第一阅读材料可以包括不同的语种,例如英语、汉语等,并且应该包括主要的发音情况。例如汉语中的声母表、韵母表、整体认读音节等基本的发声单元及音调等,以及常见的汉字(大约五千个)等。
S2、解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;
S3、将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;
S4、获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;
S5、向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。如图3所示,可以通过手机、平板电脑、电脑等电子设备,向准备阅读第二阅读材料的用户,例如孩子等,展示第二阅读材料,孩子可以通过“点击播放妈妈的语音按钮”,来播放听起来像是妈妈读的合成语音。以下重点通过步骤S2-S4的具体实现方式讲解,来讲述本申请的语音合成过程。
进一步地,步骤S2中,包括:
S21、将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音,包括:
对所述第一用户的音频记录进行语音识别,以获得文本数据;
对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的解析结果,包括:利用预设的固定句式解析模板与所述文本数据进行匹配,以获得所述文本数据匹配中的目标固定句式解析模板,所述目标固定句式解析模板包括固定表达部分和待定表达部分;将所述文本数据中对应所述固定表达部分的内容作为所述解析结果中的固定句式,将所述文本数据中对应所述待定表达部分的内容作为所述解析结果中的实体词;
按照预设的文字-拼音映射表将所述解析结果中的实体词转换为拼音流,得到文字对应的拼音。
S22、提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息,包括:
对所述音频记录进行分帧加窗,求取每一帧语音的线性预测参数,计算每一帧所述音频记录的增益参数,由此获得所述音频记录的增益轨迹曲线,与标准语音声调曲线进行对比,确定所述音频记录的声调;
将所述音频记录的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重,从深度神经网络的最后一个隐层中抽取出激活值,经过加权得到声纹特征;
从所述音频记录中识别音素序列和每个音素对应的时间分割点,根据上述识别出的音素序列和每个音素对应的时间分割点,识别字序列和每个字对应的时间分割点,以及根据上述识别出的字序列和每个字对应的时间分割点,计算所述音频记录的语速;
以一个预定长度的帧为单位切割所述音频记录的波形,根据所述音频记录的波形的波长方向中的特征计算所述音频记录的强度;
将所述声调、声纹特征、语速、和强度作为所述音频记录的特征信息。
S23、将所述文字、拼音与其对应的声调、声纹、语速、和音强进行关联映射,得到发声规律。由于在实际发声规律中,每个文字都有对应的拼音、声调、声纹、语速、和音强,不同的用户在读同一个字或字母、音节的时候的发音特色不同,为了全面分析用户的发声特点,本申请通过对于语音的各个参数进行详细的解析、计算从而从多个参数的角度量化了用户的发声特色,进一步总结得到其发声规律。
进一步地,步骤S3中,所述预设神经网络为具有N层中间层的深度神经网络结构,并且第N层中间层分叉出语音识别层和发声规律分类层,所述语音识别层输出语音识别结果,所述发声规律层输出发声规律分类结果,所述训练包括:
S31、对第一阅读材料的文本、所述音频记录的特征信息进行文本标注和发声规律标注;
S32、将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入至所述N层中间层,基于所述语音识别层输出的语音识别结果和文本标注,进行语音识别训练,训练所述N层中间层和所述语音识别层的神经网络参数;
S33、在所述语音识别训练完成后,基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数,完成发声规律分类训练,包括:基于交叉熵训练准则,利用极大似然估计对第一阅读材料的文本、所述音频记录的特征信息进行发声规律优化,使所述发声规律分类结果向所述发声规律标注更新。
步骤S3中,通过使用用户的实际音频数据,训练深度神经网络,从而使其成为一个能够体现该用户发声规律的“语音合成器”,为下一步的语音合成打下基础。
进一步地,步骤S4中,包括:
S41、对所述第二阅读材料的文本进行解析,获取目标文字序列;
S42、将所述目标文字序列结合所述发声规律获得所述目标文字序列对应的拼音、声调、声纹、语速、和音强;
S43、将所述目标文字序列对应的拼音、声调、声纹、语速、和音强输入到训练后的神经网络中获得所述音频导读文件。
通过步骤S4,对新的阅读材料,第一用户例如妈妈已经不需要自己阅读第二阅读材料了,直接将第二阅读材料的文本输入“语音合成器”之中,就会自动生成具有妈妈发声规律的音频,从而有助于提高孩子阅读时的亲切感,对于集中注意力、得到良好的阅读效果具有极大的促进左右。
本申请能够根据不同的用户需求,展开个性化的、针对性的音频导读,使得用户产生阅读的兴趣和专注力;所使用的特色语音分析,使得语音经转换、拆解、计算分析后能够得出录入语音的发声规律;通过对语音、文本、发声规律进行基于神经网络的模型训练,使得模型具有了自学习的能力,使得听众能够在阅读时想听到他想听到的特定人物的语音播放。
申请实施例提供了一种音频导读自动生成系统,该系统用于执行上述实施例所述的音频导读自动生成方法,如图4所示,该系统包括:
第一用户音频获取模块401,用于向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;
发声规律解析模块402,用于解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;
训练模块403,用于将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;
语音生成模块404,用于获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;
导读音频模块405,用于向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。
本申请的上述实施例提供的音频导读自动生成系统与本申请实施例提供的音频导读自动生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的音频导读自动生成方法对应的电子设备,以执行上音频导读自动生成方法。本申请实施例不做限定。
请参考图5,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的音频导读自动生成方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述音频导读自动生成方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的音频导读自动生成方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的音频导读自动生成方法对应的计算机可读存储介质,请参考图6,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的音频导读自动生成方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的音频导读自动生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备有固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器( DSP )来实现根据本申请实施例的虚拟机的创建系统中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种音频导读自动生成方法,其特征在于,包括:
向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;
解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;
将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;
获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;
向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。
2.根据权利要求1所述的方法,其特征在于,
所述解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系,包括:
将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音;
提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息;
将所述文字、拼音与其对应的声调、声纹、语速、和音强进行关联映射,得到发声规律。
3.根据权利要求2所述的方法,其特征在于,
所述将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音,包括:
对所述第一用户的音频记录进行语音识别,以获得文本数据;
对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的解析结果,包括:利用预设的固定句式解析模板与所述文本数据进行匹配,以获得所述文本数据匹配中的目标固定句式解析模板,所述目标固定句式解析模板包括固定表达部分和待定表达部分;将所述文本数据中对应所述固定表达部分的内容作为所述解析结果中的固定句式,将所述文本数据中对应所述待定表达部分的内容作为所述解析结果中的实体词;
按照预设的文字-拼音映射表将所述解析结果中的实体词转换为拼音流,得到文字对应的拼音。
4.根据权利要求2或3所述的方法,其特征在于,
所述提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息,包括:
对所述音频记录进行分帧加窗,求取每一帧语音的线性预测参数,计算每一帧所述音频记录的增益参数,由此获得所述音频记录的增益轨迹曲线,与标准语音声调曲线进行对比,确定所述音频记录的声调;
将所述音频记录的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重,从深度神经网络的最后一个隐层中抽取出激活值,经过加权得到声纹特征;
从所述音频记录中识别音素序列和每个音素对应的时间分割点,根据上述识别出的音素序列和每个音素对应的时间分割点,识别字序列和每个字对应的时间分割点,以及根据上述识别出的字序列和每个字对应的时间分割点,计算所述音频记录的语速;
以一个预定长度的帧为单位切割所述音频记录的波形,根据所述音频记录的波形的波长方向中的特征计算所述音频记录的强度;
将所述声调、声纹特征、语速、和强度作为所述音频记录的特征信息。
5.根据权利要求1所述的方法,其特征在于,
所述将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络,包括:
所述预设神经网络为具有N层中间层的深度神经网络结构,并且第N层中间层分叉出语音识别层和发声规律分类层,所述语音识别层输出语音识别结果,所述发声规律层输出发声规律分类结果,所述训练包括:
对第一阅读材料的文本、所述音频记录的特征信息进行文本标注和发声规律标注;
将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入至所述N层中间层,基于所述语音识别层输出的语音识别结果和文本标注,进行语音识别训练,训练所述N层中间层和所述语音识别层的神经网络参数;
在所述语音识别训练完成后,基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数,完成发声规律分类训练。
6.根据权利要求5所述的方法,其特征在于,
所述基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数包括:基于交叉熵训练准则,利用极大似然估计对第一阅读材料的文本、所述音频记录的特征信息进行发声规律优化,使所述发声规律分类结果向所述发声规律标注更新。
7.根据权利要求1所述的方法,其特征在于,
所述获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,包括:
对所述第二阅读材料的文本进行解析,获取目标文字序列;
将所述目标文字序列结合所述发声规律获得所述目标文字序列对应的拼音、声调、声纹、语速、和音强;
将所述目标文字序列对应的拼音、声调、声纹、语速、和音强输入到训练后的神经网络中获得所述音频导读文件。
8.一种音频导读自动生成系统,其特征在于,包括:
第一用户音频获取模块,用于向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;
发声规律解析模块,用于解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;
训练模块,用于将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;
语音生成模块,用于获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;
导读音频模块,用于向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310676882.2A CN116453525B (zh) | 2023-06-08 | 2023-06-08 | 一种音频导读自动生成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310676882.2A CN116453525B (zh) | 2023-06-08 | 2023-06-08 | 一种音频导读自动生成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116453525A true CN116453525A (zh) | 2023-07-18 |
CN116453525B CN116453525B (zh) | 2023-10-20 |
Family
ID=87120450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310676882.2A Active CN116453525B (zh) | 2023-06-08 | 2023-06-08 | 一种音频导读自动生成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116453525B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097293A (ja) * | 1996-09-19 | 1998-04-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識用単語辞書作成装置及び連続音声認識装置 |
CN109346057A (zh) * | 2018-10-29 | 2019-02-15 | 深圳市友杰智新科技有限公司 | 一种智能儿童玩具的语音处理系统 |
CN110570873A (zh) * | 2019-09-12 | 2019-12-13 | Oppo广东移动通信有限公司 | 声纹唤醒方法、装置、计算机设备以及存储介质 |
CN111667812A (zh) * | 2020-05-29 | 2020-09-15 | 北京声智科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
WO2022141678A1 (zh) * | 2020-12-31 | 2022-07-07 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN116129859A (zh) * | 2022-11-16 | 2023-05-16 | 马上消费金融股份有限公司 | 韵律标注方法、声学模型训练方法、语音合成方法及装置 |
CN116129857A (zh) * | 2022-11-08 | 2023-05-16 | 马上消费金融股份有限公司 | 声学模型训练方法、语音合成方法及相关装置 |
-
2023
- 2023-06-08 CN CN202310676882.2A patent/CN116453525B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097293A (ja) * | 1996-09-19 | 1998-04-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識用単語辞書作成装置及び連続音声認識装置 |
CN109346057A (zh) * | 2018-10-29 | 2019-02-15 | 深圳市友杰智新科技有限公司 | 一种智能儿童玩具的语音处理系统 |
CN110570873A (zh) * | 2019-09-12 | 2019-12-13 | Oppo广东移动通信有限公司 | 声纹唤醒方法、装置、计算机设备以及存储介质 |
CN111667812A (zh) * | 2020-05-29 | 2020-09-15 | 北京声智科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
WO2022141678A1 (zh) * | 2020-12-31 | 2022-07-07 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN116129857A (zh) * | 2022-11-08 | 2023-05-16 | 马上消费金融股份有限公司 | 声学模型训练方法、语音合成方法及相关装置 |
CN116129859A (zh) * | 2022-11-16 | 2023-05-16 | 马上消费金融股份有限公司 | 韵律标注方法、声学模型训练方法、语音合成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116453525B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891928B2 (en) | Automatic song generation | |
WO2017190674A1 (zh) | 一种音频数据的处理方法、装置及计算机存储介质 | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US9818406B1 (en) | Adjusting user experience based on paralinguistic information | |
Govind et al. | Expressive speech synthesis: a review | |
US20190392817A1 (en) | Adjusting a ranking of information content of a software application based on feedback from a user | |
US8571870B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
CN110867177A (zh) | 音色可选的人声播放系统、其播放方法及可读记录介质 | |
Dhanjal et al. | An automatic machine translation system for multi-lingual speech to Indian sign language | |
US9613616B2 (en) | Synthesizing an aggregate voice | |
Sarkar et al. | Designing prosody rule-set for converting neutral TTS speech to storytelling style speech for Indian languages: Bengali, Hindi and Telugu | |
Baird et al. | Perception of paralinguistic traits in synthesized voices | |
Laurinčiukaitė et al. | Lithuanian Speech Corpus Liepa for development of human-computer interfaces working in voice recognition and synthesis mode | |
CN110111778A (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
Haque et al. | Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech | |
CN116453525B (zh) | 一种音频导读自动生成方法和系统 | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
Ni et al. | Constrained tone transformation technique for separation and combination of Mandarin tone and intonation | |
Panda et al. | A rule-based concatenative approach to speech synthesis in Indian language text-to-speech systems | |
JP4964695B2 (ja) | 音声合成装置及び音声合成方法並びにプログラム | |
JP4150645B2 (ja) | 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム | |
Kastrati et al. | The opportunity of using eSpeak as Text-to-Speech synthesizer for Albanian Language | |
Sainz et al. | Subjective Evaluation of an Emotional Speech Database for Basque. | |
Kruspe et al. | A GMM approach to singing language identification | |
KR20210012265A (ko) | 음성 제공 방법, 음성 제공을 위한 학습 방법 및 그 장치들 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |