CN115116431B

CN115116431B - 基于智能朗读亭的音频生成方法、装置、设备及存储介质

Info

Publication number: CN115116431B
Application number: CN202211037429.9A
Authority: CN
Inventors: 韩国玺; 刘可; 刘兴好
Original assignee: Shenzhen Xingfaner Culture Technology Co ltd
Current assignee: Shenzhen Xingfaner Culture Technology Co ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-11-18
Anticipated expiration: 2042-08-29
Also published as: CN115116431A

Abstract

本发明涉及人工智能领域，公开了一种基于智能朗读亭的音频生成方法、装置、设备及存储介质，用于实现智能朗读亭的音频转换并提高音频的音频质量。所述方法包括：基于智能朗读亭采集目标朗读者的待处理音频，并对待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；将文本朗读数据输入音频转换模型中的特征提取网络进行文本特征提取，得到文本朗读特征；对文本朗读特征与音频朗读特征进行特征整合，得到目标朗读特征；将目标朗读特征输入音频转换模型中的音频生成网络进行音频转换，得到目标朗读音频；对目标朗读音频和目标朗读者进行身份信息绑定，并对目标朗读音频进行关联存储。

Description

基于智能朗读亭的音频生成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于智能朗读亭的音频生成方法、装置、设备及存储介质。

背景技术

随着物联网行业的高速发展，智能朗读亭应运而生。智能朗读亭是一种以朗读、阅读、作品分享为一体的智能教育设备，可高效提升朗读者的语文素养与语言表达能力，辅助提高学校教学水平。

但是目前智能朗读亭的音频质量不好，其原因主要是智能朗读亭本身的收音效果不佳，或者是因为说话人发音不标准，导致智能朗读亭收集到的音频质量较低。

发明内容

本发明提供了一种基于智能朗读亭的音频生成方法、装置、设备及存储介质，用于实现智能朗读亭的音频转换并提高音频的音频质量。

本发明第一方面提供了一种基于智能朗读亭的音频生成方法，所述基于智能朗读亭的音频生成方法包括：基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征；对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征；将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频；对所述目标朗读音频和所述目标朗读者进行身份信息绑定，并对所述目标朗读音频进行属性提取，得到目标属性数据，以及根据所述目标属性数据对所述目标朗读音频进行关联存储。

可选的，在本发明第一方面的第一种实现方式中，所述基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据，包括：基于预置的智能朗读亭中的音频收集终端实时采集目标朗读者的待处理音频；对所述待处理音频进行梅尔频谱转换，得到目标梅尔频谱；对所述目标梅尔频谱进行音频人声特征提取，得到音频朗读特征；调用预置的自然语言处理模型对所述待处理音频进行文本识别，得到识别文本数据；基于所述智能朗读亭获取所述待处理音频对应的标准文本数据；对所述识别文本数据和所述标准文本数据进行文本核验，生成文本朗读数据。

可选的，在本发明第一方面的第二种实现方式中，所述将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征，包括：将所述文本朗读数据输入预置音频转换模型中的特征提取网络，其中，所述特征提取网络包括：输入层、三层卷积网络和双层门限循环网络；通过所述输入层对所述文本朗读数据进行向量编码，得到文本输入向量；通过所述三层卷积网络对所述文本输入向量进行卷积运算，得到文本特征向量；通过所述双层门限循环网络对所述文本特征向量进行特征转换，得到所述文本朗读数据对应的文本朗读特征。

可选的，在本发明第一方面的第三种实现方式中，所述对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征，包括：分别提取所述文本朗读特征与所述音频朗读进行原始特征提取，得到文本原始特征和音频原始特征；基于预设的事件定义对所述文本原始特征和所述音频原始特征进行特征融合，得到所述待处理音频对应的目标朗读特征。

可选的，在本发明第一方面的第四种实现方式中，所述将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频，包括：将所述目标朗读特征输入所述音频转换模型中的音频生成网络，其中，所述音频生成网络包括：双层长短时记忆网络、两层全连接网络和输出层；通过所述双层长短时记忆网络对所述目标朗读特征进行特征编码，得到目标编码特征；通过所述两层全连接网络对所述目标编码特征进行特征运算，得到特征运算信息；将所述特征运算信息输入所述输出层进行音频转换，得到所述待处理音频对应的目标朗读音频。

可选的，在本发明第一方面的第五种实现方式中，所述对所述目标朗读音频和所述目标朗读者进行身份信息绑定，并对所述目标朗读音频进行属性提取，得到目标属性数据，以及根据所述目标属性数据对所述目标朗读音频进行关联存储，包括：基于所述智能朗读亭对所述目标朗读者进行身份信息查询，得到所述目标朗读者的身份信息；对所述目标朗读音频和所述身份信息进行绑定；对所述目标朗读音频进行属性提取，得到目标属性数据，其中，所述目标属性数据包括：朗读类型、朗读主题以及评价指标；根据所述目标属性数据对所述目标朗读音频进行关联存储。

可选的，在本发明第一方面的第六种实现方式中，所述基于智能朗读亭的音频生成方法还包括：接收用户输入的智能朗读亭点播请求，并根据所述智能朗读亭点播请求匹配待播放朗读音频；播放所述待播放朗读音频，并对所述待播放朗读音频进行评分，得到目标评分信息；根据所述目标评分信息生成朗读音频播放榜单。

本发明第二方面提供了一种基于智能朗读亭的音频生成装置，所述基于智能朗读亭的音频生成装置包括：采集模块，用于基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；提取模块，用于将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征；整合模块，用于对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征；转换模块，用于将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频；存储模块，用于对所述目标朗读音频和所述目标朗读者进行身份信息绑定，并对所述目标朗读音频进行属性提取，得到目标属性数据，以及根据所述目标属性数据对所述目标朗读音频进行关联存储。

可选的，在本发明第二方面的第一种实现方式中，所述采集模块具体用于：基于预置的智能朗读亭中的音频收集终端实时采集目标朗读者的待处理音频；对所述待处理音频进行梅尔频谱转换，得到目标梅尔频谱；对所述目标梅尔频谱进行音频人声特征提取，得到音频朗读特征；调用预置的自然语言处理模型对所述待处理音频进行文本识别，得到识别文本数据；基于所述智能朗读亭获取所述待处理音频对应的标准文本数据；对所述识别文本数据和所述标准文本数据进行文本核验，生成文本朗读数据。

可选的，在本发明第二方面的第二种实现方式中，所述提取模块具体用于：将所述文本朗读数据输入预置音频转换模型中的特征提取网络，其中，所述特征提取网络包括：输入层、三层卷积网络和双层门限循环网络；通过所述输入层对所述文本朗读数据进行向量编码，得到文本输入向量；通过所述三层卷积网络对所述文本输入向量进行卷积运算，得到文本特征向量；通过所述双层门限循环网络对所述文本特征向量进行特征转换，得到所述文本朗读数据对应的文本朗读特征。

可选的，在本发明第二方面的第三种实现方式中，所述整合模块具体用于：分别提取所述文本朗读特征与所述音频朗读进行原始特征提取，得到文本原始特征和音频原始特征；基于预设的事件定义对所述文本原始特征和所述音频原始特征进行特征融合，得到所述待处理音频对应的目标朗读特征。

可选的，在本发明第二方面的第四种实现方式中，所述转换模块具体用于：将所述目标朗读特征输入所述音频转换模型中的音频生成网络，其中，所述音频生成网络包括：双层长短时记忆网络、两层全连接网络和输出层；通过所述双层长短时记忆网络对所述目标朗读特征进行特征编码，得到目标编码特征；通过所述两层全连接网络对所述目标编码特征进行特征运算，得到特征运算信息；将所述特征运算信息输入所述输出层进行音频转换，得到所述待处理音频对应的目标朗读音频。

可选的，在本发明第二方面的第五种实现方式中，所述存储模块具体用于：基于所述智能朗读亭对所述目标朗读者进行身份信息查询，得到所述目标朗读者的身份信息；对所述目标朗读音频和所述身份信息进行绑定；对所述目标朗读音频进行属性提取，得到目标属性数据，其中，所述目标属性数据包括：朗读类型、朗读主题以及评价指标；根据所述目标属性数据对所述目标朗读音频进行关联存储。

可选的，在本发明第二方面的第六种实现方式中，所述基于智能朗读亭的音频生成装置还包括：生成模块，用于接收用户输入的智能朗读亭点播请求，并根据所述智能朗读亭点播请求匹配待播放朗读音频；播放所述待播放朗读音频，并对所述待播放朗读音频进行评分，得到目标评分信息；根据所述目标评分信息生成朗读音频播放榜单。

本发明第三方面提供了一种基于智能朗读亭的音频生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于智能朗读亭的音频生成设备执行上述的基于智能朗读亭的音频生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于智能朗读亭的音频生成方法。

本发明提供的技术方案中，基于智能朗读亭采集目标朗读者的待处理音频，并对待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；将文本朗读数据输入音频转换模型中的特征提取网络进行文本特征提取，得到文本朗读特征；对文本朗读特征与音频朗读特征进行特征整合，得到目标朗读特征；将目标朗读特征输入音频转换模型中的音频生成网络进行音频转换，得到目标朗读音频；对目标朗读音频和目标朗读者进行身份信息绑定，并对目标朗读音频进行关联存储。本发明通过对智能朗读亭采集到的目标朗读者的待处理音频进行音频特征提取和文本特征提取，并且对文本朗读特征与音频朗读特征进行特征整合，进而在音频转换时保留了目标朗读者的说话人特征，进而使得目标朗读音频更加符合目标朗读者的朗读特征，通过构建音频转换模型的人工智能模型实现智能朗读亭的音频转换并提高了音频的音频质量。

附图说明

图1为本发明实施例中基于智能朗读亭的音频生成方法的一个实施例示意图；

图2为本发明实施例中基于智能朗读亭的音频生成方法的另一个实施例示意图；

图3为本发明实施例中基于智能朗读亭的音频生成装置的一个实施例示意图；

图4为本发明实施例中基于智能朗读亭的音频生成装置的另一个实施例示意图；

图5为本发明实施例中基于智能朗读亭的音频生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于智能朗读亭的音频生成方法、装置、设备及存储介质，用于实现智能朗读亭的音频转换并提高音频的音频质量。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于智能朗读亭的音频生成方法的一个实施例包括：

101、基于预置的智能朗读亭采集目标朗读者的待处理音频，并对待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；

可以理解的是，本发明的执行主体可以为基于智能朗读亭的音频生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，获取待处理音频，对待处理音频进行预处理，得到预处理后的待处理音频，对预处理后的待处理音频中的每一帧数据分别进行特征提取，得到录音梅尔谱特征，通过预置的基频提取算法，提取预处理后的待处理音频中的背景旋律特征，得到旋律基频特征。获取音频文本数据，调用预置的边界均衡生成对抗网络模型，对录音梅尔谱特征、旋律基频特征和音频文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图，调用预置的梅尔生成对抗网络模型确定目标歌声音频，最终得到音频朗读特征和文本朗读数据。

102、将文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到文本朗读数据对应的文本朗读特征；

可选的，服务器获取待处理音频，获取待处理音频对应的频谱图，根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频，确定待处理子音频的平均音频强度，根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频，对目标子音频进行内容识别处理，得到目标子音频的音频文本，进而服务器将文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到文本朗读数据对应的文本朗读特征，提升查询音频内容的效率。

103、对文本朗读特征与音频朗读特征进行特征整合，得到待处理音频对应的目标朗读特征；

具体的，服务器利用预置的模板语音数据训练并建立基于深度神经网络的多类声学特征整合模型，以确定或更新多类声学特征整合模型的网络参数，将从待测语音中提取的多类声学特征输入已训练好的具有网络参数的多类声学特征整合模型中，并提取帧级别深度整合特征向量或段级别深度整合特征向量，以完成对文本朗读特征与音频朗读特征进行特征整合，得到待处理音频对应的目标朗读特征。

104、将目标朗读特征输入音频转换模型中的音频生成网络进行音频转换，得到待处理音频对应的目标朗读音频；

具体的，获取目标朗读特征以及指定转换类型，对目标朗读特征进行音源分离处理，以获取待转换音频的音频特征，基于音频特征预测待转换音频的音频，以生成预测音频，以及基于预测音频生成指定转换类型的转换音频，最终服务器将目标朗读特征输入音频转换模型中的音频生成网络进行音频转换，得到待处理音频对应的目标朗读音频，可以扩大可输入的待转换音频的范围，能够生成没有杂音、辨识度高的高质量转换音频，并且大大缩短了开发成本，提高了音频转换效率。

105、对目标朗读音频和目标朗读者进行身份信息绑定，并对目标朗读音频进行属性提取，得到目标属性数据，以及根据目标属性数据对目标朗读音频进行关联存储。

具体的，据目标朗读音频和目标朗读者的IP地址，从网络侧记录的对应的IP地址配置信息中获得朗读音频对应的终端的物理地址，IP地址配置信息是基于动态主机配置协议生成的，当从后台服务器未查询到与朗读音频对应的终端的物理地址对应的用户身份信息绑定信息时，将朗读音频对应的终端的物理地址与朗读音频对应的终端的用户身份信息绑定，并根据目标属性数据对目标朗读音频进行关联存储。

本发明实施例中，基于智能朗读亭采集目标朗读者的待处理音频，并对待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；将文本朗读数据输入音频转换模型中的特征提取网络进行文本特征提取，得到文本朗读特征；对文本朗读特征与音频朗读特征进行特征整合，得到目标朗读特征；将目标朗读特征输入音频转换模型中的音频生成网络进行音频转换，得到目标朗读音频；对目标朗读音频和目标朗读者进行身份信息绑定，并对目标朗读音频进行关联存储。本发明通过对智能朗读亭采集到的目标朗读者的待处理音频进行音频特征提取和文本特征提取，并且对文本朗读特征与音频朗读特征进行特征整合，进而在音频转换时保留了目标朗读者的说话人特征，进而使得目标朗读音频更加符合目标朗读者的朗读特征，通过构建音频转换模型的人工智能模型实现智能朗读亭的音频转换并提高了音频的音频质量。

请参阅图2，本发明实施例中基于智能朗读亭的音频生成方法的另一个实施例包括：

201、基于预置的智能朗读亭采集目标朗读者的待处理音频，并对待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；

具体的，基于预置的智能朗读亭中的音频收集终端实时采集目标朗读者的待处理音频；对待处理音频进行梅尔频谱转换，得到目标梅尔频谱；对目标梅尔频谱进行音频人声特征提取，得到音频朗读特征；调用预置的自然语言处理模型对待处理音频进行文本识别，得到识别文本数据；基于智能朗读亭获取待处理音频对应的标准文本数据；对识别文本数据和标准文本数据进行文本核验，生成文本朗读数据。

服务器获取待处理音频，对待处理音频进行预处理，得到预处理后的待处理音频，服务器通过调用预置的语音端点检测算法(Voice Activity Detection，VAD)对待处理音频进行切分和检测，得到录音切分片段，待处理音频通过爬虫获取，本实施例中运用到的待处理音频都经过用户授权，得到录音切分片段后，将录音切分片段中的无效片段过滤掉，得到过滤后的待处理音频，无效片段为包含噪音信号的语音片段和静音片段，对过滤后的待处理音频分别进行预加重、分帧和加窗处理，得到预处理后的待处理音频。服务器对预处理后的待处理音频中的每一帧数据分别进行特征提取，得到录音梅尔谱特征。服务器对预处理后的待处理音频进行特征提取的过程主要包括对每一帧数据进行傅里叶变换，并通过梅尔滤波器进行平滑化处理，消除谐波的作用，对预处理后的待处理音频中的每一帧数据分别进行傅里叶变换，得到每一帧数据对应的频谱数据，对每一帧数据对应的频谱数据取模平方得到语音信号的谱线能量，将谱线能量通过一组梅尔尺度的三角形滤波器组，进行平滑化处理，得到平滑处理后的数据，将平滑处理后的数据确定为录音梅尔谱特征，进而服务器调用预置的自然语言处理模型对待处理音频进行文本识别，得到识别文本数据；基于智能朗读亭获取待处理音频对应的标准文本数据；对识别文本数据和标准文本数据进行文本核验，生成文本朗读数据。

202、将文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到文本朗读数据对应的文本朗读特征；

可选的，将文本朗读数据输入预置音频转换模型中的特征提取网络，其中，特征提取网络包括：输入层、三层卷积网络和双层门限循环网络；通过输入层对文本朗读数据进行向量编码，得到文本输入向量；通过三层卷积网络对文本输入向量进行卷积运算，得到文本特征向量；通过双层门限循环网络对文本特征向量进行特征转换，得到文本朗读数据对应的文本朗读特征。

其中，文本朗读数据可以是源自网络直播视频，网络直播视频包括视频流和音频流。文本朗读数据可以是网络直播视频中的音频流。首先服务器获取待处理音频对应的频谱图，根据频谱变换，例如，傅里叶变换，将文本朗读数据的时频对应的频谱图转换为频域对应的频谱图，并将频谱图存储在本地内存，也可以将频谱图存储在异地服务器内，服务器还可以通过获取预设的音频强度，其中，音频强度可以称作声音强度，音频强度的等级单位是分贝，与音频的振幅有关，响度是音频强度的主观感知，其中，预设的音频强度可以是人为录入的音频强度，用于判断文本朗读数据的音频强度是否达标。例如，预设的音频强度用于表征用户可以感知到的最低响度，进而获取文本朗读数据的实际音频强度，并通过输入层对文本朗读数据进行向量编码，得到文本输入向量，通过三层卷积网络对文本输入向量进行卷积运算，得到文本特征向量，通过双层门限循环网络对文本特征向量进行特征转换，得到文本朗读数据对应的文本朗读特征。

203、对文本朗读特征与音频朗读特征进行特征整合，得到待处理音频对应的目标朗读特征；

具体的，分别提取文本朗读特征与音频朗读进行原始特征提取，得到文本原始特征和音频原始特征；基于预设的事件定义对文本原始特征和音频原始特征进行特征融合，得到待处理音频对应的目标朗读特征。

其中，服务器从预置的模板语音数据中的每一个语音样本中提取至少两种不同类型的帧级别声学特征，将至少两种不同类型的帧级别声学特征分别输入到每种类型所对应的浅层特征网络分支，获得每个浅层特征网络分支输出的至少两种不同类型的帧级别声学特征对应的帧级别浅层特征向量，结合注意力机制，将帧级别浅层特征向量输入特征整合网络，获得一个帧级别深度整合特征向量，将帧级别深度特征整合向量依次输入到隐藏层并传输到输出层，根据语音任务计算损失函数后，反梯度传播更新所有深度神经网络的网络参数，并基于预设的事件定义对文本原始特征和音频原始特征进行特征融合，得到待处理音频对应的目标朗读特征。

204、将目标朗读特征输入音频转换模型中的音频生成网络进行音频转换，得到待处理音频对应的目标朗读音频；

具体的，将目标朗读特征输入音频转换模型中的音频生成网络，其中，音频生成网络包括：双层长短时记忆网络、两层全连接网络和输出层；通过双层长短时记忆网络对目标朗读特征进行特征编码，得到目标编码特征；通过两层全连接网络对目标编码特征进行特征运算，得到特征运算信息；将特征运算信息输入输出层进行音频转换，得到待处理音频对应的目标朗读音频。

其中，服务器可以输入包含音频的多媒体内容或者该多媒体内容的链接，并提取该多媒体内容中的音频作为待转换音频，例如，多媒体内容可以是视频文件、音频文件、视频流、音频流等任意包含音频的文件或数据，首先，服务器根据目标朗读特征对获取的待转换音频进行音源分离处理，以获取待转换音频的音频特征。通常，一段音频可能包括多个音轨，因此，期望获得待转换音频中的音频特征，以用于后续的音频转换处理。可以将待转换音频划分为至少两个分离音轨，该至少两个分离音轨包括音频特征和至少一个非音频特征。例如，至少一个非音频特征可以包括人声音轨、贝斯音轨、鼓点音轨以及其他音轨等中的一个或多个。然后，从至少两个分离音轨中提取待转换音频的音频特征，并根据该待转换音频的音频特征确定待处理音频的目标朗读音频，可选的，服务器还可以通过将目标朗读特征输入音频转换模型中的音频生成网络，通过双层长短时记忆网络对目标朗读特征进行特征编码，得到目标编码特征，通过两层全连接网络对目标编码特征进行特征运算，得到特征运算信息，将特征运算信息输入输出层进行音频转换，得到待处理音频对应的目标朗读音频。

205、基于智能朗读亭对目标朗读者进行身份信息查询，得到目标朗读者的身份信息；

206、对目标朗读音频和身份信息进行绑定；

207、对目标朗读音频进行属性提取，得到目标属性数据，其中，目标属性数据包括：朗读类型、朗读主题以及评价指标；

具体的，根据朗读音频对应的终端的IP地址，从网络侧记录的与朗读音频对应的终端对应的IP地址配置信息中获得朗读音频对应的终端的物理地址，IP地址配置信息是基于动态主机配置协议生成的，当从后台服务器未查询到与朗读音频对应的终端的物理地址对应的用户身份信息绑定信息时，将朗读音频对应的终端的物理地址与朗读音频对应的终端的用户身份信息绑定，其中，需要说明的是，对目标朗读音频进行属性提取，得到目标属性数据，其中，目标属性数据包括：朗读类型、朗读主题以及评价指标。

208、根据目标属性数据对目标朗读音频进行关联存储。

可选的，接收用户输入的智能朗读亭点播请求，并根据智能朗读亭点播请求匹配待播放朗读音频；播放待播放朗读音频，并对待播放朗读音频进行评分，得到目标评分信息；根据目标评分信息生成朗读音频播放榜单。

其中，接收消智能朗读亭点播请求，验证请求信息是否符合预设条件，若请求信息符合预设条件，则根据请求信息进行评分操作，具体的，在播放待播放朗读音频，并对待播放朗读音频进行评分时，服务器根据预设的评分条件对音频进行频率分析，进而得到目标频率，并根据该目标频率进行评分，得到目标评分信息，根据目标评分信息生成朗读音频播放榜单。

上面对本发明实施例中基于智能朗读亭的音频生成方法进行了描述，下面对本发明实施例中基于智能朗读亭的音频生成装置进行描述，请参阅图3，本发明实施例中基于智能朗读亭的音频生成装置一个实施例包括：

采集模块301，用于基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；

提取模块302，用于将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征；

整合模块303，用于对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征；

转换模块304，用于将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频；

存储模块305，用于对所述目标朗读音频和所述目标朗读者进行身份信息绑定，并对所述目标朗读音频进行属性提取，得到目标属性数据，以及根据所述目标属性数据对所述目标朗读音频进行关联存储。

请参阅图4，本发明实施例中基于智能朗读亭的音频生成装置另一个实施例包括：

可选的，所述采集模块301具体用于：基于预置的智能朗读亭中的音频收集终端实时采集目标朗读者的待处理音频；对所述待处理音频进行梅尔频谱转换，得到目标梅尔频谱；对所述目标梅尔频谱进行音频人声特征提取，得到音频朗读特征；调用预置的自然语言处理模型对所述待处理音频进行文本识别，得到识别文本数据；基于所述智能朗读亭获取所述待处理音频对应的标准文本数据；对所述识别文本数据和所述标准文本数据进行文本核验，生成文本朗读数据。

可选的，所述提取模块302具体用于：将所述文本朗读数据输入预置音频转换模型中的特征提取网络，其中，所述特征提取网络包括：输入层、三层卷积网络和双层门限循环网络；通过所述输入层对所述文本朗读数据进行向量编码，得到文本输入向量；通过所述三层卷积网络对所述文本输入向量进行卷积运算，得到文本特征向量；通过所述双层门限循环网络对所述文本特征向量进行特征转换，得到所述文本朗读数据对应的文本朗读特征。

可选的，所述整合模块303具体用于：分别提取所述文本朗读特征与所述音频朗读进行原始特征提取，得到文本原始特征和音频原始特征；基于预设的事件定义对所述文本原始特征和所述音频原始特征进行特征融合，得到所述待处理音频对应的目标朗读特征。

可选的，所述转换模块304具体用于：将所述目标朗读特征输入所述音频转换模型中的音频生成网络，其中，所述音频生成网络包括：双层长短时记忆网络、两层全连接网络和输出层；通过所述双层长短时记忆网络对所述目标朗读特征进行特征编码，得到目标编码特征；通过所述两层全连接网络对所述目标编码特征进行特征运算，得到特征运算信息；将所述特征运算信息输入所述输出层进行音频转换，得到所述待处理音频对应的目标朗读音频。

可选的，所述存储模块305具体用于：基于所述智能朗读亭对所述目标朗读者进行身份信息查询，得到所述目标朗读者的身份信息；对所述目标朗读音频和所述身份信息进行绑定；对所述目标朗读音频进行属性提取，得到目标属性数据，其中，所述目标属性数据包括：朗读类型、朗读主题以及评价指标；根据所述目标属性数据对所述目标朗读音频进行关联存储。

可选的，所述基于智能朗读亭的音频生成装置还包括：

生成模块306，用于接收用户输入的智能朗读亭点播请求，并根据所述智能朗读亭点播请求匹配待播放朗读音频；播放所述待播放朗读音频，并对所述待播放朗读音频进行评分，得到目标评分信息；根据所述目标评分信息生成朗读音频播放榜单。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于智能朗读亭的音频生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于智能朗读亭的音频生成设备进行详细描述。

图5是本发明实施例提供的一种基于智能朗读亭的音频生成设备的结构示意图，该基于智能朗读亭的音频生成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）510（例如，一个或一个以上处理器）和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于智能朗读亭的音频生成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在基于智能朗读亭的音频生成设备500上执行存储介质530中的一系列指令操作。

基于智能朗读亭的音频生成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于智能朗读亭的音频生成设备结构并不构成对基于智能朗读亭的音频生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于智能朗读亭的音频生成设备，所述基于智能朗读亭的音频生成设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于智能朗读亭的音频生成方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于智能朗读亭的音频生成方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于智能朗读亭的音频生成方法，其特征在于，所述基于智能朗读亭的音频生成方法包括：

基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；

将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征；

对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征；其中，所述对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征，包括：分别提取所述文本朗读特征与所述音频朗读进行原始特征提取，得到文本原始特征和音频原始特征；基于预设的事件定义对所述文本原始特征和所述音频原始特征进行特征融合，得到所述待处理音频对应的目标朗读特征；具体的，从预置的模板语音数据中的每一个语音样本中提取至少两种不同类型的帧级别声学特征，将至少两种不同类型的帧级别声学特征分别输入到每种类型所对应的浅层特征网络分支，获得每个浅层特征网络分支输出的至少两种不同类型的帧级别声学特征对应的帧级别浅层特征向量，结合注意力机制，将帧级别浅层特征向量输入特征整合网络，获得一个帧级别深度整合特征向量，将帧级别深度特征整合向量依次输入到隐藏层并传输到输出层，根据语音任务计算损失函数后，反梯度传播更新所有深度神经网络的网络参数，并对文本原始特征和音频原始特征进行特征融合，得到待处理音频对应的目标朗读特征；

将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频；

对所述目标朗读音频和所述目标朗读者进行身份信息绑定，并对所述目标朗读音频进行属性提取，得到目标属性数据，以及根据所述目标属性数据对所述目标朗读音频进行关联存储。

2.根据权利要求1所述的基于智能朗读亭的音频生成方法，其特征在于，所述基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据，包括：

基于预置的智能朗读亭中的音频收集终端实时采集目标朗读者的待处理音频；

对所述待处理音频进行梅尔频谱转换，得到目标梅尔频谱；

对所述目标梅尔频谱进行音频人声特征提取，得到音频朗读特征；

调用预置的自然语言处理模型对所述待处理音频进行文本识别，得到识别文本数据；

基于所述智能朗读亭获取所述待处理音频对应的标准文本数据；

对所述识别文本数据和所述标准文本数据进行文本核验，生成文本朗读数据。

3.根据权利要求1所述的基于智能朗读亭的音频生成方法，其特征在于，所述将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征，包括：

将所述文本朗读数据输入预置音频转换模型中的特征提取网络，其中，所述特征提取网络包括：输入层、三层卷积网络和双层门限循环网络；

通过所述输入层对所述文本朗读数据进行向量编码，得到文本输入向量；

通过所述三层卷积网络对所述文本输入向量进行卷积运算，得到文本特征向量；

通过所述双层门限循环网络对所述文本特征向量进行特征转换，得到所述文本朗读数据对应的文本朗读特征。

4.根据权利要求1所述的基于智能朗读亭的音频生成方法，其特征在于，所述将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频，包括：

将所述目标朗读特征输入所述音频转换模型中的音频生成网络，其中，所述音频生成网络包括：双层长短时记忆网络、两层全连接网络和输出层；

通过所述双层长短时记忆网络对所述目标朗读特征进行特征编码，得到目标编码特征；

通过所述两层全连接网络对所述目标编码特征进行特征运算，得到特征运算信息；

将所述特征运算信息输入所述输出层进行音频转换，得到所述待处理音频对应的目标朗读音频。

5.根据权利要求1所述的基于智能朗读亭的音频生成方法，其特征在于，所述对所述目标朗读音频和所述目标朗读者进行身份信息绑定，并对所述目标朗读音频进行属性提取，得到目标属性数据，以及根据所述目标属性数据对所述目标朗读音频进行关联存储，包括：

基于所述智能朗读亭对所述目标朗读者进行身份信息查询，得到所述目标朗读者的身份信息；

对所述目标朗读音频和所述身份信息进行绑定；

对所述目标朗读音频进行属性提取，得到目标属性数据，其中，所述目标属性数据包括：朗读类型、朗读主题以及评价指标；

根据所述目标属性数据对所述目标朗读音频进行关联存储。

6.根据权利要求1-5中任一项所述的基于智能朗读亭的音频生成方法，其特征在于，所述基于智能朗读亭的音频生成方法还包括：

接收用户输入的智能朗读亭点播请求，并根据所述智能朗读亭点播请求匹配待播放朗读音频；

播放所述待播放朗读音频，并对所述待播放朗读音频进行评分，得到目标评分信息；

根据所述目标评分信息生成朗读音频播放榜单。

7.一种基于智能朗读亭的音频生成装置，其特征在于，所述基于智能朗读亭的音频生成装置包括：

采集模块，用于基于预置的智能朗读亭采集目标朗读者的待处理音频，并对所述待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；

提取模块，用于将所述文本朗读数据输入预置音频转换模型中的特征提取网络进行文本特征提取，得到所述文本朗读数据对应的文本朗读特征；

整合模块，用于对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征；其中，所述对所述文本朗读特征与所述音频朗读特征进行特征整合，得到所述待处理音频对应的目标朗读特征，包括：分别提取所述文本朗读特征与所述音频朗读进行原始特征提取，得到文本原始特征和音频原始特征；基于预设的事件定义对所述文本原始特征和所述音频原始特征进行特征融合，得到所述待处理音频对应的目标朗读特征；具体的，从预置的模板语音数据中的每一个语音样本中提取至少两种不同类型的帧级别声学特征，将至少两种不同类型的帧级别声学特征分别输入到每种类型所对应的浅层特征网络分支，获得每个浅层特征网络分支输出的至少两种不同类型的帧级别声学特征对应的帧级别浅层特征向量，结合注意力机制，将帧级别浅层特征向量输入特征整合网络，获得一个帧级别深度整合特征向量，将帧级别深度特征整合向量依次输入到隐藏层并传输到输出层，根据语音任务计算损失函数后，反梯度传播更新所有深度神经网络的网络参数，并对文本原始特征和音频原始特征进行特征融合，得到待处理音频对应的目标朗读特征；

转换模块，用于将所述目标朗读特征输入所述音频转换模型中的音频生成网络进行音频转换，得到所述待处理音频对应的目标朗读音频；

存储模块，用于对所述目标朗读音频和所述目标朗读者进行身份信息绑定，并对所述目标朗读音频进行属性提取，得到目标属性数据，以及根据所述目标属性数据对所述目标朗读音频进行关联存储。

8.一种基于智能朗读亭的音频生成设备，其特征在于，所述基于智能朗读亭的音频生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于智能朗读亭的音频生成设备执行如权利要求1-6中任一项所述的基于智能朗读亭的音频生成方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述的基于智能朗读亭的音频生成方法。